திரு.சங்கர் அவர்கள், கோ(Go) கணினி மொழி மூலம், விக்கிப்பீடியா, வேர்டுபிரஸ், ப்லாக்கர் ஆகியவற்றில் உள்ள கட்டுரைகளை ஆய்வு செய்து, தனித்த சொற்களின் எண்ணிக்கை, எல்லா சொற்களின் தொகுப்பு ஆகியவற்றைத் தருகிறார்.
கொற்கை என்ற இந்த திட்டத்தில் மூல நிரல் இங்கே உள்ளது. https://github.com/psankar/korkai
இப்போது இந்தத் தொகுப்பில் FreeTamilEbooks.com ன் மின்னூல்களையும் ஆய்வு செய்து முடிவுகளை வெளியிட்டுள்ளார்.
உங்களுக்குப் பிடித்த மின்னூலின் தனிச் சொற்கள் தொகுப்பு, அதிகம் பயன்படுத்தப்பட்ட சொற்கள் ஆகியவற்றை இங்கே பெறலாம்.
https://github.com/psankar/korkai/tree/master/FreeTamilEBooks
இந்ந ஆய்வு தமிழில் இயல் மொழி ஆய்வுகளுக்கும் சொற்திருத்தி போன்ற கருவிகள் உருவாக்கவும் மிகவும் பயன்படும்.
Readme.md கோப்பில் உள்ள கருத்துகள்
.txt
என்று முடியும் கோப்புகள் freetamilebooks.com தளத்தில் இருந்து தரவிறக்கப் பட்டன. அவை அனைத்தும் கிரியேட்டிவ் காமன்சு முறையில் பகிரப்படுகின்றன. மேலதிகத் தகவல்களுக்கு freetamilebooks.com தளத்தை அணுகவும்..tokens
கோப்புகள், அகரவரிசைப்படி ஒவ்வொரு நூலிலும் உள்ள சொற்களை அடக்கியுள்ளன. .stats
கோப்புகள், ஒவ்வொரு நூலிலும் எந்தெந்த சொற்கள் எத்தனை முறை வந்துள்ளன என்று சொல்லுகின்றன.
Comments
One response to “கொற்கை – மின்னூல்களில் உள்ள தமிழ்ச் சொற்கள் கணக்கெடுப்பு”
weldone this efforts