திரு.சங்கர் அவர்கள், கோ(Go) கணினி மொழி மூலம், விக்கிப்பீடியா, வேர்டுபிரஸ், ப்லாக்கர் ஆகியவற்றில் உள்ள கட்டுரைகளை ஆய்வு செய்து, தனித்த சொற்களின் எண்ணிக்கை, எல்லா சொற்களின் தொகுப்பு ஆகியவற்றைத் தருகிறார்.
கொற்கை என்ற இந்த திட்டத்தில் மூல நிரல் இங்கே உள்ளது. https://github.com/psankar/korkai
இப்போது இந்தத் தொகுப்பில் FreeTamilEbooks.com ன் மின்னூல்களையும் ஆய்வு செய்து முடிவுகளை வெளியிட்டுள்ளார்.
உங்களுக்குப் பிடித்த மின்னூலின் தனிச் சொற்கள் தொகுப்பு, அதிகம் பயன்படுத்தப்பட்ட சொற்கள் ஆகியவற்றை இங்கே பெறலாம்.
https://github.com/psankar/korkai/tree/master/FreeTamilEBooks
இந்ந ஆய்வு தமிழில் இயல் மொழி ஆய்வுகளுக்கும் சொற்திருத்தி போன்ற கருவிகள் உருவாக்கவும் மிகவும் பயன்படும்.
Readme.md கோப்பில் உள்ள கருத்துகள்
.txt என்று முடியும் கோப்புகள் freetamilebooks.com தளத்தில் இருந்து தரவிறக்கப் பட்டன. அவை அனைத்தும் கிரியேட்டிவ் காமன்சு முறையில் பகிரப்படுகின்றன. மேலதிகத் தகவல்களுக்கு freetamilebooks.com தளத்தை அணுகவும்..tokens கோப்புகள், அகரவரிசைப்படி ஒவ்வொரு நூலிலும் உள்ள சொற்களை அடக்கியுள்ளன. .stats கோப்புகள், ஒவ்வொரு நூலிலும் எந்தெந்த சொற்கள் எத்தனை முறை வந்துள்ளன என்று சொல்லுகின்றன.
Comments
One response to “கொற்கை – மின்னூல்களில் உள்ள தமிழ்ச் சொற்கள் கணக்கெடுப்பு”
weldone this efforts