கொற்கை – மின்னூல்களில் உள்ள தமிழ்ச் சொற்கள் கணக்கெடுப்பு

திரு.சங்கர் அவர்கள், கோ(Go) கணினி மொழி மூலம், விக்கிப்பீடியா, வேர்டுபிரஸ், ப்லாக்கர் ஆகியவற்றில் உள்ள கட்டுரைகளை ஆய்வு செய்து, தனித்த சொற்களின் எண்ணிக்கை, எல்லா சொற்களின் தொகுப்பு ஆகியவற்றைத் தருகிறார்.

கொற்கை என்ற இந்த திட்டத்தில் மூல நிரல் இங்கே உள்ளது. https://github.com/psankar/korkai

இப்போது இந்தத் தொகுப்பில் FreeTamilEbooks.com ன் மின்னூல்களையும் ஆய்வு செய்து முடிவுகளை வெளியிட்டுள்ளார்.

உங்களுக்குப் பிடித்த மின்னூலின் தனிச் சொற்கள் தொகுப்பு, அதிகம் பயன்படுத்தப்பட்ட சொற்கள் ஆகியவற்றை இங்கே பெறலாம்.
https://github.com/psankar/korkai/tree/master/FreeTamilEBooks

இந்ந ஆய்வு தமிழில் இயல் மொழி ஆய்வுகளுக்கும் சொற்திருத்தி போன்ற கருவிகள் உருவாக்கவும் மிகவும் பயன்படும்.

Readme.md கோப்பில் உள்ள கருத்துகள் 

இந்த Directory https://github.com/psankar/korkai/blob/master/FreeTamilEBooks இல் உள்ள .txt என்று முடியும் கோப்புகள் freetamilebooks.com தளத்தில் இருந்து தரவிறக்கப் பட்டன. அவை அனைத்தும் கிரியேட்டிவ் காமன்சு முறையில் பகிரப்படுகின்றன. மேலதிகத் தகவல்களுக்கு freetamilebooks.com தளத்தை அணுகவும்.
ஒவ்வொரு நூலுக்கும், <நூலின்பெயர்-ஆசிரியரின்பெயர்>.txt.stats மற்றும் <நூலின்பெயர்-ஆசிரியரின்பெயர்>.txt.tokens என்று இரண்டு கோப்புகள் இங்கு உள்ளன..tokens கோப்புகள், அகரவரிசைப்படி ஒவ்வொரு நூலிலும் உள்ள சொற்களை அடக்கியுள்ளன. .stats கோப்புகள், ஒவ்வொரு நூலிலும் எந்தெந்த சொற்கள் எத்தனை முறை வந்துள்ளன என்று சொல்லுகின்றன.
எடுத்துக்காட்டு: சிந்தித்தால் சிரிப்பு வரும் (அல்லது) அலுவலர்களின் அட்டகாசம் – கட்டுரைகள்-பி.எஸ்.பசுபதிலிங்கம்.txt.tokens மற்றும் சிந்தித்தால் சிரிப்பு வரும் (அல்லது) அலுவலர்களின் அட்டகாசம் – கட்டுரைகள்-பி.எஸ்.பசுபதிலிங்கம்.txt.stats இதர .tokens மற்றும் .stats கோப்புகளை இங்கே காணலாம். https://github.com/psankar/korkai/blob/master/FreeTamilEBooks

 

நிரலை உருவாக்கி, கட்டற்ற மென்பொருளாக வெளியிட்ட சங்கர் Sankar P <sankar.curiosity@gmail.com> அவர்களுக்கு நன்றிகள்.

https://avatars3.githubusercontent.com/u/353037?v=3&s=400

Leave a Reply

புது மின்னூல்களை மின்னஞ்சலில் பெறுக

5200 சந்தாதாரர்களோடு இணையுங்கள்.
உங்களுக்கு இப்போது வரும் மின்னஞ்சலில் உள்ள இணைப்பின் மூலம், உறுதி செய்க. நன்றி!
உங்கள் படைப்புகளை வெளியிடலாமே
Open

நாற்பது லட்சம் பதிவிறக்கங்களை நோக்கி...

%d bloggers like this: