கொற்கை – மின்னூல்களில் உள்ள தமிழ்ச் சொற்கள் கணக்கெடுப்பு

திரு.சங்கர் அவர்கள், கோ(Go) கணினி மொழி மூலம், விக்கிப்பீடியா, வேர்டுபிரஸ், ப்லாக்கர் ஆகியவற்றில் உள்ள கட்டுரைகளை ஆய்வு செய்து, தனித்த சொற்களின் எண்ணிக்கை, எல்லா சொற்களின் தொகுப்பு ஆகியவற்றைத் தருகிறார்.

கொற்கை என்ற இந்த திட்டத்தில் மூல நிரல் இங்கே உள்ளது. https://github.com/psankar/korkai

இப்போது இந்தத் தொகுப்பில் FreeTamilEbooks.com ன் மின்னூல்களையும் ஆய்வு செய்து முடிவுகளை வெளியிட்டுள்ளார்.

உங்களுக்குப் பிடித்த மின்னூலின் தனிச் சொற்கள் தொகுப்பு, அதிகம் பயன்படுத்தப்பட்ட சொற்கள் ஆகியவற்றை இங்கே பெறலாம்.
https://github.com/psankar/korkai/tree/master/FreeTamilEBooks

இந்ந ஆய்வு தமிழில் இயல் மொழி ஆய்வுகளுக்கும் சொற்திருத்தி போன்ற கருவிகள் உருவாக்கவும் மிகவும் பயன்படும்.

Readme.md கோப்பில் உள்ள கருத்துகள் 

இந்த Directory https://github.com/psankar/korkai/blob/master/FreeTamilEBooks இல் உள்ள .txt என்று முடியும் கோப்புகள் freetamilebooks.com தளத்தில் இருந்து தரவிறக்கப் பட்டன. அவை அனைத்தும் கிரியேட்டிவ் காமன்சு முறையில் பகிரப்படுகின்றன. மேலதிகத் தகவல்களுக்கு freetamilebooks.com தளத்தை அணுகவும்.
ஒவ்வொரு நூலுக்கும், <நூலின்பெயர்-ஆசிரியரின்பெயர்>.txt.stats மற்றும் <நூலின்பெயர்-ஆசிரியரின்பெயர்>.txt.tokens என்று இரண்டு கோப்புகள் இங்கு உள்ளன..tokens கோப்புகள், அகரவரிசைப்படி ஒவ்வொரு நூலிலும் உள்ள சொற்களை அடக்கியுள்ளன. .stats கோப்புகள், ஒவ்வொரு நூலிலும் எந்தெந்த சொற்கள் எத்தனை முறை வந்துள்ளன என்று சொல்லுகின்றன.
எடுத்துக்காட்டு: சிந்தித்தால் சிரிப்பு வரும் (அல்லது) அலுவலர்களின் அட்டகாசம் – கட்டுரைகள்-பி.எஸ்.பசுபதிலிங்கம்.txt.tokens மற்றும் சிந்தித்தால் சிரிப்பு வரும் (அல்லது) அலுவலர்களின் அட்டகாசம் – கட்டுரைகள்-பி.எஸ்.பசுபதிலிங்கம்.txt.stats இதர .tokens மற்றும் .stats கோப்புகளை இங்கே காணலாம். https://github.com/psankar/korkai/blob/master/FreeTamilEBooks
all.tokens  https://github.com/psankar/korkai/blob/master/FreeTamilEBooks/all.tokens?raw=true என்ற கோப்பில், freetamilebooks தளத்தில் உள்ள அனைத்து unique தமிழ் சொற்களும் திரட்டப்பட்டுள்ளன.

 

நிரலை உருவாக்கி, கட்டற்ற மென்பொருளாக வெளியிட்ட சங்கர் Sankar P <[email protected]> அவர்களுக்கு நன்றிகள்.

https://avatars3.githubusercontent.com/u/353037?v=3&s=400


Posted

in

by

ஆசிரியர்கள்:

Comments

One response to “கொற்கை – மின்னூல்களில் உள்ள தமிழ்ச் சொற்கள் கணக்கெடுப்பு”

  1. marudhamtv Avatar

    weldone this efforts