தடைகளைத் தகர்த்த யூனிகோட்

சில ஆண்டுகளுக்கு முன் ஒரு பிரபல வாரப்பத்திரிகை கணினியைப் பயன்படுத்தித் தமிழில் எழுதும் எழுத்தாளர்கள் என்று சுஜாதாவையும் என்னையும் குறிப்பிட்டு ஒரு செய்தி வெளியிட்டிருந்தது. அன்று மாலை என் வீட்டிற்கு வந்திருந்த ஒரு நண்பர், “கணினியைக் கொண்டு தமிழில் எழுதுகிறீர்களாமே! அந்தக் கணினியை நான் பார்க்கலாம¡?” என்றார். காண்பித்தேன். எல்லோரும் பயன்படுத்தும் ஆங்கில எழுத்துக்கள் கொண்ட QWERTY என அழைக்கப்படும் விசைப்பலகைதான் என்னுடையதும். ‘ஆங்கில எழுத்துக்களாக இருக்கின்றனவே இதைக் கொண்டு எப்படி தமிழில் எழுதமுடியும்?’ என்று என்னை சற்றே சந்தேகமாகப் பார்த்தார் நண்பர்.

நான் ஆச்சரியப்படவில்லை. ஏனெனில் பலர் கணினி என்பது ஆங்கிலத்தில் இயங்குகிறது என்றுதான் நினைத்துக் கொண்டிருக்கிறார்கள். உண்மையைச் சொன்னால் கணினிக்கு ஆங்கிலம் தெரியாது. தமிழும் தெரியாது.எந்த ஒரு மொழியுமே தெரியாது. அதற்குத் தெரிந்ததெல்லாம் எண்கள். அதுவும் இரண்டே எண்கள்.சுழி, ஒன்று என்ற
இரண்டே எண்கள்.

நீங்கள் மின்விளக்கைப் போடப் பயன்படுத்தும் ஸ்விட்ச்- ஏன் எந்த ஸ்விட்சுமே- எப்போதுமே, இயக்கு அல்லது நிறுத்து என்ற இரண்டு நிலைகளில் ஏதோ ஒன்றில்தான் இருக்க முடியும்.இரண்டுக்கும் இடைப்பட்ட ஒரு நிலை என்பது அதற்குக் கிடையாது. அதுதான் கணினியின் அடிப்படையும். எனவே அதற்கு இரண்டு எண்கள் போதும்.
இரண்டு எண்களைக் கொண்டே எல்லா எண்களையும் எழுதிவிட முடியும் என்பதால் இரண்டு எண்கள் போதும்.

இயக்கு, நிறுத்து என்பதில் எந்த நிலையில் இருக்கிறது என்பதைக் குறித்த தகவல்தான் (தரவுதான் Dataதான்) இருப்பதிலேயே மிகச் சிறிய தரவு.அதை ஒரு பிட் என்று அழைத்தார்கள். எட்டு பிட்டுக்கள் கொண்டது ஒரு பைட்.ஒரு பைட்டை (அதாவது எட்டு பிட்டுகளை)க் கொண்டு 0 முதல் 255 வரை எழுதிவிடமுடியும். இந்த பைனரி எண்ணுக்கு இந்த எழுத்து என்று இட ஒதுக்கீடு செய்துவிட்டால் நீங்கள் எழுத்தால் எழுதுவதை கணினி எண்ணாக மாற்றிப் புரிந்து கொண்டு சேமித்து வைக்கும். உதாரணமாக நீங்கள் M என்ற ஆங்கில எழுத்தை தட்டச்சு செய்கிறீர்கள் என்றால் கணினி, அந்த எழுத்துக்கு ஒதுக்கப்பட்ட எண்ணின் தொகுதியாக அதை உள்வாங்கிக் கொண்டு சேமித்துக் கொள்ளும். இந்த இட ஒதுக்கீட்டை குறியீடு (Character Encoding) என்கிறார்கள். இதைப் பயன்படுத்தி
ஆளாளுக்கு அவரவருக்குப் பிடித்த விதத்தில் எண் தொகுதிகளை ஒதுக்கி, ஏராளாமான குறியீடுகளை உருவாக்கிக் கொள்ளலாம். ஆனால் அதனால் குழப்பம்தான் மிஞ்சும்.

நீங்கள் M என்ற எழுத்துக்குக் கொடுத்த எண்களின் தொகுப்பை நான் என் நிரலில் (Programme) வேறு ஒரு எழுத்திற்கு ஒதுக்கியிருந்தால் நீங்கள் எழுதியதை நீங்கள் எழுதியவாறே நான் படிக்க முடியாமல் போகும்.நீங்கள் காலச்சுவடு என்று எழுத நான் பாதச்சுவடு எனப் படிக்க நேரிடலாம். குழப்பத்தைத் தவிர்க்க இந்த இட ஒதுக்கீட்டில் எல்லோரும் ஒரு ஒழுங்கைப் பின்பற்றியாக வேண்டும். அமெரிக்கர்கள் ஆங்கிலத்திற்குப் பொதுவான ஒரு குறியீட்டு முறையை உருவாக்கினார்கள். ஆஸ்கி (ASCII) -American Standard Code for Information
Interchange என்ற அந்தக் குறியீட்டு முறை இன்றும் பரவலாக வழக்கில் இருக்கிறது.

ஆனால் தமிழில் நிலைமை அவ்வளவு எளிதாக இல்லை.நாம் தமிழர்கள் அல்லவா? ஒருவருக்கொருவர் சளைத்தவர்கள் இல்லையே! அதனால் ஆளுக்கொரு குறியீடு வைத்துக் கொண்டோம். அதனால் என் கணினியில் என் மென் பொருளைக் கொண்டு நான் எழுதியதை நீங்கள் உங்கள் வீட்டுக் கணினியில் படிக்க முடியாது. அப்படிப் படிக்க
வேண்டுமானால் நான் எழுதிய அதே மென்பொருள் உங்களிடம் இருக்க வேண்டும்.

நீண்ட நெடிய சர்ச்சைக்குப் பின் தமிழுக்கான குறியீடுகள் தரப்படுத்தப்பட்டன. அதுவரைக்கும் உலகம் காத்துக் கொண்டிருக்கவில்லை.

யூனிகோட் கன்சார்சியம் என்ற ஒரு சர்வதேச அமைப்பு உலகில் உள்ள எல்லா மொழிகளுக்கும் பொதுவான ஒரு குறியீட்டு முறையை உருவாக்கியது. அதுதான் யூனிகோட்.

இதனால் கிடைத்த நன்மை என்னவென்றால் உங்களிடத்தில் இருக்கும் ஒரே ஒரு மென்பொருளைக் கொண்டு ஆங்கிலத்தில் எழுதலாம், பிரன்ச் மொழியில் எழுதலாம்,
ரஷ்யனில் எழுதலாம், சீனத்தில் எழுதலாம், இந்தியில் எழுதலாம், தமிழிலும் எழுதலாம். ஒவ்வொன்றிற்கும் தனித் தனி மென் பொருட்கள் வாங்க வேண்டியதில்லை. உங்கள் கணியில் சிறிய மாற்றங்கள் (அதைத் தற்காலிகமாக வேண்டுமானாலும் செய்து கொள்ளலாம்) செய்து கொண்டால் போதும். சுருக்கமாகச் சொன்னால் மொழி என்கிற
மதில்சுவர்களை தொழில் நுட்பம் இடித்துத் தகர்த்து விட்டது.

என்ன நடந்தது?
எட்டு பிட்டுகள் கொண்ட ஒரு பைட்டைப் பயன்படுத்தினால் 255 இடங்கள் கிடைக்கின்றன. ஆஸ்கி அதில் முதல் 128 இடங்களை ஆங்கில எழுத்துக்களுக்கு (‘பெரிய’ (A-Z) மற்றும் ‘சிறிய (a-z) எழுத்துக்கள், கால்புள்ளி, ஆச்சரியக் குறி, வினாக்குறி போன்ற punctuations இவற்றிற்கு) எடுத்துக் கொண்டு மீதி 127 இடத்தைக் காலியாக விட்டு வைத்தது. அவரவர் தேவைக்கு ஏற்ப அதை நிரப்பிக் கொண்டார்கள். உதாரணமாக மேற்கு ஐரோப்பியர்கள் தங்கள்
மொழியில் பயன்படுத்தும் கொம்பு தாங்கிய எழுத்துகளை (accented letters) எழுத அதைப் பயன்படுத்திக் கொண்டார்கள். சற்று நகர்ந்து இஸ்ரேலுக்கு வந்தால் அந்த 127 இடங்கள் அவர்கள் தேவைக்கு ஏற்ப வேறு எழுத்துக்களுக்கு ஒதுக்கப்பட்டன.இன்னும் சற்று நகர்ந்து இந்தியாவிற்கு வந்தால் அங்கு அவை வேறு எழுத்துக்களுக்குப் பயன்பட்
டன. தாய்லாந்துக்குப் போனால் பிரிதொரு எழுத்துக்களுக்கு. அதாவது 255ல் ஆங்கிலத்திற்கான 128தான் உலகம் முழுதும் ஒரே மாதிரி. மற்ற 127 இடத்திற்கு இடம் மாறுபடும். இதனால் ஒரு கணினியில் அதிக பட்சம் இரண்டு மொழிகளைத்தான் பயன்படுத்த முடியும். அதில் ஒன்று ஆங்கிலம்.

ஆனால் யுனிகோட் 16 பிட்டுகளைப் பயன்படுத்தி உருவானது. இப்போது 255 இடங்கள் இல்லை. 65536 இடங்கள்.அதனால் எல்லோருக்கும் இடம் கொடுக்கலாம். ஒரு குறிப்பிட்ட பைனரி எண் உலகம் முழுவதும் ஒரு குறிப்பிட்ட எழுத்துக்குத்தான். ஊருக்கு ஊர் அது மாறாது. எப்படி ஆங்கிலத்திற்கு நிரந்தரமான இடம் இருந்ததோ அதே போல உலகின் முக்கிய மொழிகள் அனைத்திற்கும் நிரந்தர இடம். முத்து நெடுமாறன் வார்த்தையில் சொன்னால் தமிழுக்கு என்று ஒரு சொந்த வீடு. 2944லிருந்து 3072 வரை( 0B80 முதல் 0BFF வரை) 128 இடங்கள் தமிழுக்கு ஒதுக்கப்பட்டுள்ளது. உலகில் எங்கிருந்து பயன்படுத்தினாலும் இந்த இடத்தில் தமிழ் இருக்கும்.

சுருக்கமாகச் சொன்னால் ஆஸ்கி குறியீட்டின் கீழ் இருமொழிப் ‘புலவராக’ இருந்த கணினி யூனிகோடின் கீழ் ‘பன்மொழிப் புலவராக’ ஆகிவிட்டது. ஆங்கிலம்தான் கணினியின் மொழி என்ற ஏகபோகத்தை முறியடித்து, ஒருவித சமத்துவத்தைக் கொண்டு வந்தது யூனிகோட்.

65 ஆயிரத்து 536 இடங்கள் என்பது அண்மையில் வெளிவந்த யூனிகோட் பதிப்பில் (4.1) 97 ஆயிரத்து 720 வரை அதிகரித்திருக்கிறது. பத்துலட்சம் இடங்கள் வரை போகும் என்கிறார்கள்.

யூனிகோடின் காரணமாக  கணினியில் தமிழ் புழங்குவதில் பெரும் பாய்ச்சல் ஏற்பட்டிருக்கிறது. உலகெங்கும் உள்ள தமிழர்கள் தங்களுக்குள் செய்திகளையும் கருத்துக்களையும் பகிர்ந்து கொள்கிறார்கள்.இப்போதுதான் நான்
எழுதுவதை நீங்களும் நீங்கள் எழுதுவதை நானும் தடையின்றிப் படிக்க முடியுமே! இந்த ஒரு வசதியின் காரணமாக வலைப்பூக்கள் ( Blogs என்று ஆங்கிலத்தில் அழைக்கப்படும் Weblogs) நூற்றுக்கணக்கில் மலர்ந்திருக்கின்றன. கடந்த இரண்டு ஆண்டுகளில் தமிழில் ஏறத்தாழ 700 வலைப்பூக்களுக்கு மேல் மலர்ந்திருகின்றன. இவற்றில் இலக்
கியம், சினிமா, அரசியல், அறிவியல், ஆன்மீகம், பொருளாதாரம்,  விளையாட்டு, வரலாறு இவற்றோடு தமிழில் அதிகம் எழுதப்படாத துறைகளான மார்க்கெட்டிங், பங்கு சந்தை, கணினியியல், இவையும் இடம் பெறுகின்றன.

இந்த வலைப்பூக்களைத்  துவக்குவது முற்றிலும் இலவசம் என்பதாலும், எழுதப்படுபவை மீது தணிக்கை,சுருக்கல் நறுக்கல் நிராகரித்தல் என எந்தக் கட்டுப்பாடும் இல்லை என்பதாலும் இவற்றில் எழுதப்படுபவற்றை எளிதில் பகிர்ந்து கொள்ள முடியும் என்பதாலும், படித்தவை குறித்து உடனடியாக எழுதியவருக்கே கருத்துத் தெரிவிக்க முடியும் என்பதாலும், அந்தக் கருத்தைப் பொதுவிலும் வைக்கலாம் என்பதாலும் தமிழில் வலைப்பூக்கள் விரைவிலேயே பெரும் எண்ணிக்கையில் வளர்ச்சி காணும்.

யூனிகோட் குறியீட்டு முறையை மைக்ரோசா·ப்ட் போன்ற பன்னாட்டு நிறுவனங்கள் ஆதரிப்பதால், கணினியில் தமிழ் பெரும் வளர்ச்சிகாண வாய்ப்பு ஏற்பட்டிருக்கிறது. உலகில் உள்ள கணினிகளில் 80 சதவீதக் கணினிகள் ¨மைக்ரோசா·ப்ட் மென்பொருட்களைப் பயன்படுத்துகின்றன. பரவலாக அதிகம் பேரால் பயன்படுத்தப்படும் எம்.எஸ்.வே
ர்ட், எம்.எஸ். எக்சல் போன்ற மென்பொருட்கள் இப்போது தமிழிலேயே கிடைக்கின்றன. மின் அஞ்சல் அனுப்ப/பெற பயன்படுத்தப்படும் மைக்ரோசா·ப்ட் அவுட்லுக்கும் தமிழில் கிடைக்கிறது. இதனால் குறைந்த பட்ச ஆங்கில அறிவு இருப்பவர்கள் கூட கணினியைப் பயன்படுத்த முடியும் என்ற நிலை ஏற்பட்டிருக்கிறது.

கணினிப் பயன்பாட்டில் பன்னாட்டு நிறுவனங்களின் ஆதிக்கத்தை மட்டுப்படுத்த வேண்டும் என விரும்பும் தன்னார்வத் தொண்டர்கள் ‘திறவூற்று’  (open source) என்ற லட்சியத்தின் அடிப்படையில் பல மென்பொருட்களை உருவாக்கி இலவசமாகத் தருகிறார்கள். (www.opensource.org) இவை தமிழிலும் கிடைக்கின்றன.இந்த மென்பொருட்களும்
தன்னார்வத் தொண்டர்களும் கணினித் தமிழ் பரவ, மதப்பிரசாரகர்களைப் போல பெரும் உற்சாகத்தோடும் உறுதிப்பாடோடும் உழைத்து வருகிறார்கள்.

யூனிகோட் பிரபலமாவதற்கு முன்பு தமிழில் மேற்கொள்ளப்பட்ட தன்னார்வ முயற்சிகளும் யூனிகோடிற்கு தங்கள் மென்பொருட்களில் இடமளித்துள்ளார்கள். முத்து நெடுமாறனின் முரசு அஞ்சல், (www.murasu.com) முகுந்தராஜ் உருவாக்கிய எ-கலப்பை (www.ekalappai.com)ஆகியவைப் பரவலாகப் பயன்பாட்டில் உள்ள, தமிழ் எழுதப்
பயன்படுத்தப்படும், மென்பொருட்கள். இவை யூனிகோடிற்கு இடமளித்துள்ளன.

ஒரு பொதுவான குறியீட்டு முறை உருவாகிவிட்டதால், இதுவரை இருந்து வரும் இணைய தளங்கள், இணைய இதழ்கள், மடலாடற் குழுக்கள், வலைப்பூக்கள், செய்தி ஓடை என்ற அமைப்புக்களைத் தாண்டி பல புதிய திசைகளில் கணினித் தமிழ் அடியெடுத்து வைக்கும் நிலை இன்று ஏற்பட்டிருக்கிறது.

கணினியைப் பயன்படுத்தி ஒரு மொழியில் இருந்து இன்னொரு மொழிக்கு மொழிபெயர்ப்பது. இது சாத்தியமாகிவிட்டால் இந்தியா போன்ற பல மொழிகள் வழங்கும் ஓரு நாட்டில் மொழிப் பிரசினை தீர்ந்துவிடும். வாய்மொழியாக இடும் கட்டளைகளை, சொற்களை எழுத்து வடிவில் திரையில் காட்டும் தொழில் நுட்பம் சாத்தியமாகும் நாள் தொலைவில் இல்லை. அண்ணாப் பல்கலைக்கழகம், எஸ்.ஆர்.எம் பொறியியற்கல்லூரி, பெங்களூரில் உள்ள இந்திய அறிவியல் கழகம் இவற்றில் ஆய்வுகள் நடந்து வருகின்றன. இது சாத்தியமானால் இந்தியா போன்ற எழுத்தறிவு குறைந்த நாட்டிற்கு பேருதவி
யாக இருக்கும். இதையே திரையில் தோன்றும் எழுத்துகளை ஒலிபெயர்த்து ஒலிவடிவில் வழங்குவதும் இயலும். அதுவும் கூட பார்வையிழந்தவர்கள் கணினியைப் பயன்படுத்த உதவும்.

தனிமனிதர்களின் பயன்பாட்டிற்கு என்று இருந்துவரும் கணினியை ‘சமுதாயத்திற்கு கணினி’ (computer for society) எனற தளத்திற்கு எடுத்துச் செல்ல யூனிகோட் வழிவகுத்துள்ளது. அதன் முதல் கட்டமாக தமிழர்கள் கணினியில் தமிழில் எழுத முன் வர வேண்டும். அதற்கு இன்று அதிகம் பொருட்செலவாகாது. பெரிய தொழில்நுட்ப அறிவு தேவையில்லை. சில மணி நேரப் பயிற்சி போதும்.  கணினியில் தமிழ் வளர இனித் தடை ஏதும் இல்லை. என் தா
ய்மொழி எந்த மொழிக்கும் இளைத்தது இல்லை என்ற மன எழுட்சி ஒன்றுதான் வேண்டும்.

காலச்சுவடு மே 2006

About the Author

Leave a Reply

Your email address will not be published. Required fields are marked *

You may also like these