தடைகளைத் தகர்த்த யூனிகோட்

சில ஆண்டுகளுக்கு முன் ஒரு பிரபல வாரப்பத்திரிகை கணினியைப் பயன்படுத்தித் தமிழில் எழுதும் எழுத்தாளர்கள் என்று சுஜாதாவையும் என்னையும் குறிப்பிட்டு ஒரு செய்தி வெளியிட்டிருந்தது. அன்று மாலை என் வீட்டிற்கு வந்திருந்த ஒரு நண்பர், “கணினியைக் கொண்டு தமிழில் எழுதுகிறீர்களாமே! அந்தக் கணினியை நான் பார்க்கலாம¡?” என்றார். காண்பித்தேன். எல்லோரும் பயன்படுத்தும் ஆங்கில எழுத்துக்கள் கொண்ட QWERTY என அழைக்கப்படும் விசைப்பலகைதான் என்னுடையதும். ‘ஆங்கில எழுத்துக்களாக இருக்கின்றனவே இதைக் கொண்டு எப்படி தமிழில் எழுதமுடியும்?’ என்று என்னை சற்றே சந்தேகமாகப் பார்த்தார் நண்பர்.

நான் ஆச்சரியப்படவில்லை. ஏனெனில் பலர் கணினி என்பது ஆங்கிலத்தில் இயங்குகிறது என்றுதான் நினைத்துக் கொண்டிருக்கிறார்கள். உண்மையைச் சொன்னால் கணினிக்கு ஆங்கிலம் தெரியாது. தமிழும் தெரியாது.எந்த ஒரு மொழியுமே தெரியாது. அதற்குத் தெரிந்ததெல்லாம் எண்கள். அதுவும் இரண்டே எண்கள்.சுழி, ஒன்று என்ற
இரண்டே எண்கள்.

நீங்கள் மின்விளக்கைப் போடப் பயன்படுத்தும் ஸ்விட்ச்- ஏன் எந்த ஸ்விட்சுமே- எப்போதுமே, இயக்கு அல்லது நிறுத்து என்ற இரண்டு நிலைகளில் ஏதோ ஒன்றில்தான் இருக்க முடியும்.இரண்டுக்கும் இடைப்பட்ட ஒரு நிலை என்பது அதற்குக் கிடையாது. அதுதான் கணினியின் அடிப்படையும். எனவே அதற்கு இரண்டு எண்கள் போதும்.
இரண்டு எண்களைக் கொண்டே எல்லா எண்களையும் எழுதிவிட முடியும் என்பதால் இரண்டு எண்கள் போதும்.

இயக்கு, நிறுத்து என்பதில் எந்த நிலையில் இருக்கிறது என்பதைக் குறித்த தகவல்தான் (தரவுதான் Dataதான்) இருப்பதிலேயே மிகச் சிறிய தரவு.அதை ஒரு பிட் என்று அழைத்தார்கள். எட்டு பிட்டுக்கள் கொண்டது ஒரு பைட்.ஒரு பைட்டை (அதாவது எட்டு பிட்டுகளை)க் கொண்டு 0 முதல் 255 வரை எழுதிவிடமுடியும். இந்த பைனரி எண்ணுக்கு இந்த எழுத்து என்று இட ஒதுக்கீடு செய்துவிட்டால் நீங்கள் எழுத்தால் எழுதுவதை கணினி எண்ணாக மாற்றிப் புரிந்து கொண்டு சேமித்து வைக்கும். உதாரணமாக நீங்கள் M என்ற ஆங்கில எழுத்தை தட்டச்சு செய்கிறீர்கள் என்றால் கணினி, அந்த எழுத்துக்கு ஒதுக்கப்பட்ட எண்ணின் தொகுதியாக அதை உள்வாங்கிக் கொண்டு சேமித்துக் கொள்ளும். இந்த இட ஒதுக்கீட்டை குறியீடு (Character Encoding) என்கிறார்கள். இதைப் பயன்படுத்தி
ஆளாளுக்கு அவரவருக்குப் பிடித்த விதத்தில் எண் தொகுதிகளை ஒதுக்கி, ஏராளாமான குறியீடுகளை உருவாக்கிக் கொள்ளலாம். ஆனால் அதனால் குழப்பம்தான் மிஞ்சும்.

நீங்கள் M என்ற எழுத்துக்குக் கொடுத்த எண்களின் தொகுப்பை நான் என் நிரலில் (Programme) வேறு ஒரு எழுத்திற்கு ஒதுக்கியிருந்தால் நீங்கள் எழுதியதை நீங்கள் எழுதியவாறே நான் படிக்க முடியாமல் போகும்.நீங்கள் காலச்சுவடு என்று எழுத நான் பாதச்சுவடு எனப் படிக்க நேரிடலாம். குழப்பத்தைத் தவிர்க்க இந்த இட ஒதுக்கீட்டில் எல்லோரும் ஒரு ஒழுங்கைப் பின்பற்றியாக வேண்டும். அமெரிக்கர்கள் ஆங்கிலத்திற்குப் பொதுவான ஒரு குறியீட்டு முறையை உருவாக்கினார்கள். ஆஸ்கி (ASCII) -American Standard Code for Information
Interchange என்ற அந்தக் குறியீட்டு முறை இன்றும் பரவலாக வழக்கில் இருக்கிறது.

ஆனால் தமிழில் நிலைமை அவ்வளவு எளிதாக இல்லை.நாம் தமிழர்கள் அல்லவா? ஒருவருக்கொருவர் சளைத்தவர்கள் இல்லையே! அதனால் ஆளுக்கொரு குறியீடு வைத்துக் கொண்டோம். அதனால் என் கணினியில் என் மென் பொருளைக் கொண்டு நான் எழுதியதை நீங்கள் உங்கள் வீட்டுக் கணினியில் படிக்க முடியாது. அப்படிப் படிக்க
வேண்டுமானால் நான் எழுதிய அதே மென்பொருள் உங்களிடம் இருக்க வேண்டும்.

நீண்ட நெடிய சர்ச்சைக்குப் பின் தமிழுக்கான குறியீடுகள் தரப்படுத்தப்பட்டன. அதுவரைக்கும் உலகம் காத்துக் கொண்டிருக்கவில்லை.

யூனிகோட் கன்சார்சியம் என்ற ஒரு சர்வதேச அமைப்பு உலகில் உள்ள எல்லா மொழிகளுக்கும் பொதுவான ஒரு குறியீட்டு முறையை உருவாக்கியது. அதுதான் யூனிகோட்.

இதனால் கிடைத்த நன்மை என்னவென்றால் உங்களிடத்தில் இருக்கும் ஒரே ஒரு மென்பொருளைக் கொண்டு ஆங்கிலத்தில் எழுதலாம், பிரன்ச் மொழியில் எழுதலாம்,
ரஷ்யனில் எழுதலாம், சீனத்தில் எழுதலாம், இந்தியில் எழுதலாம், தமிழிலும் எழுதலாம். ஒவ்வொன்றிற்கும் தனித் தனி மென் பொருட்கள் வாங்க வேண்டியதில்லை. உங்கள் கணியில் சிறிய மாற்றங்கள் (அதைத் தற்காலிகமாக வேண்டுமானாலும் செய்து கொள்ளலாம்) செய்து கொண்டால் போதும். சுருக்கமாகச் சொன்னால் மொழி என்கிற
மதில்சுவர்களை தொழில் நுட்பம் இடித்துத் தகர்த்து விட்டது.

என்ன நடந்தது?
எட்டு பிட்டுகள் கொண்ட ஒரு பைட்டைப் பயன்படுத்தினால் 255 இடங்கள் கிடைக்கின்றன. ஆஸ்கி அதில் முதல் 128 இடங்களை ஆங்கில எழுத்துக்களுக்கு (‘பெரிய’ (A-Z) மற்றும் ‘சிறிய (a-z) எழுத்துக்கள், கால்புள்ளி, ஆச்சரியக் குறி, வினாக்குறி போன்ற punctuations இவற்றிற்கு) எடுத்துக் கொண்டு மீதி 127 இடத்தைக் காலியாக விட்டு வைத்தது. அவரவர் தேவைக்கு ஏற்ப அதை நிரப்பிக் கொண்டார்கள். உதாரணமாக மேற்கு ஐரோப்பியர்கள் தங்கள்
மொழியில் பயன்படுத்தும் கொம்பு தாங்கிய எழுத்துகளை (accented letters) எழுத அதைப் பயன்படுத்திக் கொண்டார்கள். சற்று நகர்ந்து இஸ்ரேலுக்கு வந்தால் அந்த 127 இடங்கள் அவர்கள் தேவைக்கு ஏற்ப வேறு எழுத்துக்களுக்கு ஒதுக்கப்பட்டன.இன்னும் சற்று நகர்ந்து இந்தியாவிற்கு வந்தால் அங்கு அவை வேறு எழுத்துக்களுக்குப் பயன்பட்
டன. தாய்லாந்துக்குப் போனால் பிரிதொரு எழுத்துக்களுக்கு. அதாவது 255ல் ஆங்கிலத்திற்கான 128தான் உலகம் முழுதும் ஒரே மாதிரி. மற்ற 127 இடத்திற்கு இடம் மாறுபடும். இதனால் ஒரு கணினியில் அதிக பட்சம் இரண்டு மொழிகளைத்தான் பயன்படுத்த முடியும். அதில் ஒன்று ஆங்கிலம்.

ஆனால் யுனிகோட் 16 பிட்டுகளைப் பயன்படுத்தி உருவானது. இப்போது 255 இடங்கள் இல்லை. 65536 இடங்கள்.அதனால் எல்லோருக்கும் இடம் கொடுக்கலாம். ஒரு குறிப்பிட்ட பைனரி எண் உலகம் முழுவதும் ஒரு குறிப்பிட்ட எழுத்துக்குத்தான். ஊருக்கு ஊர் அது மாறாது. எப்படி ஆங்கிலத்திற்கு நிரந்தரமான இடம் இருந்ததோ அதே போல உலகின் முக்கிய மொழிகள் அனைத்திற்கும் நிரந்தர இடம். முத்து நெடுமாறன் வார்த்தையில் சொன்னால் தமிழுக்கு என்று ஒரு சொந்த வீடு. 2944லிருந்து 3072 வரை( 0B80 முதல் 0BFF வரை) 128 இடங்கள் தமிழுக்கு ஒதுக்கப்பட்டுள்ளது. உலகில் எங்கிருந்து பயன்படுத்தினாலும் இந்த இடத்தில் தமிழ் இருக்கும்.

சுருக்கமாகச் சொன்னால் ஆஸ்கி குறியீட்டின் கீழ் இருமொழிப் ‘புலவராக’ இருந்த கணினி யூனிகோடின் கீழ் ‘பன்மொழிப் புலவராக’ ஆகிவிட்டது. ஆங்கிலம்தான் கணினியின் மொழி என்ற ஏகபோகத்தை முறியடித்து, ஒருவித சமத்துவத்தைக் கொண்டு வந்தது யூனிகோட்.

65 ஆயிரத்து 536 இடங்கள் என்பது அண்மையில் வெளிவந்த யூனிகோட் பதிப்பில் (4.1) 97 ஆயிரத்து 720 வரை அதிகரித்திருக்கிறது. பத்துலட்சம் இடங்கள் வரை போகும் என்கிறார்கள்.

யூனிகோடின் காரணமாக  கணினியில் தமிழ் புழங்குவதில் பெரும் பாய்ச்சல் ஏற்பட்டிருக்கிறது. உலகெங்கும் உள்ள தமிழர்கள் தங்களுக்குள் செய்திகளையும் கருத்துக்களையும் பகிர்ந்து கொள்கிறார்கள்.இப்போதுதான் நான்
எழுதுவதை நீங்களும் நீங்கள் எழுதுவதை நானும் தடையின்றிப் படிக்க முடியுமே! இந்த ஒரு வசதியின் காரணமாக வலைப்பூக்கள் ( Blogs என்று ஆங்கிலத்தில் அழைக்கப்படும் Weblogs) நூற்றுக்கணக்கில் மலர்ந்திருக்கின்றன. கடந்த இரண்டு ஆண்டுகளில் தமிழில் ஏறத்தாழ 700 வலைப்பூக்களுக்கு மேல் மலர்ந்திருகின்றன. இவற்றில் இலக்
கியம், சினிமா, அரசியல், அறிவியல், ஆன்மீகம், பொருளாதாரம்,  விளையாட்டு, வரலாறு இவற்றோடு தமிழில் அதிகம் எழுதப்படாத துறைகளான மார்க்கெட்டிங், பங்கு சந்தை, கணினியியல், இவையும் இடம் பெறுகின்றன.

இந்த வலைப்பூக்களைத்  துவக்குவது முற்றிலும் இலவசம் என்பதாலும், எழுதப்படுபவை மீது தணிக்கை,சுருக்கல் நறுக்கல் நிராகரித்தல் என எந்தக் கட்டுப்பாடும் இல்லை என்பதாலும் இவற்றில் எழுதப்படுபவற்றை எளிதில் பகிர்ந்து கொள்ள முடியும் என்பதாலும், படித்தவை குறித்து உடனடியாக எழுதியவருக்கே கருத்துத் தெரிவிக்க முடியும் என்பதாலும், அந்தக் கருத்தைப் பொதுவிலும் வைக்கலாம் என்பதாலும் தமிழில் வலைப்பூக்கள் விரைவிலேயே பெரும் எண்ணிக்கையில் வளர்ச்சி காணும்.

யூனிகோட் குறியீட்டு முறையை மைக்ரோசா·ப்ட் போன்ற பன்னாட்டு நிறுவனங்கள் ஆதரிப்பதால், கணினியில் தமிழ் பெரும் வளர்ச்சிகாண வாய்ப்பு ஏற்பட்டிருக்கிறது. உலகில் உள்ள கணினிகளில் 80 சதவீதக் கணினிகள் ¨மைக்ரோசா·ப்ட் மென்பொருட்களைப் பயன்படுத்துகின்றன. பரவலாக அதிகம் பேரால் பயன்படுத்தப்படும் எம்.எஸ்.வே
ர்ட், எம்.எஸ். எக்சல் போன்ற மென்பொருட்கள் இப்போது தமிழிலேயே கிடைக்கின்றன. மின் அஞ்சல் அனுப்ப/பெற பயன்படுத்தப்படும் மைக்ரோசா·ப்ட் அவுட்லுக்கும் தமிழில் கிடைக்கிறது. இதனால் குறைந்த பட்ச ஆங்கில அறிவு இருப்பவர்கள் கூட கணினியைப் பயன்படுத்த முடியும் என்ற நிலை ஏற்பட்டிருக்கிறது.

கணினிப் பயன்பாட்டில் பன்னாட்டு நிறுவனங்களின் ஆதிக்கத்தை மட்டுப்படுத்த வேண்டும் என விரும்பும் தன்னார்வத் தொண்டர்கள் ‘திறவூற்று’  (open source) என்ற லட்சியத்தின் அடிப்படையில் பல மென்பொருட்களை உருவாக்கி இலவசமாகத் தருகிறார்கள். (www.opensource.org) இவை தமிழிலும் கிடைக்கின்றன.இந்த மென்பொருட்களும்
தன்னார்வத் தொண்டர்களும் கணினித் தமிழ் பரவ, மதப்பிரசாரகர்களைப் போல பெரும் உற்சாகத்தோடும் உறுதிப்பாடோடும் உழைத்து வருகிறார்கள்.

யூனிகோட் பிரபலமாவதற்கு முன்பு தமிழில் மேற்கொள்ளப்பட்ட தன்னார்வ முயற்சிகளும் யூனிகோடிற்கு தங்கள் மென்பொருட்களில் இடமளித்துள்ளார்கள். முத்து நெடுமாறனின் முரசு அஞ்சல், (www.murasu.com) முகுந்தராஜ் உருவாக்கிய எ-கலப்பை (www.ekalappai.com)ஆகியவைப் பரவலாகப் பயன்பாட்டில் உள்ள, தமிழ் எழுதப்
பயன்படுத்தப்படும், மென்பொருட்கள். இவை யூனிகோடிற்கு இடமளித்துள்ளன.

ஒரு பொதுவான குறியீட்டு முறை உருவாகிவிட்டதால், இதுவரை இருந்து வரும் இணைய தளங்கள், இணைய இதழ்கள், மடலாடற் குழுக்கள், வலைப்பூக்கள், செய்தி ஓடை என்ற அமைப்புக்களைத் தாண்டி பல புதிய திசைகளில் கணினித் தமிழ் அடியெடுத்து வைக்கும் நிலை இன்று ஏற்பட்டிருக்கிறது.

கணினியைப் பயன்படுத்தி ஒரு மொழியில் இருந்து இன்னொரு மொழிக்கு மொழிபெயர்ப்பது. இது சாத்தியமாகிவிட்டால் இந்தியா போன்ற பல மொழிகள் வழங்கும் ஓரு நாட்டில் மொழிப் பிரசினை தீர்ந்துவிடும். வாய்மொழியாக இடும் கட்டளைகளை, சொற்களை எழுத்து வடிவில் திரையில் காட்டும் தொழில் நுட்பம் சாத்தியமாகும் நாள் தொலைவில் இல்லை. அண்ணாப் பல்கலைக்கழகம், எஸ்.ஆர்.எம் பொறியியற்கல்லூரி, பெங்களூரில் உள்ள இந்திய அறிவியல் கழகம் இவற்றில் ஆய்வுகள் நடந்து வருகின்றன. இது சாத்தியமானால் இந்தியா போன்ற எழுத்தறிவு குறைந்த நாட்டிற்கு பேருதவி
யாக இருக்கும். இதையே திரையில் தோன்றும் எழுத்துகளை ஒலிபெயர்த்து ஒலிவடிவில் வழங்குவதும் இயலும். அதுவும் கூட பார்வையிழந்தவர்கள் கணினியைப் பயன்படுத்த உதவும்.

தனிமனிதர்களின் பயன்பாட்டிற்கு என்று இருந்துவரும் கணினியை ‘சமுதாயத்திற்கு கணினி’ (computer for society) எனற தளத்திற்கு எடுத்துச் செல்ல யூனிகோட் வழிவகுத்துள்ளது. அதன் முதல் கட்டமாக தமிழர்கள் கணினியில் தமிழில் எழுத முன் வர வேண்டும். அதற்கு இன்று அதிகம் பொருட்செலவாகாது. பெரிய தொழில்நுட்ப அறிவு தேவையில்லை. சில மணி நேரப் பயிற்சி போதும்.  கணினியில் தமிழ் வளர இனித் தடை ஏதும் இல்லை. என் தா
ய்மொழி எந்த மொழிக்கும் இளைத்தது இல்லை என்ற மன எழுட்சி ஒன்றுதான் வேண்டும்.

காலச்சுவடு மே 2006

பின்னூட்டங்கள்

Your email address will not be published. Required fields are marked *