मराठीत ऑफलाईन टंकलेखन

Submitted by shantanuo on 11 September, 2018 - 09:51

गुगल इनपुट टूल्स वापरून ऑनलाईन टाइप करता येते.
https://www.google.com/inputtools/

पण मायक्रोसॉफ्ट वर्ड मध्ये टाईप करण्यासाठी त्याचा उपयोग नाही. भाषाइंडीया या साईटवरून डाऊनलोड केलेल्या इनपुट एडिटरचा अनुभव कसा आहे?
https://bhashaindia.com/downloads.aspx

यात स्पेल चेक / एटो करेक्ट नाही. तशी अपेक्षाही नाही कारण हे फक्त इनपुट टूल आहे. हा मजकूर मी याच टूलाचा वापरा करूंन वर्डमध्ये लिहिला आहे. मजकूर सेव्ह होण्यात काही अडचण (सध्या तरी) आलेली नाही. बरहाच्या आठवणीने अजूनही व्यथित होणार्या मंडळीनी वापरून बघायला हवे असे. ऑफलाईन टंकलेखन कारण्याकरता अजून काय मार्ग आहेत?

Group content visibility: 
Use group defaults

झांजर असा एक शब्द मराठीत आहे. दाते शब्दकोशाप्रमाणे त्याचा अर्थ "जीर्ण होणे" असा आहे
>>
झांजड jhāñjaḍa, झांजर jhāñjara n f झांजरमांजर f The first glimmering of dawn. Gen. reduplicated; as झां॰ झां॰ झालें उठा. 2 Applied also to the dusk of evening. Also written झांजडमांजड & झांजड & झांझडमां- झड. v पड, हो. Also adverbially, glimmeringly &c.

https://dsal.uchicago.edu/cgi-bin/app/molesworth_query.py?qs=%E0%A4%9D%E...

पण तो विषय नाही.
>>
जर तो विषय नाही, तर ईथे का लिहिला?

पण हा कोणता भलता शब्द इथे घुसवला? असे म्हणत काही मराठी माणसांनी त्यात "चांदण चांदण झाली रात” असा बदल केला!
>>
हे कधी झाले? त्या मराठी माणसांची नावे द्यावीत. अगदी याच कारणामुळे त्यांना हा बदल करावा वाटला याचा पुरावा द्यावा. की काहीही बिनबुडाचे आरोप करण्याची खोड आहे तुम्हाला? हा धागा तुमच्या कामाचे अपडेट्स देण्यासाठी आहे की तुम्हाला ज्यांची मते पटत नाहीत अशा ईतर मराठी लोकांना नावे ठेवण्यासाठी आहे?

शंतनु,
ईथे मी हिंदीमुळे होणा-या वाईट परिणामांची यादी दिली होती. त्यावर तुमचे काही उत्तर आले नाही. तुम्ही काही‌ मदत केली नाहीत. वर आणखी ईतर मराठी लोकानांच नावे ठेवत फिरत आहात? एवढा मराठी द्वेष आहे तर हिंदी स्पेलचेकवरच का नाही‌ काम करत?

आपण आपल्या प्रतिसादात असे कुठेही म्हटलेले नसले तरी आपल्या प्रतिसादाचा रोख लक्षात घेऊन "झांजर" या शब्दाला तिन्ही टॅग (ikl) परत जोडले. इतकेच नव्हे तर झांजऱ्या/h असा नवीन शब्द जमा केला.
मी एक पी.डी.एफ. फाईल बनवत असून त्यात मायबोलीवर आलेल्या काही निवडक प्रतिक्रिया व त्या देणाऱ्यांची पूर्ण नावे देत आहे. मौल्यवान सूचना, अभिप्राय देणाऱ्यांचा ऋणनिर्देश तसेच भारतीय भाषांतील स्पेल चेकचा अभ्यास करणाऱ्यांना माहिती असा त्याचा दुहेरी उद्देश आहे.

<< एवढा मराठी द्वेष आहे तर हिंदी स्पेलचेकवरच का नाही‌ काम करत? >>

इतना गुस्सा क्यो कर रहे हो? मराठी के प्रति इतना ज्यादा प्यार है तो शंतनु साहब का हाथ क्युं नही बटाते, उनके इतने अच्छे कार्य में?
इससे बेहतर सुझाव है कि मराठी विकिपिडिया के लिए योगदान करे |

आपण आपल्या प्रतिसादात असे कुठेही म्हटलेले नसले तरी आपल्या प्रतिसादाचा रोख लक्षात घेऊन
>>
ते टॅग काढावे की नको या बद्दल मी काहीही म्हटलेले नाही. प्रतिसादाचा रोख, माझ्या हिंदीबद्दल मदतीच्या आवाहनाला दुर्लक्ष करुन वर मलाच नावे ठेवली व पुरावे न देता आरोप केले त्याकडे होता.

मी एक पी.डी.एफ. फाईल बनवत असून त्यात मायबोलीवर आलेल्या काही निवडक प्रतिक्रिया व त्या देणाऱ्यांची पूर्ण नावे देत आहे
नवीन Submitted by shantanuo on 9 December, 2020 - 08:21
>>
अशाप्रकारची कुठलीही परवानगी मी कोणालाही कुठल्याही स्वरुपात दिलेली नाही, त्यामुळे माझे नाव व प्रतिक्रिया यांचा उल्लेख किंवा वापर कुठेही करु नये.

Submitted by उपाशी बोका on 9 December, 2020 - 09:18
>>
तुम्ही लिहिलेले पूर्ण समजले नाही.
मराठी बद्दल एवढे प्रेम आहे तर काय करावे हे मी मागच्या प्रतिसादत लिहिले आहे व तुम्हा सगळ्यांची मदत मागितली आहे. ती मदत करायची सोडुन तुम्ही सगळे मलाच उलटे बोलत आहात. तेव्हा तुम्हीच आत्मपरिक्षण करा.
शंतनु यांच्या प्रकल्पात मदत करणे ही काही मराठीवर किती प्रेम आहे हे दाखवण्याची कसोटी नाही.
जिथे त्यांनी चांगले काम केले त्याला चांगले म्हटले होते. आता ते हिंदीचा प्रसार करत आहेत, आता चूक म्हणतो.

तुम्हीच आत्मपरिक्षण करा आणि उगीच इतरांना शहाणपणा शिकवणे आणि उद्धटपणे बोलणे सोडून द्या.

<<त्यामुळे माझे नाव व प्रतिक्रिया यांचा उल्लेख किंवा वापर कुठेही करु नये. >>
शंतनु तुमचे नाव आणि प्रतिक्रिया वापरतीलच, असे त्यांनी म्हटलेले नाही. त्यामुळे नको त्या भ्रमात राहू नका. On the other hand, it is allowed under Fair Use. काय करायचे ते करून घ्या.

हो, मी वकीलपत्र घेतले आहे.

<< हिंदीमूळे होणा-या नुकसानीचे काय? >>
कसलं नुकसान? पटत नसेल तर हिंदी वापरू नका. तुम्हाला कुणीही आग्रह केला नाहीये. पण म्हणून इतरांनी हिंदीसाठी काही करू नये हा अधिकार तुम्हाला नाही.

लिब्रे ऑफिसच्या रायटरमध्ये ऍटो-करेक्ट वापरण्याची दुसरी एक युक्ती आहे. उदाहरण म्हणून मी खाली दिलेले एक वाक्य रायटरमध्ये कॉपी-पेस्ट केले.
परयतन, दुसवास असे कठिण शबद लिहले.

यात चार शब्द अशुद्ध आहेत आणि त्यांना लाल अंडरलाईन देखील दिसेल. आता टूल्स – ऍटोकरेक्ट – अप्लाय हा पर्याय वापरला की चारही शब्द बदलून मिळतील हे असे...
प्रयत्न दुःस्वास असे कठीण शब्द लिहले.

यामुळे आपला शब्द तपासणीचा बराच वेळ वाचू शकतो. यासाठी आधी सर्व मजकूर सिलेक्ट करून Default Paragraph Style मध्ये बदलून घ्यावा लागेल, खालील चित्रात दाखविल्याप्रमाणे…

ऍटो-करेक्टमुळे वेळ वाचतो हा एक भाग झाला. त्याबरोबर दुसरा मुद्दा असा आहे की चुकीच्या शब्दांना योग्य शब्द सुचवताना जे पर्याय येतात ते काही वेळा समर्पक नसतात. उदाहरण म्हणून "परयतन" या शब्दाला मिळणारे चार पर्याय पाहू. “परताया परतपरत परततोय परतून"- प्रयत्न हा शब्दच यात नाही. तीच स्थिती "दुसवास" या शब्दाची असून त्याला हे चार पर्याय मिळतात - “सुसंवाद दुसराच वासुदेव दुःसाहस" दुःस्वास हा शब्द डिक्शनरीत असूनही पर्यायात मिळत नाही. असे का होत आहे ते पाहूया.

"वालवतो" या शब्दाला “वाळवतो” अशी सुचवणी न येता “चालवतो, घालवतो, खालवतो, खालावतो" हे शब्द सुचवले जात आहेत. याचे कारण हंस्पेलने "वालवतो" या शब्दातील "वा” चुकीचा असण्याची शक्यता गृहीत धरली आहे. आता आपण दुसरा शब्द पाहू. "वाडवतात” या शब्दाला “वागवतात वाजवतात वाळवतात वाचवतात" अशी सुचवणी येत आहे. याचा अर्थ इथे "वा” नव्हे तर "ड” बदलायला हवाय हे हंस्पेलला बरोबर कळले. पण "ड” ला "ढ” हा "ग” अथवा "ज” पेक्षा जास्त जवळचा पर्याय आहे हे त्याला माहीत नाही. त्यामुळे "वाढवतात” हा पर्याय दिसत नाही. लोकं "ढ” च्या ऐवजी "ड” टाईप करतात कारण फोनेटिक मध्ये "ढ” काढणे हे "ड” पेक्षा जास्त त्रासदायक ठरते. कोणते अक्षर कोणत्या अक्षराला जास्त जवळचे आहे हे हंस्पेलला शिकवण्यासाठी "रिप्लेसमेंट टॅग" वापरता येतो.
REP 9
REP स श
REP स ष
REP श ष
REP प फ
REP ज झ
REP ल ळ
REP न ण
REP त ट
REP ड ढ

"विसरला" हा शब्द "विषरला" असा सहसा लिहिला जात नाही. कारण बहुतेक इन्पुट मेथडमध्ये ष हे अक्षर काढण्यासाठी ३ की-स्ट्रोक वापरावे लागतात. पण "विषय" हा शब्द "विशय" असा सर्रास लिहला जातो. त्यामुळे वर दिलेल्या रिप्लेसमेंट टेबलमध्ये श – ष अशी नोंद असली तरी ष – श अशी नोंद नाही. यात कोणाला काही बदल करायचा असेल तर विकीच्या ह्या पानावर चुकीचा शब्द – बरोबर शब्द – सध्या दिसणारे पर्याय अशी नोंद करावी.
https://tinyurl.com/hunspell-replacement

रिप्लेसमेंट टॅग बरोबरच ट्राय टॅग वापरता येईल.
TRY आईऊऐऔखघछझठढणनथधफभशषक्षज्ञ

या टॅग मध्ये दिलेले अक्षर बदलून जर योग्य शब्द मिळाला तर हंस्पेल तो शब्द सुचवेल. म्हणजे "विशय" या चुकीच्या शब्दाला पर्याय सुचवताना हंस्पेल प्रथम "विधय”, "विफय”, "विभय” आणि "विषय” असे चार (किंवा जास्त) शब्द तयार करेल. त्यातील पहिले तीन शब्द डिक्शनरीत नसल्यामुळे "विषय” हा शब्द सुचवणीत घेतला जाईल. आता "श” ते "ष” ही नोंद रिप्लेसमेंट टॅगमध्ये देखील आहेच. हंस्पेलमध्ये रिप्लेसमेंट टॅगला ट्राय टॅगपेक्षा जास्त महत्त्व मिळते. दुसरा फरक म्हणजे रिप्लेसमेंट टॅगमध्ये एकापेक्षा जास्त अक्षरे वापरता येतात. ट्राय टॅगमध्ये एकावेळी एकच अक्षर बदलता येते (रेग्युलर एक्स्प्रेशन). इतकेच नव्हे तर रिप्लेसमेंट टॅगमध्ये एकापेक्षा जास्त शब्द देखील वापरता येतात. स्पेससाठी अंडरस्कोअर ( _ ) वापरता येतो. म्हणजेच रिप्लेसमेंट टॅग हा थोडा ऍटोकरेक्टसारखा चालतो असे म्हणता येईल. हिंदी भाषेच्या अफिक्स फाईलमध्ये रिप्लेसमेंट टॅग कसा वापरला आहे ते येथे पाहता येईल.
https://github.com/Shreeshrii/hindi-hunspell/blob/master/Hindi/hi_IN.aff

हिंदी भाषेतील ट्राय टॅगमध्ये सर्वच अक्षरे घेतलेली दिसतात. पण मी वर दिलेल्या ट्राय टॅगमध्ये "ट” न घेता "ठ” घेतला आहे तर "त” न घेता "थ” घेतला आहे. याचे कारण फोनेटिकमध्ये ट ला एक तर ठ साठी दोन की स्ट्रोक लागतात. त्यामुळे अशुद्ध शब्दात दोन की-स्ट्रोकची अक्षरे एकाच की-स्ट्रोकने लिहिलेली दिसतात. कदाचित फोनेटिक न वापरता इंस्क्रिप्ट वापरणारे वेगळ्या चुका करत असतील. त्यासाठी ट्राय टॅगमध्ये सर्वच अक्षरे घ्यावीत असे तज्ज्ञांनी सांगितले तर तसेही करता येईल.
रिप्लेसमेंट आणि ट्राय हे दोन टॅग वापरून आपण आपला स्पेल चेक अधिक परिणामकारक बनवू शकू.

"वाडवतात” असी असे लिहिणाऱ्याला "वाढवतात" असे लिहायचे असेल असे आपण फोनेटिक की-बोर्डच्या निरीक्षणावरून गृहीत धरले. पण एखाद्याने "फटाके वाडवतात" असे लिहिले तर त्याला "वाजवतात” असेच लिहायचे आहे हे स्पष्टच आहे. तर "झाडे वाडवतात” यात मात्र "वाढवतात” असे सुचविले पाहिजे. याचा अर्थ चुकीच्या शब्दाच्या आधीचा एक शब्द आणि वाक्याचा संदर्भ लक्षात घेऊन सुचविण्या आल्या तर हा स्पेल चेक अधिक उत्तम चालेल. हे साध्य करण्याकरता मशीन लर्निंगचे मॉडेल बनवावे लागेल. हिंदी भाषेसाठी असा आधुनिक स्पेल चेकर ४० डॉलरला उपलब्ध आहे.

https://jamspell.com/#download

मराठी भाषेसाठी मात्र असा मशीन लर्निंगच्या मॉडेलवर आधारित स्पेल चेकर उपलब्ध नाही. हंस्पेल इंजीन जसे लिब्रे ऑफिस, फायरफॉक्समध्ये सामावलेले आहे तसे काही या नवीन जाम्स्पेलचे नाही. त्यामुळे तो कदाचित ऑफलाईन न वापरता फक्त ऑनलाईन "एपीआय" स्वरूपात वापरता येईल असे वाटते.

"गणपतीपासून" असा शब्द टाईप केल्यानंतर त्याच्याखाली लाल रेघ येत आहे. याचा अर्थ हा शब्द डेटाबेसमधे नाही. त्या शब्दावर राईट क्लिक केल्यानंतर पहिलीच सुचवणी "गणपती पासून” अशी दिसत आहे. याचे कारण "गणपती” आणि "पासून” हे दोन्ही शब्द डेटाबेसमध्ये आहेत. “गण पतीपासून” अशी एक सुचवणी देखील येण्याची शक्यता आहे कारण गण आणि पती हे शब्ददेखील त्यात आहेत. मुळात प्रत्यय शब्दाला जोडून लिहिणे हे मराठीचे तर तोडून लिहिणे हे हिंदीचे वैशिष्ट्य आहे. हिंदीच्या प्रभावामुळे मराठीवर अनिष्ट परिणाम होत आहे असे माझे मत आहे. त्यात मराठी स्पेल चेक सॉफ्टवेअरनेच शब्द तोडून लिहायचे सुचविले तर ते ठीक होणार नाही. म्हणून एक नवीन टॅग अफिक्स फाईलमध्ये सुरवातीलाच लिहावा लागेल.

NOSPLITSUGS

या टॅगमुळे शब्द तोडून लिहायची "गणपती पासून” अशी सुचवणी येणार नाही. मुळात डेटाबेसमध्ये गणपती/Aacdh अशी नोंद केली की त्या शब्दाखाली लाल रेघच येणार नाही. पण त्यासाठी डिक्शनरीतील प्रत्येक शब्दाला हंस्पेल टॅग जोडावा लागेल. नेहमीच्या वापरातले हे ८ - १० शब्द हंस्पेल टॅगमुळे आपोआप बनतील.

गणपतीने
गणपतीला
गणपतीशी
गणपतीचा
गणपतीची
गणपतीचे
गणपतीच्या
गणपतीस
गणपतीत
गणपतीहून

शिवाय इतर काही शब्द बनतील ते असे..

गणपतीकडे
गणपतीनंतर
गणपतीशिवाय
गणपतीसाठी

त्याच बरोबर गणपतीसाठीचा, गणपतीसाठीची, गणपतीसाठीचे, गणपतीसाठीच्या, गणपतीसाठीला असेही काही शब्द बनत आहेत. एकूण ३२० एकवचनी तर तितकेच बहुवचनी मिळून सुमारे ६४० शब्द बनतील. गणपती हा शब्द मोठ्या प्रमाणावर वापरला जात असल्यामुळे सर्वच शब्द ठेवावे लागतील असे दिसते. फक्त वर दिलेल्या "नो स्प्लिट सजेशन" टॅगने शब्द तोडून लिहायची सुचवणी येणार नाही इतकाच बदल होईल. त्याचबरोबर फक्त षष्ठीचे प्रत्यय म्हणजे साठीचा, साठीचे, साठीची, साठीच्या ठेवून चतुर्थीचा प्रत्यय म्हणजे "साठीला" काढून टाकावा का याचाही फेरविचार होईल. कारण साठीला, बरोबरला, कडूनला असे प्रत्यय वापरात नाहीत. असले तरी त्याचे प्रमाण फार कमी. डिक्शनरीचा आकार जर फार वाढत गेला तर फक्त "गणपतीसाठी" हा शब्द ठेवून "गणपतीसाठीचा, गणपतीसाठीची, गणपतीसाठीचे, गणपतीसाठीच्या, गणपतीसाठीला" हे पाचही शब्द काढावे लागतील. कारण स्पेलचेक अगदीच स्लो झालेला कुणालाच चालणार नाही.

कालच्या लोकसत्तामध्ये आलेली ही बातमी उल्लेखनीय आहे.

https://www.loksatta.com/mumbai-news/mumbai-university-student-priya-din...

एखाद्या व्यक्तीचा भाषाविकास गणितीय पद्धतीने मोजण्यासाठी वापरल्या जाणाऱ्या "मेजर्स ऑफ टेक्स्चुअल लेक्सिकल डायव्हर्सिटी" (एमटीएलडी) या पद्धतीचा वापर लवकरच मराठी भाषेसाठी करता येणार आहे. मुंबई विद्यापीठातील भाषाविज्ञान विभागाच्या प्रियांका डिंगणकर या विद्यार्थिनीने "मराठी एमटीएलडी टूल" विकसित केले आहे. प्रियांका व त्यांचे मार्गदर्शक डॉ. अविनाश पांडे या दोघांचेही अभिनंदन. याचा फायदा कोणाला होईल ते देखील पुढे दिले आहे. प्रथम भाषा मराठी शिकणाऱ्या आणि द्वितीय भाषा मराठी शिकणाऱ्या व्यक्तींच्या शब्दसंपदेची तुलना एमटीएलडीमुळे शक्य होईल.

मजकुरावर एमटीएलडी प्रक्रिया घडण्यापूर्वी प्रत्यय वेगळे काढून मूळ शब्दांमध्ये रूपांतर कसे केले ते पाहण्याची माझी इच्छा आहे. ही प्रणाली भाषाविज्ञान विभागाच्या संकेतस्थळावर उपलब्ध होईल असे आश्वासन या बातमीत दिले गेले आहे. हन्स्पेलमध्ये हे कसे आणि का करायचे ते मी याच चर्चेत ३० ऑक्टोबर २०१८ या दिवशी दिलेल्या प्रतिक्रियेत दिले आहे. पण हन्स्पेलमध्ये एक मुख्य त्रुटी अशी आहे की एखाद्या शब्दाला जर टॅग लावला गेला नसेल किंवा चुकीचा टॅग लावला असेल तर अपेक्षित मूळ शब्द मिळत नाही. स्वयंसेवकांनी कोणताही मोबदला न घेता केलेले ते काम उत्तम असले तरी १००% अचूक असेल असे सांगता येत नाही. प्रियांका डिंगणकर यांनी बनविलेली ही सुविधा पायथॉनमध्ये लिहिलेली आहे का किंवा मुक्त स्रोत लायसन्सखाली वितरित होणार आहे का याचा काही उल्लेख दिसत नाही.

"झिरो विड्थ नॉन जॉईनर" पाय मोडके अक्षर काढण्यासाठी वापरतात. उदा.
महिनोन्‌महिने मुखोद्‌गत मुद्‌गल मैलोन्‌मैल वाक्‌गंगा वाक्‌चातुर्य वाक्‌ताडन वाक्‌शून्य वाक्‌सिद्धी वाग्‌युद्ध

"झिरो विड्थ जॉईनर" हा जोडाक्षरांची उभी मांडणी टाळून आडवी मांडणी करण्यासाठी वापरला जातो. उदा.
विद्युच्‍चुंबक विद्युज्‍जन्य विद्युल्‍लहर विद्युल्‍लता विद्वज्‍जन

वर दिलेल्या शब्दात जर जॉईनर वापरला नाही तर काही फॉन्टमध्ये च, ज आणि ल उभ्या मांडणीत म्हणजे एकावर एक असे दिसतील. उदा.
विद्युच्चुंबक विद्युज्जन्य विद्युल्लहर विद्युल्लता विद्वज्जन

उभ्या मांडणीत जोडाक्षर दिसले तर त्यात हंगामा करण्यासारखे काही नाही. उलट तसेही छानच वाटते. त्यामुळे जॉईनर शक्यतो वापरूच नये. तर नॉन जॉईनरचा वापर अक्षराचा पाय मोडण्याव्यतिरिक्त इतर ठिकाणी करू नये. आणि अक्षराचा पाय न मोडता थेट जोडाक्षर लिहले तरी काही फार फरक पडत नाही. उदा.
महिनोन्महिने मुखोद्गत मुद्गल मैलोन्मैल वाक्गंगा वाक्चातुर्य वाक्ताडन वाक्शून्य वाक्सिद्धी वाग्युद्ध

वर दिलेले शब्द कॉपी पेस्ट करून गुगल फॉन्टच्या साईटवर वेगवेगळ्या पद्धतीने पाहू शकता. यातील फक्त "वाक्सिद्धी" हा शब्द ऑड वाटतो. तो "वाक्‌सिद्धी" असाच वाचायला बरा वाटला असता. पण अशा काही तुरळक शब्दांसाठी झिरो विड्थ जॉइनर किंवा नॉन जॉइनर पिक्चरमध्ये आणणे म्हणजे फारच होत आहे असे मला वाटते. म्हणून मी माझ्यापुरता तरी जॉइनरचा वापर कमी केला आहे. जवळ जवळ नाहीच म्हटले तरी चालेल. जोडाक्षरांची आवश्यकतेप्रमाणे उभी किंवा आडवी मांडणी दाखविण्यासाठी "शोभिका” हा फॉन्ट वापरतो. त्यातील मांडणी ही ९९.९९% अचूक आहे.

https://github.com/Sandhi-IITBombay/Shobhika

हा फॉन्ट वापरल्यानंतरही अगदीच आवश्यकता वाटली तरच जॉईनरचा वापर करीत आहे.

'किनार्‍याला' हा शब्द जॉईनर वापरून लिहिता येतो.

['क', 'ि', 'न', 'ा', 'र', '्', '\u200d', 'य', 'ा', 'ल', 'ा']

किंवा नुक्ताधारी र वापरून लिहिता येतो हा असा - 'किनाऱ्याला'

['क', 'ि', 'न', 'ा', 'ऱ', '्', 'य', 'ा', 'ल', 'ा']

बहुतेक सर्व फॉन्टमध्ये दोन्ही शब्द सारखेच दिसत असले तरी शक्यतो जॉईनर वापरायचा नाही या धोरणाला अनुसरून स्पेल चेकच्या डेटाबेसमध्ये फक्त दुसरा (नुक्ताधारी र) ठेवला आहे. त्यामुळे पहिल्या शब्दाखाली लाल रेघ येऊन त्याला पर्याय म्हणून दुसरा शब्द दिसेल. कारण झेन ऑफ पायथॉनच्या नियमानुसार कोणतातरी एकच मार्ग अनुसरणे श्रेयस्कर असते.

There should be one - and preferably only one - obvious way to do it.

जॉईनरमुळे एक बाईट विनाकारण वाढतो. जावा/ डॉट्नेट/ पायथॉन अशा भाषांत हा जॉईनर बिब्बा घालण्याचे काम करतो. गुगलमध्ये दोन्ही शब्द वेगवेगळ्या पद्धतीने इंडेक्स होतात. शोध घेताना जॉईनरसह आणि जॉईनरशिवाय अशा दोन्ही पद्धतीने शोध घ्यावा लागतो. अशी बरीच कारणे आहेत. अर्थात कोणाला जॉईनर वापरून लिहिलेला ऱ्य आणि ऱ्ह हवाच असेल तर त्यांनी इथे कमेंटमध्ये तसे लिहावे. आणि अशा हव्या असलेल्या शब्दांची यादी नेटवर कुठेतरी उपलब्ध करून द्यावी.

जर काहीच प्रतिक्रिया आली नाही तर कुणालाच जॉईनर नको आहे असा त्याचा अर्थ घेऊन पुढे जाता येईल. अर्थात लिब्रे ऑफिसमध्ये लाल रंगाने अधोरेखित झालेल्या जॉईनरवाल्या शब्दावर राईट क्लिक करून "add to dict" असा पर्याय स्वतःपुरता वापरण्याचे स्वातंत्र्य युजरला आहेच.

हा काय प्रकार आहे, कळला नाही. मराठीत नुक्ता कुठे वापरतात? तो नुक्ता देऊनही वरच्या शब्दात का दिसत नाही? जॉईनर काय प्रकार आहे? नुक्ता किंवा जॉईनर कसा टाइप करायचा?

१) क्लृप्ती ( k l R u ) हा शब्द कॢप्ती (k R l u) असा दोन प्रकारे मायबोलीवर लिहिता येतोय. त्या दोनमधला फरक जॉइनर आणि नॉन जॉईनर वापरून सांगता येईल का? मला असे वाटते आहे की एक प्रकार चुकीचा असावा. किंवा तुम्ही केलेल्या पर्यायात एका प्रकारे शोधता येणार नाही?
२) अ‍ॅप शब्द मायबोलीवरच्या फाँटवर योग्य दिसतोय पण कॉपी+पेस्ट केल्यावर नेटवर अनेक ठिकाणी नीट दिसत नाही . मायबोलीच्या अ‍ॅप लिहिण्यात काही चूक आहे का?

सगळेच शब्द जॉईनरशिवाय वापरता येतील का? मी खूप खोलात विचार केला नाही पण काही शब्द जॉईनर वापरून आणि काही नाही असे केले तर उगिचच जास्त किचकट होणार नाही का? मुळात जॉईनर अस्तित्वात आला त्याचे काही कारण आहे आणि नुक्ता आला त्याचे दुसरे कारण आहे. त्या दोघांची सर मिसळ उगीचच गोष्टी अवघड करणार असे वाटते.

अजय, व्याकरणाच्या दृष्टीने तुम्ही लिहिलेला दुसरा क्लृप्ती बरोबर आहे. (मला मोबाईलवर तो लिहिता आला नाही)

जॉईनर म्हणजे काय ते कळलं नाही. र्य आणि ऱ्य मध्ये जो फरक आहे तो जॉईनरमुळे आहे का? कारण दोन्ही जोडाक्षरे र्+य्+अ पासून बनली आहेत, पण दोन्हीच्या उच्चारात फरक आहे. ह्यात कुठला एक चूक असं नाहीये. आचार्यांना आणि आचाऱ्यांना - दोन्ही शब्द अर्थपूर्ण आहेत आणि दोघांचे अर्थ वेगळे आहेत.

अरेच्चा! कमालच आहे. काल मोबाईलवरून वरचे प्रतिसाद वाचले तेव्हा lRu करून लिहिलेला लृ पाहता ल ला ऋकार दिल्यासारखा दिसत होता. पण आज संगणकावरून पाहिल्यावर लृ हा स्वर बरोबर दिसतो आहे. उलट Rlu करून लिहिलेला ॡ ह्यात ल खाली डबल ऋकार दिसत आहेत. कुछ तो गडबड है दया.

ऱ्य (किनार्‍यावर) आणि ऱ्ह (कुर्‍हाड) व्यतिरिक्त अर्धा "श" (आवश्यक) , अर्धा "क" (सशक्त) आणि "अ‍ॅ" (अ‍ॅक्टर) अशा तीन ठिकाणी जॉईनर वापरला जातो. हे सर्व शब्द जॉईनर न वापरता लिहिणे शक्य आहे. डिक्शनरीत जॉईनर न वापरता लिहिलेली जोडाक्षरे ठेवली आहेत. ज्या शब्दांमध्ये जॉईनर वापरावाच लागतो अशा शब्दांची यादी एखाद्या युनिकोड तज्ञ्याने दिली तर या धोरणाचा नक्कीच पुनर्विचार करावा लागेल.
_____

शब्दाचा पाय मोडल्यानंतर त्याने आधारासाठी पुढच्या अक्षरावर आक्रमण करू नये म्हणून नॉन जॉईनर वापरावा लागतो. उदा..
तासन्‌तास
दृक्‌श्राव्य

पण असे शब्द हाताच्या बोटावर मोजता येतील इतकेच आहेत. ( विद्युत्‌ , षट्‌ वगैरे)
तसेच खाली दिलेले शब्द नॉन जॉईनर वापरल्याशिवाय लिहिताच येणार नाहीत.
अन्‌
अवाक्‌
खर्रकन्‌

थोडक्यात अपवादात्मक स्थितीत नॉन जॉईनर वापरावा. पण जॉईनर वापरलाच पाहिजे असे शब्द अजून तरी मिळालेले नाहीत. जोडाक्षरे सक्तीने आडव्या मांडणीत दाखविण्यासाठी जॉईनर वापरत असाल तर तसे करण्याची आवश्यकता नाही. युजरला फॉन्ट बदलून त्याला हव्या त्या पद्धतीने वाचन करण्याची मुभा द्यावी.

धन्यवाद शंतनू. जॉईनर किंवा नॉन जॉईनर कसा वापरावा, म्हणजे ते वापरण्यासाठी नक्की काय करावे लागते? तो कोणत्या कळफलकावर उपलब्ध आहे?

मशिन लर्निंंग आणि एन.एल.पी या तंत्रांचा वापर करून खाली दिलेली लिस्ट बनविली आहे. याचा उपयोग मराठी शिकताना / शिकवताना कोणते शब्द आधी शिकवावेत हे ठरविण्यासाठी होऊ शकतो.

https://raw.githubusercontent.com/shantanuo/spell_check/master/final_lis...

शब्दांच्या आधी असलेली संख्या त्या शब्दाची किती रूपे प्रचलित आहेत ते दर्शविते. म्हणजे घर, देश, नाटक असे शब्द वेगवेगळ्या संदर्भात अधिक वापरले जातात. उदा. घराचे, घरापासून, घरासाठी वगैरे. तर चालणे, शिकणे, बसणे अशा क्रियापदांची शंभरपेक्षा जास्त रूपे प्रचलित दिसतात. अर्थात हा डेटा विकीसारख्या मुक्त स्रोत शब्दसंपदेवर आधारित असल्यामुळे त्याच्यावर किती विश्वास ठेवायचा ते ज्याचे त्याने ठरवावे!

१) क्लृप्ती ( k l R u ) हा शब्द कॢप्ती (k R l u) असा दोन प्रकारे मायबोलीवर लिहिता येतोय.
यात जॉईनरचा काही संबंध नाही. माझ्या मते पहिला शब्द क्लृप्ती ( k l R u ) बरोबर आहे. दुसरा चूक.
_____

२) अ‍ॅप शब्द मायबोलीवरच्या फाँटवर योग्य दिसतोय पण कॉपी+पेस्ट केल्यावर नेटवर अनेक ठिकाणी नीट दिसत नाही .
या प्रश्नाचे सविस्तर उत्तर द्यायचे तर हिंदी सिनेमातला म्हातारा "वो एक लंबी कहानी है" असे म्हणून एकदम ५० - १०० वर्षांपूर्वीच्या फ्लॅशबॅकमधे जातो तशी अवस्था होईल. शॉर्टमधे सांगायचे तर अ + ॅ + प असे न लिहिता थेट ॲ + प असे लिहावे. पायथॉनमध्ये त्याची फोड अशी दिसेल.

correct = 'ॲप'
wrong = 'अॅप'

[i for i in correct]
['ॲ', 'प']

[i for i in wrong]
['अ', 'ॅ', 'प']

महाराष्ट्रातील अग्रगण्य वृत्तपत्रांनाही 'ॲप' शब्द नीट लिहता येऊ नये हे मराठी भाषेचे दुर्दैव आहे.
_____

३) मुळात जॉईनर अस्तित्वात आला त्याचे काही कारण आहे आणि नुक्ता आला त्याचे दुसरे कारण आहे. त्या दोघांची सर मिसळ उगीचच गोष्टी अवघड करणार असे वाटते.

नुक्त्याची मला मुळीच हौस नाही. सध्या दुसरा काही पर्याय नसल्यामुळे र्‍य आणि र्‍ह साठी तो स्वीकारावा असे माझे मत आहे. फक्त तेवढ्यासाठी जॉईनर वापरावा लागू नये. मुळात र्‍य आणि र्‍ह चा घोळ इतका गंभीर आहे की त्यासाठी युनिकोड कन्सोर्टियमचे कार्यालय जिथे कुठे असेल तिथे हातात फलक घेऊन आंदोलन करण्याची माझी तयारी आहे. र्‍य आणि र्‍ह ही दोन्ही जोडाक्षरे असली तरी त्यांना मुळाक्षरासारखा दर्जा देऊन युनिकोडमध्ये सामील करून घेणे हा यावरील एकमेव उपाय आहे.

हे सगळं कसं टाइप करायचं हे काही कळलं नाही. माझ्या प्रश्नाचंही उत्तर मिळालं नाही. त्यामुळे माझा पास. काय पाहिजे ते करा. तुम्ही मत विचारलंत म्हणून स्पष्टीकरण करून घेत होतो. कळलंच नाही काय करताय, तर मत तरी काय व्यक्त करणार आम्ही?

युनिकोड ३.० आले तेंव्हा त्यात मराठीतला पोट्फोड्या र नव्हताच (eyelash ra). तो माझ्या सकट अनेक जणांनी केलेल्या पाठपुराव्यानंतर नवीन आवृत्तीत समाविष्ट झाला. इंडीक युनिकोड लिस्ट अजून्ही कार्यरत आहे तिथे तुमचे मत मांडून पहा.
https://corp.unicode.org/mailman/listinfo/indic
र्‍य समाविष्ट करण्याच्या वेळेस झालेली चर्चा इथे पाहता येईल. कुठले निर्णय का घेतले याबद्दलची माहिती त्यात मिळेल. अ‍ॅडोबे मधे काम करणारे एरिक म्युलर हे त्यामागचं मुख्य व्यक्तिमत्व .
https://web.archive.org/web/20140527105648/http://unicode.org/~emuller/i...
https://unicode.org/L2/L2005/05147-muller-pri65.pdf

गेली काही वर्षे मी प्रमुख आय.एम.ई. हे सॉफ्टवेअर वापरतो आहे. लिब्रे ऑफिसमध्ये टाईप करतो आणि मग हवे तिथे कॉपी पेस्ट करतो. लहानसाच मजकूर टाईप करायचा असला तरी!
त्यात हे सर्व शब्द असे लिहता येतात.

A_p ॲप (अखंड ॲ)
daryaat दर्यात (अर्धा र)
daR*yaat दऱ्यात (अर्धा नुक्ताधारी र)
dar--yaat दर्‍यात (अर्धा र आणि य च्या मध्ये झिरो विड्थ जॉईनर)
dar---yaat दर्‌यात (अर्धा र आणि य च्या मध्ये झिरो विड्थ नॉन जॉईनर)

बराह आणि गुगल आय.एम.ई मला कधीच आवडले नाहीत. मायक्रोसॉफ्टचे नाव घेतले तरी बिल येईल की काय अशी भीती वाटते म्हणून त्यांचे सॉफ्टवेअर शक्यतो टाळतो. गुगल क्रोममध्ये थेट टाईप करायचे तर त्यात स्पेल चेक, ऍटो-करेक्ट, ऍटो-टेक्स्ट, सेव्ह या सोयी मिळत नाहीत.
वर दिलेल्या शब्दातील क्रमांक तीन आणि (विशेषतः) चारचा दर्‍यात गुगलमध्ये कॉपी पेस्ट करून काय रिजल्ट मिळतात ते पहा.

अफिक्स रूल्स वापरून जे शब्द बनतात त्यातील बहुतांश शब्द बरोबर असले तरी काही शब्द उपरे वाटतात. उदाहरणार्थ याच चर्चेतील पान तीनवर चाळीस या संख्यावाचक शब्दापासून "चाळीसस”, “चाळीसत” असे शब्द तयार होत आहेत असा उल्लेख आहे. “स" आणि "त" प्रत्यय काढता येत नाहीत कारण मग "चाळिसास" आणि "चाळिसात" हे शब्दही तयार होणार नाहीत. याला उपाय म्हणजे चाळीसस > चाळिसास आणि चाळीसत > चाळिसात अशी नोंद ऍटो-करेक्टच्या यादीत करावी. किंवा मग एक नवीन टॅग तयार करू

FORBIDDENWORD z

डिक्शनरीतील नोंद अशी दिसेल.

चाळीसस/z
चाळीसत/z

याचा अर्थ "चाळीस/qvca” या नोंदीमुळे तयार होणारे वरील दोन्ही शब्द डिक्शनरीत येणार नाहीत. समजा असे चुकीचे शब्द तयार झाले आणि मेमरीत पडून राहीले तरी काही मोठासा फरक पडणार नाही. राईट क्लिकवरील सुचवणीत असे शब्द दिसण्याची शक्यता कमी आहे. पण आपण परिपूर्णतेचा प्रयत्न करायला काय हरकत आहे? ह्या टॅगचा दुसरा फायदा म्हणजे नेहमी चुकणाऱ्या शब्दांना हा टॅग लावून असे चुकीचे शब्द देखील आपण डिक्शनरीत घेऊ शकतो. उदा...

अंधकार/z
आशिर्वाद/z
वांग्मय/z
सुचना/z

नेहमी चुकणाऱ्या मराठी शब्दांची यादी मी गूगलवर शोधली पण अशी संपूर्ण यादी मिळाली नाही. कोणी जर अशी यादी दिली तर ते शब्द "z” या टॅगसह डिक्शनरीत जमा करता येतील. यातील काही शब्द ऍटो-करेक्टद्वारे आपोआप सुधारले जात आहेत. उदा. आशिर्वाद हा शब्द टाईप करून स्पेस दिल्यावर आशीर्वाद असा बदलून मिळाला. पण ऍटो-करेक्टवर पूर्ण अवलंबून राहता येणार नाही. फॉर्बिडन वर्ड हा टॅग सर्वसमावेशक डिक्शनरी बनविण्यासाठी उपयोगी ठरेल.

नेटवर मिळालेल्या सुमारे दहा लाख मराठी शब्दांचे पृथक्करण करून दाखविणारी ही फाईल उपलब्ध करून दिली आहे. भाषेच्या अभ्यासकांना त्याचा फायदा होऊ शकेल.

https://datameetgeobk.s3.amazonaws.com/hunspell/all_words.zip

पहिला कॉलमः नेटवर सापडलेला शब्द
दुसरा कॉलमः वरील शब्दाचे सामान्य रूप (कॉम्प्युटर अल्गोरिदम द्वारे बनविलेले असल्यामुळे काही वेळा चूक असण्याची शक्यता)
तिसरा कॉलमः मूळ शब्द (फक्त टॅग असलेले शब्द विचारात घेऊन हंस्पेलद्वारे बनविलेले)
चौथा कॉलमः दुसऱ्या कॉलममधील "स्टेम" सामान्यरूपाचे मूळ रूप (हंस्पेलद्वारे)

उदाहरण म्हणून ही ओळ पाहू...
करेल कर करणे करणे

करेलः नेटवर मिळालेला शब्द.
करः याला स्टेम (stem) रूप असेही नाव आहे.
करणेः मूळ क्रियापद (करेल या शब्दाचे) याला लेम्मा (lemma) म्हणतात.
करणेः स्टेम शब्दाचे मूळ क्रियापद (कर या शब्दाचे).

जालावर होणाऱ्या लिखाणात चुकांचा काही पॅटर्न मिळतो का ते पाहण्याचा प्रयत्न केला तेव्हा या गोष्टी लक्षात आल्या.

१) ॲप हा शब्द बहुतेक ठिकाणी चुकीचा आढळला. त्याची चर्चा इतरत्र झाली आहे.

ॅण्ड ॅड ॅपवर ॅकॅडमी ॅसिड ॅक्शन ॅन्ड ॅमेझॉन ॅनिमेशन ॅथलेटिक्स ॅनिमल
ॅलर्जी ॅडव्हान्स ॅवॉर्ड ॅप्लिकेशन ॅडमिशन ॅक्टिव्ह ॅडव्होकेट ॅडमिट ॅसिडिटी

२) 'स्वतःचा' या शब्दातील विसर्ग मराठी हवा. इंग्रजी नको.

स्वत स्वतची विशेषत अक्षरश पूर्णत अंतिमत तत्त्वत चतु सामान्यत मूलत व्यक्तिश इतस्तत

३) ऐ (उदाः बैठकीत) हे अक्षर टंकायला वेळ लागतो म्हणून ते टाईपच केले जात नाही.

त्रमासिक मत्रिणी स्थर्य लंगिक बठकीत

४) खाली दिलेले सर्व शब्द प्रमाण भाषेतील आहेत असे वाटले तरी ते शुद्धलेखनाच्या द्दष्टीने चूक आहेत!

तात्काळ प्रचीती ठराविक नामुष्की टीकास्त्र दुर्मिळ महत्वाचे उत्स्फूर्तपणे पोलीसांनी बांधीलकी चालवीत करूया एकुणात सर्वश्रुत आतषबाजी सुरवात माहित जीवाला सद्यस्थिती खर्चिक गृहित यष्टीरक्षक कारकीर्दीतील मोहिम वडिल अरूंद भावूक उशीराने धर्मीयांच्या खूष भागिदारी वातानुकुलित अस्तित्वात

स्पेल चेकर नसता तर असे शब्द शोधणे मला शक्यच झाले नसते इतके ते रुळलेले आहेत!

५) ऱ्हस्व इकार आणि त्यावर अनुस्वार आला की काही वेळा ते शब्द असे दिसतात.

िपपरी िशदे िहदू पािठबा िरगणात कोिथबीर

हे शब्द अनुक्रमे असे हवेः पिंपरी शिंदे हिंदू पाठिंबा रिंगणात कोथिंबीर

६) ट ठ ड ढ (आणि क्वचित) द या अक्षरांना "य” लावताना तो नुक्ताधारी असावा असा काहींचा समज असावा. माझ्या मते असे करणे चूक आहे. मोठ्या हा शब्द मोठय़ा असा नुक्ता लावून सर्रास लिहला जातो. “ मोठय़ा site:loksatta.com “ असे गूगलमध्ये टाकून पहा किती रिझल्ट मिळतात.

मोठय़ा आठवडय़ात वैशिष्टय़ एवढय़ा जिल्ह्य़ात मुद्दय़ावर झपाटय़ाने एकटय़ा चोरटय़ांनी गाडय़ांची

७) “र” हे अक्षर काहींना फार त्रासदायक होत आहे असे वाटते.

७) अ) “र” टाईपच केला नाही!
अखेपर्यंत ऑक्टोबपर्यंत नोव्हेंबपर्यंत डिसेंबपर्यंत निर्थक दुपापर्यंत सोमवापर्यंत मंगळवापर्यंत

७) ब) नियमानुसार अनुच्चारित अनुस्वार काढून टाकले असले तरी जिथे अनुस्वाराचा स्पष्ट उच्चार होतो तिथे तो द्यायलाच हवा…
मॉर्निग पुनर्बाधणी लर्निग फर्नाडिस सर्वासमोर सर्वाचं सर्वागीण

७) क) ऱ्हस्व आणि दीर्घ रु चा घोळ
सुरु करु रूग्णालयात रूपयांची रूक्ष

७) ख) रफार आणि इकार आधीच्या किंवा नंतरच्या अक्षरावर जोडले गेले.
र्वष र्निबध र्सवकष र्मचट आकर्षति वार्षकि

७) ग) 'साधर्म्य' या शब्दात र आधी आहे आणि मग म तर 'साधम्र्य' यात म आधी आहे त्यानंतर र आणि मग य.

x = 'साधर्म्य'
[i for i in x]
['स', 'ा', 'ध', 'र', '्', 'म', '्', 'य']
x = 'साधम्र्य'
[i for i in x]
['स', 'ा', 'ध', 'म', '्', 'र', '्', 'य']
असे इतर काही चुकलेले शब्द.

वष्रे फग्र्युसन स्पध्रेत कार्यकत्रे साधम्र्य फॉम्र्युला चच्रेत व्हच्र्युअल आद्र्रता अतक्र्य सवरेत्कृष्ट

यातील कोणताही शब्द गुगलून पाहिला तर भरपूर रिझल्ट मिळतील. विशेषतः त्या शब्दाबरोबर site:loksatta.com असे टाईप केले तर लोकसत्तात असे किती शब्द मिळतात ते पाहता येईल. लोकसत्ताचे उदाहरण दिले कारण तो एक स्टँडर्ड पेपर मानला जातो!

खाली दिलेले सर्व शब्द चुकीने र्‍हस्व काढले असून ते माझ्यामते दीर्घ काढायला हवे होते.

करुन माहित खुप म्हणुन असुन लिटर गुरु ठराविक अजुन नविन देखिल हिंदु दुर्मिळ बाजुला संपूर्ण कृषि पासुन राहिल पाहुन मारुन मोहिम परिक्षा नाहि जाहिर गृहित समुह होउ आउट उन सामुहिक तत्कालीन नमुद देउन जाणुन वाचुन विष्णु करित खर्चिक संदिप भरपुर क्रिडा न्युज समजुन थकित जाणिव वैद्यकिय वास्तु वर्षापुर्वी बसुन राजकिय सुक्ष्म निरिक्षक नाहित त्यातुन काहितरी विपरित जाउ हळु सांगुन काश्मिर हळुहळू पाठिशी उहापोह बाहेरुन ग्रामिण माध्यमातुन आजुबाजुला ठेवुन आणुन तारिख आशिर्वाद नसुन सुखरुप परिक्षण ऐकुन नितिन येथिल सांगु सूर्य चोरुन स्वरुपाची मुल्य शितल निट प्रतिक्षेत भितीने कुटुंबिय कवि विस्कळित अवलंबुन मनापासुन स्वरुपाच्या बाजुच्या पुर्तता दिवसांपूर्वी योग्यरित्या बांधुन उर्जित दुषित पुरेपुर दिक्षा तेथुन वाहुन पडुन भूमि स्थिति किर्तन मजबुत

१) शब्दाच्या शेवटी जर ईकार आला तर तो दीर्घच असला पाहिजे. त्यामुळे "नाहि, हळु, सांगु" हे शब्द चूक. हा झाला सोपा नियम.
२) क्रियापदांना लागणारा "ऊन" प्रत्यय दीर्घ. म्हणून "करुन, वाचुन, जाणुन" अशी क्रियापदे चूक. हंस्पेलमध्ये देखील हा नियम आहे.
SFX P णे ून णे
याचा अर्थ "बसणे" क्रियापदापासून "बसून" शब्द बनेल. आणि म्हणून कोणी "बसुन" लिहिले तर लाल रेघ येईल. हा तसा पाहिला तर थोडा कठीण नियम.
३) अव्यये साधारणपणे दीर्घ असतात. म्हणून "मनापासुन, दिवसांपुर्वी" चूक. हा नियम आणखी कठीण.
४) बाकीचे शब्द मात्र चकवा देणारे आहेत. त्यांच्यासाठी शब्दकोश आणि स्पेलचेकचे सॉफ्टवेअर हे दोनच आधार आहेत. Happy

बहुतेक सर्व इंग्रजी शब्दांना s जोडून त्याचे अनेकवचन बनविता येते. अकारान्त इंग्रजी शब्द देवनागरीत लिहिल्यानंतर त्याचे अनेकवचन करण्यासाठी हा नियम हंस्पेल मध्ये लिहिला.

SFX y Y 1
SFX y 0 ्स/ac .

डिक्शनरीतील नोंद अशी दिसेल.

नॉव्हेल/acy

यामुळे 'नॉव्हेलचे' याबरोबरच 'नॉव्हेल्सचे' असाही शब्द बनेल. मराठीत मोठ्या प्रमाणावर इंग्रजी शब्द दिसत असल्यामुळे याची गरज निर्माण झाली. मुळात इंग्रजीचे आक्रमण खपवून घ्यायचे का प्रश्न योग्य असला तरी तो हंस्पेलच्या कक्षेबाहेरचा आहे.

लिब्रे ऑफिसमधील "कॅल्क" हे सॉफ्टवेअर मायक्रोसॉफ्ट ऑफिसमधील एक्सेलसारखे काम करते. त्यात एखादी संख्या टाईप केल्यानंतर ती अक्षरी लिहिण्यासाठी त्या सेलचा फॉरमॅट फक्त बदलावा लागतो हा असा...
[NatNum12 cardinal] 0
आता जर स्प्रेड्शिटमध्ये 789 असे लिहिले असेल तर ते अक्षरी "सातशे एकोणनव्वद" असे लिहून मिळते या चित्रात दाखविल्याप्रमाणे…

इंग्रजी 789 ला मराठी आकड्यात म्हणजे ७८९.०० असे दाखवायचे असेल तर हा फॉरमॅट वापरा.
[NatNum1][$-439]#,##0.00
यात 439 हा देवनागरीचा संकेतांक आहे.

बराह किंवा इतर कोणते सॉफ्टवेअर वापरून थेट मराठी आकडे लिहिता येत असताना हे फॉरमॅट बदलाचे झंझट कशाला? याचे उत्तर म्हणजे तसे केले तर दोन आकड्यांची बेरीज / वजाबाजी कॅल्क करू शकणार नाही. वर दिलेल्या पद्धतीने फक्त डिस्प्ले बदलत असल्यामुळे गणितातील जटील समस्या मराठी आकड्यात सोडवता येतील.

नेटवर (किंवा व्हॉट्स-ऍपवर) लिखाण करणाऱ्यांची एक वेगळी परिभाषा असते. उदा. हहपुवा (हसून हसून पुरेवाट) हा शब्द जर मी जालावर बरेचदा वापरत असेन तर तो डिक्शनरीत जमा करताना standard डिक्शनरीत जमा न करता एका वेगळ्या डिक्शनरीत जमा करेन. जालावर लिखाण करताना ही डिक्शनरी वापरून लिखाण तपासता येईल. पण प्रमाण भाषेत लिहिताना नेटवरची भाषा वापरायची नसते. अशा वेळी ती डिक्शनरी डिसेबल करता येते या चित्रात दाखविल्याप्रमाणे...

ग्रामीण भाषेतील शब्दांची व्यवस्था काय याविषयी या धाग्यात आधी चर्चा झाली आहे. हा त्यावरील चांगला उपाय होऊ शकतो.

डिक्शनरी सर्वसमावेशक बनावी यासाठी मी काही इंग्रजी शब्द देखील स्पेलचेकच्या सॉफ्टवेअरमध्ये घेतले आहेत. त्यामुळे "टेबल बेंच बाँब ” अशा शब्दांखाली लाल रेघ येत नाही. आता कुणाला जर हे शब्द डिक्शनरीतून काढायचे असतील तर सोर्स फाईल अपडेट करून एक्स्टेंशन परत बनविणे हे तसे वेळखाऊ काम आहे. त्यासाठी सोपा उपाय म्हणजे New… या बटनावर क्लिक करून एक नवीन डिक्शनरी तयार करता येईल. फक्त ती तयार करताना "exclude” हा चेकमार्क सिलेक्ट करा. आता "Edit” बटनावर क्लिक करून हे तिन्ही शब्द एकेक करून जमा करा.
टेबल बेंच बाँब
आता हे शब्द टाईप केल्यावर त्याखाली लाल रेघ येईल. एरवी जे शब्द प्रुफ रिडींगमधून निसटले असते असे शब्द निदर्शनास आणून देण्यासाठी याचा उपयोग होईल. विशेषतः सरकारमान्य भाषेत लिहिताना जे शब्द कटाक्षाने वापरू नयेत ते या यादीत समाविष्ट करता येतील. Happy

एक्स्क्लुड डिक्शनरी (Exclude dict) वापरून "टेबल बेंच बाँब" असे शब्द मूळ डिक्शनरीतून काढून टाकण्याची सोपी युक्ती आपण पाहिली. पण त्याच बरोबर या शब्दांना पर्याय म्हणून "मेज, खंडपीठ, स्फोटक" असे शब्द देखील त्यात जमा करता येतात खालील चित्रात दाखविल्याप्रमाणेः

यात जर कोणी "कुत्रा - श्वान" अशी नोंद केली तर कुत्रा या शब्दाखाली लाल रेघ येऊन त्याला श्वान असा पर्याय दिसेल. अर्थात खाली दाखविल्याप्रमाणे ऍटो-करेक्टमध्ये जर ही नोंद केली तर कुत्रा हा शब्द टाईप केल्याबरोबर तो बदलून श्वान असा होईल, आपोआप आणि चटकन.

"कुतरा" असे टाईप करून स्पेस दिल्यावर "कुत्रा" असा बदल आताही होतच आहे. पण कुत्रा टाईप केल्यावर श्वान असे बदलून हवे असेल तर वर दिलेल्या दोनपैकी एका मार्गाचा अवलंब करावा लागेल. ती नोंद स्पेलचेकच्या सोर्समध्ये करू नये. कारण तसे करणे म्हणजे इतरांच्या अभिव्यक्ति स्वातंत्र्याचा संकोच केल्यासारखे होईल.

ज्यांना हे दोन्ही शब्द नको असतील, ते "सिनॉनिम" चा ऑप्शन वापरून "सुने, सारमेय" असे पर्यायी शब्द निवडू शकतात.

आयलॅश र च्या युनिकोडमधील समावेशाने ऱ्य आणि ऱ्ह ची समस्या सुटल्यात जमा आहे असे कोणाचे मत असेल, पण मी या मताशी अजिबात सहमत नाही.

१) आयलॅश र चा फारसा फायदा झालेला नाहीः

सध्याची पद्धतः

साड्या (साधे जोडाक्षर) ['स', 'ा', 'ड', '्', 'य', 'ा']

साऱ्या (नुक्ताधारी र) ['स', 'ा', 'ऱ', '्', 'य', 'ा']

सार्‍या (झिरो विड्थ जॉइनर) ['स', 'ा', 'र', '्', '\u200d', 'य', 'ा']

सार्‌या (झिरो विड्थ नॉन जॉइनर) ['स', 'ा', 'र', '्', '\u200c', 'य', 'ा']

नवीन पद्धतः

साऱ्या (आयलॅश र) ['स', 'ा', '\uXXXX', '्', 'य', 'ा']

साऱ्या (युनिकोड ऱ्य) ['स', 'ा', 'ऱ्य', 'ा']

आयलॅश र ला मुळाक्षराचा दर्जा देऊन युनिकोडमध्ये सामील करून घेतल्याचा विशेष फायदा झालेला दिसत नाही. आयलॅश र चा पाय अजूनही मोडावाच लागणार आहे.

२) त्या र चा कोणीही स्वीकार केलेला नाही.
कोणत्याही ब्राऊझर / आय.एम.ई. मध्ये आयलॅश र काढता येत नाही.

३) गुगल ओसीआरमध्ये आयलॅश र हा डॅश म्हणून वाचला जाईल.
सध्याही ती समस्या आहेच.

ऱ्य आणि ऱ्ह ही जोडाक्षरे युनिकोडमध्ये घेतली तरच ओसीआर नीट समजू शकेल.

आयलॅश र हे मुळाक्षर किंवा जोडाक्षर नसूनही जर युनिकोडमध्ये स्थान मिळवू शकते तर ऱ्य आणि ऱ्ह यांनाही विशेष बाब म्हणून ते स्थान मिळावे असे मला वाटते.

लाल रेघ असलेल्या चुकीच्या शब्दावर राईट क्लिक करून आपण तो शब्द आपल्यापुरता कस्टम डिक्शनरीत कसा जमा करून घ्यायचा ते आपण पाहिले. पण असे करण्यासाठी एक-एक शब्द टाईप करून मगच तो ॲड करता येतो. पण जर चाळीस / पन्नास हजार शब्द एकदम जमा करायचे असतील तर तेही एकदोन मिनिटात शक्य आहे.

सर्चमध्ये %AppData% असे टाईप करून user फोल्डर मधील wordbook मध्ये पोहोचलात की तुमची कस्टम डिक्शनरी उदा. maayboli.dic मिळेल. माझ्या संगणकावर पूर्ण पाथ हा असा दिसत आहे.
C:\Users\Administrator\AppData\Roaming\LibreOffice\4\user\wordbook

यात दिसणारी डिक्शनरी फाईल डबलक्लिक करून उघडा आणि त्यात खाली दिलेले शब्द कॉपी पेस्ट करा.
http://mr.shoutwiki.com/wiki/Newspaper

आता हे शब्द डिक्शनरीत जमा झाले असल्यामुळे या शब्दांखाली लाल रेघ येणार नाही. हे शब्द मी माझ्या मूळ डिक्शनरीत घेतलेले नाहीत कारण ते नेहमी वापरले जात नाहीत. मूळ डिक्शनरीचा आकार मुद्दाम लहान ठेवला आहे. हे शब्द गंभीर / वृत्तपत्रीय लिखाण करणाऱ्यांना उपयोगी पडतील.

इतर कुठून मजकूर कॉपी-पेस्ट करून गुगल आय.एम.ई. मध्ये डकवला की काही वेळा त्यातील जोडाक्षरे बरोबर दिसत असूनही त्याखाली लाल रेघ येते. याचे कारण त्यात झिरो विड्थ जॉईनर असतो, या चित्रात दाखविल्याप्रमाणे…

हा जॉईनर काढण्यासाठी मी एक जावा-स्क्रिप्ट बुकमार्कलेट वापरतो. त्यामुळे एकाच क्लिकने सर्व जॉईनर काढता येतात. कोणाला हवे असल्यास ही बुकमार्क लिंक आपल्याला खाली दिलेल्या पानावरून मिळवता येईल.

https://codepen.io/shantanuo/pens/loved?grid_type=list

त्यात अजूनही काही अशाच उपयोगी गोष्टी आहेत ज्याने आपला वेळ वाचू शकतो. "Bookmark this:" असे लिहिलेल्या पानावरील लिंक क्लिक्-ड्रॅग करून लिंक टुलबारवर ओढून घ्यायची आहे.

अन्नपूर्णा नावाचा एक नवीन फॉन्ट डाऊनलोड करून पाहिला.

https://software.sil.org/annapurna/download/

याचे वैशिष्ट्य हे की जर आपल्याला लहान मोठे बदल करून नवीन फॉन्ट बनवायचा असेल तर यात तीही सोय दिलेली आहे.

https://scripts.sil.org/ttw/fonts2go.cgi

वर दिलेल्या साईटवर जाऊन आपल्याला हवे ते बदल करून नवीन फॉन्ट डाऊनलोड करता येईल. जोडाक्षरांची उभी मांडणी न करता आडवी मांडणी करण्यासाठी ही सोपी सोय आहे.

म्हणजे हा फॉन्ट काहीही बदल न करता वापरल्यास पहिल्या ओळीत दाखवला आहे तसा दिसतो. तर बदल केल्यावर दुसऱ्या ओळीत दाखविल्याप्रमाणे.

सध्याचे हायफनेशन रूल तसे नीट चालत असले तरी त्यात काहीतरी त्रुटी असावी. कारण "अँजियोप्लास्टी" हा शब्द "अँजियोप्-लास्टी" असा हायफन होत आहे, या चित्रात दाखविल्याप्रमाणे.

थोडी स्पेस वाढवली तर पूर्ण शब्द दुसऱ्या ओळीवर जातो पण "अँजियोप्ला-स्टी" असा हायफन मिळत नाही. त्यासाठी खाली दिलेले नियम हायफन फाईल मध्ये टाकावे लागतील. “1प्2” या नियमाचा अर्थ असा की प् च्या आधी हायफन द्यायला हरकत नाही पण प चा पाय मोडलेला असेल तर त्यापुढे हायफन देऊ नये.

1क्2
1ख्2
1ग्2
1घ्2
1ङ्2
1च्2
1छ्2
1ज्2
1झ्2
1ञ्2
1ट्2
1ठ्2
1ड्2
1ढ्2
1ण्2
1त्2
1थ्2
1द्2
1ध्2
1न्2
1प्2
1फ्2
1ब्2
1भ्2
1म्2
1य्2
1र्2
1ल्2
1ळ्2
1व्2
1श्2
1ष्2
1स्2
1ह्2

मराठी विकिपीडियाने काही जोडाक्षरांच्या बाबतीत आडवी मांडणी स्वीकारलेली दिसत आहे. उदा...

आडवी मांडणी । उभी मांडणी
रत्‍नागिरी । रत्नागिरी
मुक्‍त । मुक्त
आश्‍वासन । आश्वासन

लोकसत्तासारखी वृत्तपत्रेदेखील हे शब्द आडव्या मांडणीत दाखवतात. याचा अर्थ वाचकांची सोय ही जास्त महत्त्वाची असून संगणक लॉजिक किंवा नियम सरसकट राबवता येत नाहीत. पण तसे असेल तर अश्‍वारोहण हा शब्द उभ्या मांडणीत अश्वारोहण असा का लिहिला जातो? म्हणजे मराठी शब्द आडव्या मांडणीत तर संस्कृत शब्द उभ्या मांडणीत दाखवावेत असा काही संकेत आहे का? कारण माझ्यामते अश्वत्थामा बरोबर असून सहसा अश्‍वत्थामा असे लिहिले जात नाही. आडव्या मांडणीसाठी नॉन जॉइनर वापरावा लागतो. त्याची चर्चा मी याच धाग्यात (१ एप्रिल २०२१) केली आहे. एकच शब्द दोन पद्धतीने लिहिता येत असेल तर त्यातील एकच पद्धत स्पेलचेकमध्ये स्वीकारायची असे धोरण आहे. पण या बाबतीत अपवाद करून हे सहाही शब्द डेटाबेसमध्ये जमा करत आहे. अजून काही शब्द सुचविले गेले तर ते देखील स्वीकारता येतील.

माझ्या मते हे कारण नवीन नियम असे नसून त्या त्या संस्थेला जे सोपे वाटते आहे ते अंगिकारणे चालू आहे. वाचकांना अमूक मांडणी असेल तर वाचणे सोपे जाते असा कुठलाही अभ्यास माझ्या माहितीत नाही. नवीन टाईपिंग करणार्‍या व्यक्ती आल्या आणि त्यांना हे सोपे वाटले इतके साधे कारण देखिल यासाठी असू शकते.

लहान असताना लोकमान्य टिळकांनी त्यांच्या शिक्षकांना कोणतेही जोडाक्षर उभे/ आडवे आणि पाय मोडके अशा तीन प्रकारे लिहिता येते असे सांगून चकित केले होते असे ऐकले आहे. पण तो काळ वेगळा होता. आता युनिकोडचे प्रस्थ आहे. आणि मराठीचा वापर/ शिकणे / आग्रह कमी होत आहे. अशा स्थितीत तीन प्रकारच्या पर्यायांचा स्वीकार धोकादायक आहे. वाचकांच्या वाचनाचा वेग आणि नव्याने मराठी शिकू पाहणार्‍यांचा वेळ महत्त्वाचा आहे. ही तीन प्रकारची जोडाक्षरे गूगलमध्ये आणि डेटाबेसमध्ये वेगवेगळ्या पद्धतीने साठविली जातात. फाईंड / रिप्लेस करताना अडथळा आणतात. शक्यतो उभी, अपवादात्मक आडवी मांडणी तर पाय मोडून लिहू नये असा सर्वसाधारण संकेत दिसतो. शासनाने जाहीर केलेला नियम असे सांगतो…
(पान १२) दोन्ही प्रकारची जोडणीः काही जोडाक्षरे दोन्ही प्रकारे लिहिली जातात. उदाः पक्व / पक्‍व, पक्का / पक्‍का, किल्ला / किल्‍ला, सल्ला/ सल्‍ला, हल्ला/ हल्‍ला, अन्न / अन्‍न, सुन्न / सुन्‍न, भिन्न / भिन्‍न इ.
(पान १०) जोडाक्षरात श आधी आल्यास त्याचे दोन प्रकारे लेखन होते.
(पान १०) रक्‍त(क + त) चे जोडाक्षरलेखन विकल्पाने क्त असे करण्यास हरकत नाही. चक्र (क + र) चे जोडाक्षरलेखन विकल्पाने क्र असे करण्यास हरकत नाही.

https://www.maharashtra.gov.in/Site/Upload/Government%20Resolutions/Mara...

जोडाक्षरे उभी / आडवी कशीही लिहा, शासनाने त्यातून आपले अंग काढून घेतले आहे असे हे नियम वाचल्यावर वाटते. मराठी विकीने वाचकांची सोय बघून "रत्‍नागिरी" असे आडव्या मांडणीत लेखाचे नाव लिहिले आहे. तर एखादा प्रकाशक जागा वाचविण्यासाठी "रत्नागिरी" असे उभ्या मांडणीत लिहील. दोघेही बरोबर आहेत. पट्टीचे वाचक दोन्ही प्रकार तितक्याच सहजतेने वाचतील आणि वाचत आलेच आहेत. प्रश्न आहे तो नव्याने मराठी शिकणार्‍यांचा आणि युनिकोड / गुगल डेटाबेस यांच्या सोयीचा. सरकारने हे नियम बनविले तेव्हा हे दोन्ही मुद्दे ऐरणीवर आले नव्हते. “छप्पन” आणि "पन्नास सहा” अशा दोन पद्धती समांतर रितीने चालू ठेवणे यात धोका आहे की नाही? अभ्यासकांनी वा शासनाने यात सुसूत्रता आणण्यासाठी काही मार्गदर्शक तत्त्वे जाहीर केली पाहिजेत असे मला वाटते.

सरकारने व इतरांनी काय करावे हे सांगणे ही गोष्ट हंस्पेलच्या कक्षेबाहेरील आहे. उभ्या आणि आडव्या दोन्ही मांडणीतील जोडाक्षरे डिक्शनरीत येणे महत्त्वाचे आहे. सध्या समस्या अशी आहे की एखाद्याने अन्‍न असे आडव्या मांडणीतील जोडाक्षर लिहिले तर स्पेल चेक तो शब्द चुकीचा ठरवून राईट क्लिकवर अन्न असे उभ्या मांडणीतील जोडाक्षर सुचवितो. हे टाळण्याकरता "अन्न" बरोबर "अन्‍न" हा शब्द देखील डेटाबेसमध्ये जमा करावा लागेल. ते देखील एकवेळ करता येईल, पण मग असे किती शब्द जमा करावे लागतील त्याला काही सुमार नाही. त्यावर उपाय म्हणजे हंस्पेलचा रेग्युलर एक्प्रेशन कन्व्हर्टर वापरावा लागेल. हा कन्व्हर्टर स्पेलिंग तपासण्याआधीच आडव्या मांडणीला उभ्या मांडणीत बदलून टाकेल, त्यामुळे तो शब्द चुकीचा म्हणून मार्क होणार नाही. त्यासाठी खाली दिलेली यादी अफिक्स फाईलमध्ये टाकावी लागेल.

ICONV 31
ICONV क्‍ क्
ICONV ख्‍ ख्
ICONV ग्‍ ग्
ICONV घ्‍ घ्
ICONV च्‍ च्
ICONV छ्‍ छ्
ICONV ज्‍ ज्
ICONV झ्‍ झ्
ICONV ट्‍ ट्
ICONV ठ्‍ ठ्
ICONV ड्‍ ड्
ICONV ढ्‍ ढ्
ICONV ण्‍ ण्
ICONV त्‍ त्
ICONV थ्‍ थ्
ICONV द्‍ द्
ICONV ध्‍ ध्
ICONV न्‍ न्
ICONV प्‍ प्
ICONV फ्‍ फ्
ICONV ब्‍ ब्
ICONV भ्‍ भ्
ICONV म्‍ म्
ICONV य्‍ य्
ICONV र्‍ ऱ्
ICONV ल्‍ ल्
ICONV व्‍ व्
ICONV श्‍ श्
ICONV स्‍ स्
ICONV ह्‍ ह्
ICONV ळ्‍ ळ्

डिक्शनरीत फक्त उभ्या मांडणीतील जोडाक्षरे राहतील. एखाद्याने जॉईनर वापरून आडव्या मांडणीतील जोडाक्षर काढले तर ते चुकीचे म्हणून मार्क होणार नाही. पण इतर शब्दांना सुचवणी म्हणून राईट क्लिकवर उभ्या मांडणीतील जोडाक्षरेच दिसतील. बहुतेक सर्वांना मान्य होईल असा हा पर्याय आहे!

राईट क्लिकवरील सुचवणीमध्ये अन्न असा उभ्या मांडणीतील शब्द दिसेल, आडव्या मांडणीतील अन्‍न दिसणार नाही कारण तो शब्द डिक्शनरीत नाही. जर कुणी आडव्या मांडणीतील अन्‍न जॉईनर वापरून लिहिलाच तरी तो (वर दिलेल्या रेग्युलर एक्सप्रेशन टेबलमुळे) चुकीचा म्हणून मार्क होणार नाही. हे सगळं ठीक, पण जर कुणाला उभ्या आणि आडव्या असा दोन्ही प्रकारचा अन्न आणि अन्‍न राईट क्लिकवर दिसायला हवा असेल तर? त्यासाठी अर्थातच तो (व इतर शब्द) डिक्शनरीत जमा करावे लागतील. खाली दिलेल्या लिनक्स कमांडने सध्याचे उभ्या मांडणीतील न्न असलेले शब्द निवडून ते आडव्या मांडणीत न्‍न असे बदलून परत डिक्शनरीत जमा करता येतील.

grep 'न्न' mr_IN.dic > update.txt

sed 's/न्न/न्‍न/g' update.txt >> mr_IN.dic

सर्वच जोडाक्षरे अशा दोन प्रकारे लिहिता येत नाहीत. ही समस्या काही ठरावीक शब्दांपुरतीच मर्यादित आहे. तेव्हा अशा जोडाक्षरांची यादी करावी लागेल. सहा जोडाक्षरे तर इथल्या उदाहरणातच मिळाली.

न्न – न्‍न
त्न – त्‍न
क्त – क्‍त
क्व – क्‍व
क्क – क्‍क
ल्ल – ल्‍ल

काही फाँटनी ही समस्या आपल्या परीने सोडविण्याचा प्रयत्न केला आहे. उदाहरण द्यायचे तर शोभिका या फाँटमध्ये उभ्या मांडणीतील क्व दिसत नाही तर तो कसाही लिहिला तरी आडव्या मांडणीतच दिसतो. पण युजर कोणता फाँट वापरत आहे हे स्पेल चेक करताना पाहिले जात नाही. त्यामुळे फाँटवर अवलंबून राहता येणार नाही.

Pages