मराठीत ऑफलाईन टंकलेखन

Submitted by shantanuo on 11 September, 2018 - 09:51

गुगल इनपुट टूल्स वापरून ऑनलाईन टाइप करता येते.
https://www.google.com/inputtools/

पण मायक्रोसॉफ्ट वर्ड मध्ये टाईप करण्यासाठी त्याचा उपयोग नाही. भाषाइंडीया या साईटवरून डाऊनलोड केलेल्या इनपुट एडिटरचा अनुभव कसा आहे?
https://bhashaindia.com/downloads.aspx

यात स्पेल चेक / एटो करेक्ट नाही. तशी अपेक्षाही नाही कारण हे फक्त इनपुट टूल आहे. हा मजकूर मी याच टूलाचा वापरा करूंन वर्डमध्ये लिहिला आहे. मजकूर सेव्ह होण्यात काही अडचण (सध्या तरी) आलेली नाही. बरहाच्या आठवणीने अजूनही व्यथित होणार्या मंडळीनी वापरून बघायला हवे असे. ऑफलाईन टंकलेखन कारण्याकरता अजून काय मार्ग आहेत?

Group content visibility: 
Use group defaults

मी मला वेळ मिळेल तसा या पानावर जाऊन मराठीत अंक कसे लिहीतात ते टाईप करत आहे.

https://en.wiktionary.org/wiki/Module:number_list/data/mr

वीस ते तीस हे अंक लिहून झाले आहेत. इतर कुणाला वेळ (आणि इच्छा) असेल तर यात योगदान देऊ शकता.

आजच्या लोकसत्तामध्ये संहिता जोशी यांचा "...व वैशिष्टय़पूर्ण वाक्य" हा लेख आला आहे. या धाग्यात देखील तोच विषय चालू असल्यामुळे त्या लेखाची नोंद घेणे अपरिहार्य आहे.

https://www.loksatta.com/vidabhaan-news/vidabhan-article-by-sanhita-josh...

लेखाचा गोषवारा या ओळीत येतो…

प्रत्येक भाषेची आपापली वैशिष्ट्यं असतात. त्यानुसार काही शब्द मराठीत वाक्याच्या सुरुवातीला येत नाहीत. क्रियापदांनी सुरुवात होणारी वाक्यं मराठीत सहसा नसतात. ‘आहे’ या शब्दानं सुरुवात होणारं वाक्य मी आजच पहिल्यांदा लिहिलं, आत्ता वाचलंत हेच ते वाक्य. दुसरं चित्र पाहा; त्यात वाक्याची सुरुवात ‘आह.’ अशी करण्याचा प्रयत्न केला. मराठीत आहार, आहेर असे शब्द आहेत. या सॉफ्टवेअर प्रणालीला, कोणते शब्द वाक्याच्या सुरुवातीला येतात, येत नाहीत, याची संख्याशास्त्रीय माहिती दिसत नाही.

गुगलच्या ऍटोकरेक्टमधील खोट काढण्याचं धैर्य दाखविल्याबद्दल खरे तर लेखिकेचे अभिनंदन केले पाहिजे. गुगल, फेसबूक आणि ऍमेझॉन या तीन कंपन्या गेल्या १० वर्षात इतक्या मोठ्या झाल्या आहेत की त्यांच्यात काही दोष असू शकतो यावर कोणी विश्वास ठेवत नाही. पण या केसमध्ये गुगल आर्टिफिशियल किंवा नॅचरल असा कोणताच इंटलिजंस वापरत नाहीये असे म्हणायला जागा आहे. त्यावर लेखिकेने सुचविलेला उपाय मात्र चुकीचा आहे. त्या म्हणतात…

समजा असा प्रकल्प कोणी सुरू केला; प्रमाण मराठीत लिहिल्या जाणाऱ्या वाक्यांच्या सुरुवातीची दोन अक्षरं कोणती, ते शोधायचं. तर आत्तापर्यंत ही सगळी फक्त वाक्यं होती, ती या प्रकल्पापुरती विदा ठरेल. प्रमाण मराठीत लिहिली जाणारी सगळी वाक्यं म्हणजे संपूर्ण विदा. फक्त ‘लोकसत्ता’मधली वाक्यं घेतली तर तो असेल नमुनासंच किंवा वानोळा.

सर्व वाक्यांची पहिली दोन अक्षरं किंवा शब्द ट्रेनिंग सेट मध्ये घेऊन बनविलेले मॉडेल कदाचित पहिल्या शब्दाकरता ऍक्युरेट चालेल पण पुढचे सर्व शब्द चुकीचे दाखवेल. हे टाळण्यासाठी "लॉंग / शॉर्ट टर्म मेमरी" (LSTM) हे डीप लर्निंग मधील ऑलगोरिदम वापरावे लागेल.

https://en.wikipedia.org/wiki/Long_short-term_memory

यात ट्रेनिंग डेटा सर्वसमावेशक बनवावा लागतो. त्यासाठी फक्त लोकसत्तामधील लेखांवर अवलंबून राहता येणार नाही. इतर स्त्रोत (उदा. मायबोली) वापरायचे म्हटले तर त्यातील शुद्धलेखन प्रमुख अडथळा आहे. मायबोलीचा डेटा वापरला तर आपले मॉडेल वाया गेलेल्या मुलासारखे वागण्याचा अधिक संभव आहे. कॉपीराईट सारखे कायदेशीर अडथळे आहेतच. भरपूर मनुष्यबळ / भरपूर लिखाण (शक्य तितके शुद्ध) व भरपूर पैसा असेल तरच हे शक्य आहे. कारण डीप लर्निंगचे कोणतेही मॉडेल CPU नव्हे तर GPU किंवा TPU वर ट्रेन करावे लागते जे महाग असते.

मुळात हे सर्व गुगल का करेल या साध्या प्रश्नाचे उत्तर शोधा. या मोठ्या कंपन्या समाजकार्य म्हणून काहीही करत नाहीत. बरोबर? मराठी भाषेचं "मार्केट" म्हणून स्थान नगण्य आहे. मराठी लोकांनी ओपन सोर्स लायसंसखाली अधिकाधिक डेटा मोफत उपलब्ध करून देणे हाच एक त्यावर उपाय आहे. सोन्याची लंका आणि भारत यातील अंतर दिवसेंदिवस वाढत आहे. अशा वेळी खारीचा वाटा देखील महत्त्वाचा ठरू शकतो. लेखाच्या शेवटी त्या म्हणतात...

विदाविज्ञानात संख्याशास्त्राचा उपयोग केला जातो. त्यात एक उपयोग असाही असतो, लेख वाचून त्यांचे विषय काय हे ठरवणं. विदा, संख्याशास्त्र, असे शब्द आले की त्या लेखाचा विषय विदाविज्ञान, असं ठरवता येईल. तसंच सद्गुरू, भवदुख असे शब्द आले तर त्या लेखाचा विषय ‘एकात्मयोग’ असं ठरवता येईल.

ह्यात विषय आधी माहिती आहे असे गृहीत धरले तर क्लासिफिकेशन पद्धत वापरता येईल. पण नेटवर बहुतेक डेटा विस्कळीत स्वरूपात उपलब्ध आहे. विषयानुसार (म्हणजे विदाविज्ञान किंवा एकात्मयोग) असे वर्गीकरण करून लेख गोळा करण्यासाठी देखील कुणी (फुकट) तयार होणार नाही.त्यावर उपाय म्हणजे क्लस्टरींग ऑलगोरिदम वापरणे. पण त्यासाठी मराठी समजणारे विदावैज्ञानिक मिळवणे तर जवळपास अशक्य.

लेखिका पीएच.डी. , पोस्ट-डॉक, विदावैज्ञानिक वगैरे आहेतच पण अतिशय कठीण कल्पना सोप्या मराठीत सांगणाऱ्या उत्तम लेखिका देखील दिसतात. काही नसेल तर प्रत्यक्षात येणाऱ्या अडचणींची कल्पना. "सद्गुरू, भवदुख" हे शब्द जाऊ दे. "पांडुरंग" हा शब्द इंग्रजीत किती प्रकारे लिहीला जातो ते बघा...

https://shantanuo.livejournal.com/79228.html

नेटवर मोफत उपलब्ध असणारा डेटा शुद्धलेखन व व्याकरण या दोन्ही आघाड्यांवर पराभव पावलेला आहे. त्यावर कोणतेही मॉडेल ट्रेन होणे शक्य नाही. त्यातून वाचलेला पुस्तकांचा डेटा कॉपीराईट आणि युनिकोडित नसणे या दोन कारणांमुळे उचलता येत नाही. मोठ्या कंपन्यांकडून काही अपेक्षा करणे व्यर्थ आहे. सामान्य मराठी माणूस राजकारणात ज्या पद्धतीने डोके लढवून काम करतो त्या पद्धतीने यात काम करू लागला तरच हा मेगा ब्लॉक उठू शकतो.

लेख अभ्यास्पुर्ण आहे, व्याकरण तपासणॅ ह्यासाठी एक टूल बन्वावे लागेल की काय असे ही वाटते
उपायः शब्दांचा डेटाबेस बन्वणे आणि तो वेरिफाय करून घेणे (खुप मोठ काम आहे हे)

<<< गुगलच्या ऍटोकरेक्टमधील खोट काढण्याचं धैर्य दाखविल्याबद्दल खरे तर लेखिकेचे अभिनंदन केले पाहिजे. >>>
नॉट सो सून. समजा मला जर हे वाक्य लिहायचे असेल तर? "आहे रे, नाही रे ही चर्चा काय कामाची?"
मी एक बघितले आहे की आपण जे शब्द वारंवार वापरतो, त्यानुसार गूगल शिकत असते आणि मग आपण वापरतो तो शब्द सुरुवातीला दाखवला जातो आणि पर्यायी शब्द नंतर.

“मा” नंतर कोणते अक्षर अपेक्षित आहे हे कोण आणि कुठे टाईप करतो आहे यावर अवलंबून असेल. आपण जर विकिपीडियावर टाईप करत असाल तर "ह” (माहिती, माहेर) त्याचबरोबर "र" (मार्ग, मारला), किंवा "न” (मानव, मान्य, मानले) तसेच "ल" (मालिका, मालक) आणि "ग" (मागास, मागील, मागणी) ही अक्षरे "झ" पेक्षा जास्त वापरली जातात असे या पायथॉन स्क्रिप्टमध्ये दिसत आहे.

वाक्यातील प्रत्येक शब्दाची कुंडली मांडणे नॅचरल लँग्वेज प्रोसेसिंग मध्ये फार महत्त्वाचे ठरते. याला POS (part of speech) tagging असे म्हणतात. हिंदीत एखाद्या वाक्याचे विश्लेषण ही पायथॉन स्क्रिप्ट वापरून करूया.

('भारत', '11', 'nsubj')
('ने', '1', 'case')
('शुक्रवार', '11', 'obl')
('को', '3', 'case')
('पाकिस्तान', '8', 'nmod')
('के', '5', 'case')
('उप', '8', 'compound')
('उच्चायुक्त', '11', 'obj')
('को', '8', 'case')
('तलब', '11', 'compound')
('किया', '0', 'root')
('और', '28', 'cc')
('करतारपुर', '14', 'nmod')
('गलियारे', '28', 'obl')
('पर', '14', 'case')
('पाकिस्तान', '19', 'nmod')
('की', '16', 'case')
('नियुक्त', '19', 'amod')
('समिति', '28', 'obl')
('में', '19', 'case')
('कई', '23', 'det')
('खालिस्तानी', '23', 'amod')
('अलगाववादियों', '25', 'nmod')
('की', '23', 'case')
('मौजूदगी', '28', 'obl')
('पर', '25', 'case')
('चिंता', '28', 'compound')
('जताई', '11', 'conj')
('.', '11', 'punct')

अधिक माहिती येथे वाचता येईल.

https://universaldependencies.org/treebanks/hi_hdtb/index.html

माझ्या माहितीप्रमाणे मराठीत असे काही शक्य नाही. व नजीकच्या भविष्यात शक्य होईल असे वाटत नाही.

आपण बोलू तसे संगणकावर आपोआप टंकन होते, हा प्रकार मराठीत निर्दोष यायला अजून किती काळ लागेल ?-- बऱ्यापैकी बरोबर येतं, पण पूर्णविराम, स्वल्पविराम, उद्गारवाचक असले काही येत नाही. त्यामुळे फार अडचण होते. ते पण नीट आले तर फार उत्तम होईल..

हिम्सकूल,
त्यासाठी app डाउनलोड करावे लागते का ? हे फक्त मोबाईल वर असते का मोठ्या संगणकावर पण ?
धन्यवाद

पुर्वी मी आकृती सॉफ्टवेअर विकत घेतले होते. फॉंट फार छान नसले तरी फोनेटिक कीबोर्ड इतका सोपा होता की पाचव्या इयत्तेत शिकणाऱ्या मुलालाही मराठी लेखन सहज जमेल. स्पेस बटन दाबून ल/ळ, न/ ण यासारखे अत्यंत सुलभ टायपिंग करता येत होते. F की दाबून जोडाक्षरे तयार करता येतात. कोणाकडे सेम असेल तर कृपया मला द्या.
त्यात शब्द, वाक्य संस्कार करता येत होते की नाही ते आठवत नाही.

शशिराम जी, मी याच संदर्भात इथे प्रश्न विचारला होता पण उत्तर मिळाले नाही. मी आकृती साॅफ्टवेअर घेतले होते तेव्हा Windows xp होते माझ्या कडे. पण तेच Windows 7वर चालतच नाही. म्हणजे देवयोगिनी फॉन्ट वाचता येत नाहीये. आपण मदत करू शकाल का

अंगठी शब्दाचे तीन शब्द डिक्शनरीत घेतले.
अंगठी/a
अंगठ्या
अंगठ्यां/ex

a आणि e हे टॅग वापरून आपण आपण एकवचनी व अनेकवचनी शब्द बनवू शकतो हे आपण पाहिलेच आहे. पण त्यात "अंगठ्यां" असाही एक शब्द बनेल, जो अशुद्ध आहे. त्यासाठी अफिक्स रूलमध्ये नवीन रूल बनविला x नावाचा.

NEEDAFFIX x

आणि तो e बरोबर जोडला. आता डिक्शनरीत नोंद होईल ती अंगठ्यां/ex

प्राचीन आय एम व्हेरी सॉरी. मी कोणत्याही technologyचा end userआहे. कितीही प्रयत्न केले तरी टाळक्यात शिरत नाही. मी मनानेच कोरल ड्रॉ चांगले शिकलो पण फोटोशॉप जमतच नाही. मला तर माझाच फार राग येतो.

याच धाग्यात सुरवातीला सरकारी समितीने आक्षेप घेतलेल्या शब्दांची यादी दिली आहे. हे शब्द राईट क्लिकवर सुचविणीमध्ये दिसू नयेत म्हणून एक नवीन टॅग बनविला.

NOSUGGEST y

वेश्या/y
धेडगुजरी/y
चांभारचौकशी/y
खेडवळ/y
बाटगा/y
खेळखंडोबा/y

याचा अर्थ हे शब्द (चुकीचे नव्हे म्हणून) लाल रंगात दिसणार नाहीत. पण त्याचबरोबर इतर शब्दांना पर्याय म्हणून राईट क्लिकवर देखील दिसणार नाहीत. बाटगा शब्दावर राईट क्लिक केल्यावर धर्मांतरीत असा पर्याय दिसू शकेल पण त्यासाठी कुणीतरी खाली दिलेली नोंद डिक्शनरीच्या सोर्स कोडमध्ये करावी लागेल.

बाटगा|1
धर्मांतरीत
_____

आकृती संदर्भातील प्रश्नाचे उत्तर मी फार पूर्वीच दिले आहे. त्यात युनिकोड सपोर्ट नसलयामुळे त्यातील (नॉन युनिकोड) मजकूर भविष्यात कुणालाही वाचता येणार नाही. फॉण्ट कन्व्हर्टर वापरून युनिकोडमध्ये बदलून मिळतो असे म्हणतात, त्यासाठी एखाद्या जाणकाराची मदत घ्यावी लागेल. मजकूर १००% नीट बदलून मिळेल अशी मला खात्री नाही.

(युनिकोड हे मानक सर्वमान्य होऊन कित्येक वर्षे झाली आहेत. त्यात आता चर्चा करण्यासारखे काही नाही. संगणकावर केलेले लिखाण हे युनिकोडित असेल असे गृहीत धरले जाते आणि ते सगळीकडे सारखेच दिसते. )

आकड्यांचे अक्षरी लेखन करण्यासाठी हे दोन हंस्पेल रूल नवीन लिहावे लागतील असे दिसते.
SFX v Y 3
SFX v 0 वा .
SFX v 0 वी .
SFX v 0 वे .

SFX q Y 2
SFX q ीस िसा/Fvca ीस
SFX q ीस िशी/ca ीस

डिक्शनरीतील नोंद अशी दिसेल.
चाळीस/qvca
_____
त्यापासून असे ३८ शब्द तयार होतील.
चाळीस
चाळिसास
चाळिसाला
चाळिसाशी
चाळिसाहून
चाळिसाचा
चाळिसाची
चाळिसाचे
चाळिसाच्या
चाळिसात
चाळिसाने
चाळिसावा
चाळिसावी
चाळिसावे
चाळिशी
चाळिशीस
चाळिशीला
चाळिशीशी
चाळिशीहून
चाळिशीचा
चाळिशीची
चाळिशीचे
चाळिशीच्या
चाळिशीत
चाळिशीने
चाळीसवा
चाळीसवी
चाळीसवे
चाळीसस
चाळीसला
चाळीसशी
चाळीसहून
चाळीसचा
चाळीसची
चाळीसचे
चाळीसच्या
चाळीसत
चाळीसने

बहुतांश शब्द बरोबर असले तरी काही शब्द उपरे वाटतात.
चाळीसस, चाळीसत
“स" आणि "त" प्रत्यय काढता येत नाहीत कारण मग "चाळिसास" आणि "चाळिसात" हे शब्दही तयार होणार नाहीत. त्यासाठी 'स, त' असलेले व नसलेले असे दोन रूल्स आणखी बनवावे लागतील जे फक्त या अंकांनाच लावता येतील. तसे केले तर अफिक्स फाईल फार मोठी होईल. म्हणून हे शब्द सध्याच्या रूलसोबत असेच ठेवले आहेत. आवश्यक वाटल्यास पुढे त्यात सुधारणा करता येईल.
हे काम अपेक्षेपेक्षा जास्त कठीण दिसते. "प्रुफिंग टुल्स जीयुआय" या सॉफ्टवेअरची भरपूर मदत झाली.
http://proofingtoolgui.org/

एक ते शंभर आकडे येथे जसे लिहीले आहेत ते बरोबर आहेत का हे कुणी सांगेल का?
https://github.com/shantanuo/marathi_spell_check/blob/master/ordinal.txt

आपल्याला मराठी येते असा मला अहंकार झाला होता. खाली दिलेले आकडे अक्षरी लिहायला घेतल्यावर तो अहंकार दूर झाला.
४१, ४६, ५४, ६८, ७६, ८८

इंग्रजीतून मराठीत अक्षरी रुपये लिहिण्यासाठी ही दोन फंक्शन लिहिली.

convert(32897066)
('३२८९७०६६', 'तीन कोटी अठ्ठावीस लाख सत्त्याण्णव हजार सहासष्ट रुपये')

mystring_to_number('तीन कोटी अठ्ठावीस लाख सत्त्याण्णव हजार सहासष्ट रुपये')
32897066

ज्यांना पायथॉन येते ते त्याचा उपयोग कुठेही करू शकतात.
_____

एखाद्याने आकडे अक्षरात लिहिताना चूक केली तर हे सॉफ्टवेअर स्पेलचेक वापरून ती चूक सुधारून घेईल. उदा...

mystring_to_number('तीन कोटी अठ्ठावी लाख सत्याण्यव हजार सहासष्ट रुपये')

वरील उदाहरणात "अठ्ठावी" शब्दाचे "अठ्ठावीस" तर "सत्याण्यव” चे "सत्त्याण्णव" होऊन आपल्याला अगदी योग्य आणि अपेक्षित संख्या मिळेल ती म्हणजे 32897066

ह्याला नॅचरल लॅंग्वेज प्रोसेसिंग (NLP) मधील ऐंटीटी रेकग्नीशन (Named-entity recognition) असे म्हणतात.

मराठी फॉन्ट काही वेळा अगदी गोत्यात आणतात. उदाहरण द्यायचे तर हा शब्द पहा…
अंतर्द्वारे
हा शब्द वास्तविक "अंतर्द्वा रे" असा आहे. पण मला तो "अंतद्वरि" असाच दिसतो. फॉन्टचा आकार भरपूर वाढवला तरी देखील…

https://kagapa.s3.ap-south-1.amazonaws.com/fonts/font_problem.png

द्वा चा रफार आणि र चा एकार जोडल्यासारखा दिसणे ही फॉन्टची मोठी चूक म्हटली पाहिजे. सुदैवाने मराठीत आता बरेच फॉन्ट उपलब्ध आहेत. उदाहरण म्हणून कुबल मसालेची ही जाहीरात पाहा…

https://kagapa.s3.ap-south-1.amazonaws.com/fonts/kubal_ad.jpg

"लोणचं घालणं झालंय अगदी सोपं!" या वाक्यातले सगळे अनुस्वार आणि अक्षरांची वळणे अगदी सुबक.

तर ही दुसरी महाराष्ट्र शासनाची जाहीरात पहा…
https://kagapa.s3.ap-south-1.amazonaws.com/fonts/maharashtra_ad.jpg

यातील "महाराष्ट्र दिनाच्या हार्दिक शुभेच्छा!" यातील फॉन्ट फेटे, तुरे यांची आठवण करून देतो. मराठीतील जाहिरातदार फॉन्टवर आणि शब्दांवर जेवढी मेहनत घेतात त्याच्या काही प्रमाणात आपणही घ्यायला हवी. त्यांच्याइतके पैसे मिळत नसले तरी Happy
_____

कुबलच्या जाहिरातीत बहूधा "गोटू" फॉन्ट वापरला असावा असे या फाईलमध्ये दिसते.

https://kagapa.s3.ap-south-1.amazonaws.com/fonts/fonts.pdf

सरकारी जाहिरातीत कोणता फॉन्ट आहे ते समजत नाही. कदाचित फ्री/ ओपन सोर्स फॉन्ट न वापरता, खाजगी मालकीचा फॉन्ट वापरला असावा. काही मुक्त स्रोत फॉन्टना "हार्दिक" हा शब्द नीट लिहीता येत नाही असे दिसते. एकूणच रफार हा अक्षराच्या पुढे किती न्यायचा याविषयी एकमत नसावे.

इंग्रजीत याला "ज्युरी इज आऊट" म्हणतात. म्हणजे अजून निकाल लागलेला नाही. “अंतर्द्वारे" हा शब्द मराठीत नेमक्या कोणत्या फॉन्टमध्ये नीट दिसतो, याचा मी अभ्यास केला. त्यानुसार ओपन स्रोत फॉन्ट गार्गी नंबर तीनवर आहे. पहिल्या नंबरवर IIT या संस्थेने बनविलेला "शोभिका बोल्ड" हा फॉन्ट आहे. हा फॉन्ट यशोमुद्रावर आधारित आहे म्हणून त्याचा वेगळा नंबर नाही. पण यशोमुद्रा (आणि यशोवेणू) हे चांगले पर्याय आहेत. दुसरे स्थान "सकल भारती" या TDIL संस्थेच्या फॉन्टकडे जाते. आणि थोडा वेगळा फॉन्ट हवा असेल तर गोटू आहेच.

काही फॉन्टनी जोडाक्षराची आडवी मांडणी करून भाषेला धक्का दिला आहे. त्याला विरोध करावा लागेल. (म्हणजे हा शब्द असा दिसतोः अंतर् द् वारे) कारण त्यात काहीही चूक नसले तरी त्यामुळे वाचनाची लय बिघडते. “जल्दी" आणि "प्रगती" सारख्या फॉन्टनी त्यापुढे जाऊन एक अक्षर आडव्या मांडणीत तर दुसरे उभ्या मांडणीत दाखविले आहे. (म्हणजे हा शब्द असा दिसतोः अंतर् द्वारे) हे करणे तर निषेधार्हच म्हणावे लागेल. खाली दिलेल्या पीडीएफ फाईल मध्ये आपल्याला हे सर्व प्रकार पहायला मिळतील.

https://kagapa.s3.ap-south-1.amazonaws.com/fonts/fonts_jodakshar.pdf

काही शब्द फक्त शब्दकोशातच दिसतात. प्रत्यक्ष लिखाणात ते शब्द येत नाहीत. असे शब्द स्पेलचेक डिक्शनरीत घ्यायचे नाहीत, हे धोरण बरोबर असले तरी एखाद्या शब्दाचा वापर होत आहे का हे ठरवणार कोण? आणि कसे? उदाहरण म्हणून आपण "अंगना" हा शब्द घेऊ. हा शब्द कोशात असला तरी मी बनविलेल्या डिक्शनरीत (सध्या तरी) नाही. तो वापरात आहे का हे तपासण्यासाठी हा शब्द गुगलून पाहिला तर हजारो रिजल्ट दिसतात. पण ते फसवे आहेत. एकतर १०० च्या वर गेलात तर पानेच संपून जातात. आणि हे १०० रिजल्टदेखील हिंदी शब्दाशी (अंगण ह्या अर्थी) संबंधित आहेत. तेव्हा गुगलप्रामाण्य मान्य करणाऱ्या लोकांच्या दृष्टीने हा शब्द मराठीत वापरात नाही. खात्री करून घेण्यासाठी विकिपीडियावर पाहिले तर २-३ रिजल्ट दिसतात. पण ते जुन्या काव्याशी संबंधित आहेत म्हणून त्यांचा विचार करता येत नाही. लोकप्रामाण्य, गुगलप्रामाण्य आणि विकीप्रामाण्य हे तीन मापदंड ठेऊन शब्दांची निवड होईल.

एकटयाला बडबड करायला हां धागा आहे का ?
की इकडे प्रश्न विचारणे आणि जमल्यास उत्तर देणे ह्याचा दुरान्वये संबंध नाहीये ?
नक्की कसे समजावे !!

वीक्ष्य, आपण विचारलेल्या प्रश्नाचे मी तत्काळ उत्तर देऊ शकलो नाही या बद्दल मला क्षमा करा. आपण गुगल नावाचे संकेतस्थळ ऐकले आहे का? त्यात विविध विषयांचा शोध घेण्याची खूप चांगली सोय आहे. आपण विचारलेला प्रश्न मी जसाच्या तसा कॉपी-पेस्ट केला आणि मिळालेल्या लिंकवर न जाता गुगलच्या शोधपानावरच उत्तर मिळाले. आपल्याला ते शोधण्याचे कष्ट पडू नयेत म्हणून मी त्यावर वर्तूळ काढून त्याचा स्क्रीनशॉट खाली दिला आहे. उत्तर देण्यास झालेला विलंब आपण उदार मनाने माफ कराल अशी आशा आहे.

शक्तीराम, आपण शशिराम या टोपण नावाने ३ एप्रिल रोजीच मला समज दिली होती. त्यानंतरही मी माझे लेखन चालू ठेवले, म्हणून आज परत आठवण करून दिलीत. धागा मी उघडला म्हणून फक्त मीच लेखन करणार असा माझा आग्रह नाही. आपण जर या धाग्यावर काही लेखन केले तर त्याचे मायबोलीचे वाचक स्वागतच करतील याची खात्री बाळगा व निःसंकोचपणे आपली मते व्यक्त करा.

खुप खुप आभारी आहे शंतनु
एक्चुली मी आधीच गूगल केलेले पण मला मिळालेले रिझल्ट्स टाइप करूनही वर्क नाही झाले म्हणून मी प्रश्न केला इकडे. आता तुमच्या स्क्रीनशॉट प्रमाणे टाइप करतो.
बादवे
बरहा मी डावुनलोड केला त्याचेही संपूर्ण श्रेय ह्या धाग्यालाच जाते कारण इकडच्याच एका प्रतिसादात मला ती लिंक उपलब्ध झालेली होती.
आपल्या मदतीसाठी पुन्हा एकवार आभार !

आपल्याला याच धाग्यात बरहाची लिंक मिळाली असे आपण म्हटले आहे. त्याबरोबरच लिबर ऑफिस स्पेलचेकची लिंकदेखील मिळू शकते. त्याचा उपयोग हा की यात ऍटो-करेक्ट सुविधेद्वारे बहुतेक शब्द आपोआप सुधारले जातात. उदा. आपण जर "परयतन" असे लिहीले तर स्पेस दिल्यानंतर ते आपोआप "प्रयत्न" बनते. एखादा शब्द खूपच छळत असेल तर तो कसाही लिहून स्पेलचेक ऑप्शनमध्ये काही मदत मिळते का ते पाहता येते.

उदा. विज्न्यान शब्दाखाली लाल रेघ दिसली म्हणून उजवी टिचकी मारली तर "विज्ञानाने" शब्द दिसला. तो स्वीकारून त्यातील "ने" बॅकस्पेसने काढून टाकला. असे "जुमले" करीत मी पानेच्या पाने टाईप करतो!

लिबर ऑफिसचा स्पेल चेक लिंकः
https://extensions.libreoffice.org/extensions/marathi-spellchecker

फायरफॉक्स स्पेल चेक लिंकः
https://addons.mozilla.org/en-US/firefox/addon/marathi-dictionary/

धन्यवाद Happy
दिलेल्या लिंक नक्की वापरेन आणि फीडबैक देईन

मागे मी "बसणे" या क्रियापदापासून ८५ शब्द तयार करण्याची कृती दिली होती. त्यातच थोडा बदल करून आता ३३३ शब्द बनवता येतात. हे करण्याचे कारण की सकर्मक / अकर्मक प्रत्यय तेव्हा घेतले नव्हते. आता असे ५८ प्रत्यय घेतले. दुसरी गोष्ट म्हणजे मी "बसण्यासाठी” शब्द हंस्पेल वापरून तयार केला खरा पण “बसण्यासाठीची” असा शब्द तयार करू शकलो नव्हतो. कारण हंस्पेलमध्ये फक्त २ नियम एकात एक जोडता येतात. म्हणजे बस + ण्या याबरोबर बस + ण्या + साठी हे जमू शकते. पण बस + ण्या + साठी + ची अशी ग्राऊंड + ३ इमारत उभी राहू शकत नाही. हंस्पेलमधील ही त्रुटी मी संबंधितांच्या नजरेस आणून दिली आहे. हा बग नजिकच्या काळात सुधारला जाण्याची शक्यता नाही. म्हणून "बसण्या" हा शब्द डिक्शनरीत स्वीकारून अफिक्स फाईलमध्ये बसण्या + साठी + ची अशी सोय केली. आता कोणी म्हणेल की हा "जुमला" झाला (म्हणजे ही तडजोड झाली). जर अख्खा देश जुमल्यावर चालू शकतो तर डिक्शनरी का नाही? दुसरी गोष्ट हंस्पेल मधील ही त्रुटी मराठी (आणि काही लॅटीन अमेरिकन) भाषेलाच खटकते. हिंदीत असे प्रत्यय नाहीत आणि असले तरी २ मजल्यांच्यावर जात नसावेत. नवीन अफिक्स फाईलमधून आलेले अगदी सर्वच शब्द वापरले जात असतील असे नाही. खाली दिलेल्या फाईलमध्ये हे शब्द पाहता येतील.
https://kagapa.s3.ap-south-1.amazonaws.com/spellcheck/bus.pdf

प्रुफिंग टूल्स हे सॉफ्टवेअर कोणी इंस्टॉल केले असेल ते खाली दिलेल्या २ फाईल वापरून हे शब्द परत तयार करून बघू शकतात.

mr_IN.dic
6
बस/P
बसण्या/QZac
बसल्या/QZac
बसल्यां/QZbc
बसलेल्या/QZac
बसलेल्यां/Qzbc

wget https://github.com/shantanuo/marathi_spell_check/blob/master/dicts/mr_IN...

आपण आता "कुरकुरणे" या क्रियापदाची डिक्शनरीतील नोंद कशी होणार आहे ते पाहूया.

कुरकुरणे
कुरकूर
कुरकुर/SP
कुरकुरण्या/SQZac
कुरकुरल्या/QZac

१) “कुरकुरणे" हा शब्द शुद्ध आहे.
२) “कुरकूर" हा शब्द देखील शुद्ध आहे.
३) S फ्लॅगचा अर्थ असा की "कुरकुर" हा शब्द अशुद्ध आहे. पण त्याला लागून जर एखादा प्रत्यय असेल तर तो शुद्ध. उदा "कुरकुरला". असे एकूण ५९ प्रत्यय आहेत. जे P टॅगने तयार होतील.
४) “कुरकुरण्या" शब्दाला देखील S फ्लॅग मिळाला आहे. याचा अर्थ हा शब्द अशुद्ध आहे. मात्र त्याला दुसरा शब्द येऊन मिळाला तर तो शुद्ध! उदा. "कुरकुरण्यासाठी" सारखे ४ शब्द बनतील Q या टॅगमुळे.
कुरकुरण्यासाठी
कुरकुरण्यानंतर
कुरकुरण्यावर
कुरकुरण्यामागे

आणि यातील प्रत्येक शब्द "रामा" शब्दासारखा चालेल. म्हणजे कुरकुरण्यावरचा, कुरकुरण्यावरची, कुरकुरण्यावरचे इत्यादी. असे ५४ शब्द तयार झाले. (५ * ११ – १)

५) आता आपण शेवटचा म्हणजे पाचवा नियम पाहू.
कुरकुरल्या/QZac

यात S फ्लॅग नाही. याचा अर्थ "कुरकुरल्या" शब्द देखील शुद्ध आहे, त्याच्या प्रत्ययांसह. याचेही वरच्या नियमाप्रमाणे ५४ शब्द तयार झाले. उदा. कुरकुरल्यासाठीचा, कुरकुरल्यासाठीची इत्यादी.

कुरकुरणे १
कुरकूर १
कुरकुर/SP ५९
कुरकुरण्या/SQZac ५४
कुरकुरल्या/QZac ५५

असे एकूण १७० शब्द तयार झाले जे कमी अधिक प्रमाणात वापरात आहेत आणि सगळे टेक्निकली शुद्ध आहेत! अर्थात यात सुधारणेला वाव आहे. विशेषतः Q टॅगमध्ये सध्या फक्त ४ शब्द आहेत. साठी, नंतर, वर, मागे हे शब्द वाढवता येतील. इतरही काही सुधारणा कुणी सुचविल्या तर उत्तम.

"अडमडणे" हे क्रियापद धडपडणे या अर्थी वापरले जात असे. ते क्रियापद त्याच्या विविध रूपांसह वर दिलेल्या लोकप्रामाण्य, विकीप्रामाण्य आणि गुगलप्रामाण्य या निकषात लावून पाहिले. त्याचा वापर नगण्य होत आहे हे पाहिल्यावर हे क्रियापद डिक्शनरीतून काढून टाकले. खाली दिलेली रूपे हंस्पेल नियमाप्रमाणे तयार होणार नाहीत आणि सुचवणीतही दिसणार नाहीत.

अडमडणे
अडमडतो
अडमडते
अडमडतोस
अडमडतेस
अडमडता
अडमडतात
अडमडतील
अडमडत
अडमडताना
अडमडतास
अडमडतीस
अडमडती
अडमडत्या
अडमडला
अडमडलात
अडमडलास
अडमडली
अडमडलीस
अडमडले
अडमडलेला
अडमडलेली
अडमडलेले
अडमडलेल्या
अडमडल्या
अडमडलीत
अडमडलेत
अडमडलेस
अडमडल्यात
अडमडल्यास
अडमडलो
अडमडू
अडमडाल
अडमडेल
अडमडीन
अडमडेन
अडमडील
अडमडा
अडमडो
अडमडोत
अडमडावा
अडमडावात
अडमडावी
अडमडावीत
अडमडावे
अडमडावेत
अडमडाव्या
अडमडाव्यात
अडमडावास
अडमडावीस
अडमडावेस
अडमडाव्यास
अडमडून
अडमडशील
अडमडणार
अडमडणारा
अडमडणारी
अडमडणारे
अडमडणाऱ्या

अशी बरीच क्रियापदे डिक्शनरीतून गाळली जाणार आहेत. हेतू दोन १) डिक्शनरीचा आकार कमी ठेवणे हे पूर्वीपासूनचे धोरण आहे. २) भाषा प्रवाही असते, असली पाहिजे. हा भाषा कोश नाही तर स्पेल-चेक साठी बनविलेली शब्दसूची आहे. त्यात फक्त वापरातले शब्दच राहतील. वाचकांपैकी कुणाचे काही वेगळे मत असले तर कृपया मांडावे. नाहीतर ही दिशा बरोबर आहे असे गृहीत धरता येईल.

मी दीड हजार क्रियापदांची यादी टाईप केली. सर्व क्रियापदांना ६० प्रत्यय लावले. काही क्रियापदांवरून नवीन क्रियापदे तयार केली. त्यासाठी Q आणि R हे दोन टॅग वापरले.

अंकुरणे/P
अडकणे/PQ
अंतरणे/PR

Q टॅगने "अडकवणे" हा शब्द तर R टॅगने "अंतरावणे" हा शब्द तयार झाला. या नवीन क्रियापदांना नेहमीचे प्रत्यय लागून आणखी शब्द तयार झाले.

१५०० मूळ शब्द
५०० शब्द (Q आणि R टॅगने तयार झालेले)
_____
२००० शब्द * ६० प्रत्यय = १,२०,०००

फक्त दीड हजार क्रियापदांवरून सुमारे सव्वा लाख शब्दरूपे तयार करण्याचे मराठीचे शब्दवैभव डोळे दिपवणारे आहे. हे सर्व शब्द येथे पाहता येतील.

https://raw.githubusercontent.com/shantanuo/marathi_spell_check/master/d...

अफिक्स फाईल मधील नोंदी अशा दिसतील.

SFX Q Y 1
SFX Q णे वणे/P णे

SFX R Y 1
SFX R णे ावणे/P णे

SFX P Y 59
SFX P णे तो णे
SFX P णे ते णे
SFX P णे तोस णे

“तो", “ते", “तोस" अशा ५९ प्रत्ययांची पूर्ण यादी येथे पाहायला मिळेल.

https://github.com/shantanuo/marathi_spell_check/blob/master/dicts/nend2...

दीड हजार क्रियापदांची यादी:
https://github.com/shantanuo/marathi_spell_check/blob/master/dicts/nend2...

संस्कृत २००३ हा फॉन्ट सर्व जोडाक्षरे उभ्या मांडणीत, गार्गी आडव्या तर कडवा सारखा फॉन्ट सुट्या मांडणीत दाखवतो.

१) संस्कृत २००३ः उभ्या मांडणीचा फायदा म्हणजे त्याला कमी जागा लागते त्यामुळे छपाईला उपयुक्त (कागद वाचतो). पण वाचायला त्रास होतो. दिक्वाचक हा शब्द दिक्काचक असा वाचला जाऊ शकतो. म्हणून हा फॉन्ट जालावर वापरू नये.
२) कडवाः फॉन्ट नावाप्रमाणे कडवा असून तो उभी किंवा आडवी अशी कोणतीच जोडणी जुमानत नाही असे दिसते. नवीन मराठी शिकणाऱ्या ज्या लोकांना जोडाक्षरे म्हणजे संकट वाटते त्यांच्यासाठी हा फॉन्ट उत्तम आहे. पण जालावर वापरू नये.
३) गार्गीः हा सुवर्णमध्य आहे. आवश्यक तिथे आडवी तर हवी तिथे उभी मांडणी देखील आहे. हा फॉन्ट हिंदीतही वापरता येतो. जालावर वापरण्यास योग्य.
४) यशोमुद्रा/ शोभिकाः मराठी भाषेच्या काही खास गरजा आहेत असे वर दिलेल्या फॉन्टच्या निर्मात्यांना वाटत नसावे. उदा. गार्गीमध्ये भक्त हा शब्द आडव्या मांडणीत येतो, “भक्‍त” असा. अस्सल मराठी भाषिक तर तो शब्द अशुद्ध समजण्याची शक्यता आहे. छपाईसाठी आणि जालावर दोन्हीकडे वापरता येण्यासारखा यशोमुद्रा टंक आहे. मी हल्ली तोच टंक वापरतो. टाईप करण्यासाठी "प्रमुख आय.एम.ई.” हे सॉफ्टवेअर वापरतो. (बराह नव्हे). त्यात मला सर्व प्रकारची जोडाक्षरे काढता येतात. उदा. भक्त (उभी मांडणी डिफॉल्ट) भक्‍त (आडवी मांडणीः अर्ध्या क नंतर दोन डॅश मग त) भक्‌त (सुटी मांडणीः अर्ध्या क नंतर तीन डॅश मग त)
शक्यतो आडवी किंवा सुटी मांडणी न करता जोडाक्षर कसे दाखवावे हे त्या त्या फॉन्टच्या हातात सोपवावे. कारण दोन / तीन डॅशमुळे अक्षराचे आकारमान वाढते आणि गुगल सर्चमध्ये ते तीनही शब्द वेगवेगळ्या प्रकारे इंडेक्स होतात.

सर्व शब्दयोगी अव्यय जमा करून विभक्ती प्रत्ययांसकट "बसणे" या क्रियापदाची सुमारे दोन हजार रूपे बनतात. ती येथे पाहता येतील.

https://kagapa.s3.ap-south-1.amazonaws.com/spellcheck/basane_all_forms.pdf

डिक्शनरीतील नोंद अशी दिसेल.

7
बसणे/PQ
बसणाऱ्या/A
बसणाऱ्यां/A
बसण्या/A
बसलेल्या/A
बसलेल्यां/A
बसल्या/A

अफिक्स फाईलमधील हंस्पेल रूल्स असे दिसतील.

https://kagapa.s3.ap-south-1.amazonaws.com/spellcheck/nend2.aff

प्रुफिंग टूल्स या सॉफ्टवेअरचा उपयोग करून हे शब्द बनविले.
http://proofingtoolgui.org/

वर दिलेल्या PDF फाईलमध्ये काही चुका असल्यास इथे मांडाव्यात म्हणजे हंस्पेल रूलमध्ये सुधारणा करता येतील. एक चूक मला मिळाली आहे. “प्रति" हा शब्द "प्रती" असा हवा होता.

कैवारणे, रोगटणे अशी क्रियापदे काढली. त्याला इलाज नव्हता. कारण त्याचा अर्थच बहुतेकांना माहीत नाही तर तो शब्द लिहिला जाणार नाही.

रोगट झाला (रोगटणे)
कैवार घेतला (कैवारणे)
धाक दिला (धाकणे)

लिखाणातच न आल्यामुळे स्पेल चेक ऑप्शनमध्ये तो शब्द दाखविण्याचा प्रश्नच येत नाही. पण अशी क्रियापदे भाषा सुडौल बनवितात. हे शब्द समानार्थी शब्द म्हणून दाखवता येतील. आधी म्हटल्याप्रमाणे त्यासाठी स्वयंसेवकांनी आपणहून पुढे येऊन github किंवा दुसरीकडे कुठे (उदा. विकिपीडियावर) अशा याद्या प्रसिद्ध कराव्यात.

मी पूर्ण धागा वाचला नाही, वाचणारही नाही. एकतर मला यातलं काहीही कळत नाही, आणि एकच व्यक्ती प्रतिसाद देतेय म्हटल्यावर बोर व्हायला लागतं.
असो एवढा खटाटोप करण्यापेक्षा गुगल इंडिक अथवा easymarathityping सारख्या वेबसाईट का कुणी वापरत नाही?

"थुकणे" क्रियापदावरून थुकला, थुकतो अशी रूपे बनतात, पण त्याचे आज्ञार्थी रूप मात्र "थूक" असे होते. ऱ्हस्व "थु" चा दीर्घ "थू" हन्सेलमध्ये रूल लिहून बदलता येईल पण तो जर शेवटच्या स्थानावर असेल तरच. शेवटून तिसऱ्या अक्षरात बदल करणे रेग्युलर एक्स्प्रेशन वापरून देखील कदाचित शक्य होणार नाही. म्हणून असे शब्द डिक्शनरीत जसेच्या तसे घेतले. उठ, उड, आतुर असे आपल्या नेहमीच्या वापरातले शब्द वास्तविक ऊठ, ऊड, आतूर असे दीर्घ आहेत. हे कळल्यावर एक नियम हन्सेलमध्ये वाढवला.

SFX N Y 1
SFX N णे 0 णे

बुडणे आणि बुडवणे ही दोन्ही क्रियापदे वेगवेगळ्या पद्धतीने चालतात.
म्हटले जा, पाण्यात बूड! आणि तो खरच बुडाला.
त्याला पाण्यात बुडव!

"बूड, बुड, बुडव, बूडव, बुडाला, बूडाला, बूडला असे कसेही लिहीले तरी काहीही फरक पडत नाही. काय म्हणायचे आहे ते समजल्याशी कारण. " हा देखील एक प्रभावी विचार आहे. हा धागा त्यांच्यासाठी नाहीच. ज्यांना "थोडाफार" तरी फरक पडतो व ऑफलाईन लिहीताना इंग्लिशसारखा स्पेलचेकर हाताशी असण्याची गरज वाटते, त्यांच्यासाठी हे लिखाण आहे. वैयक्तिक ब्लॉगवर न लिहीता मायबोलीवर लिहण्याचे कारण की असा "रूल बेस्ड" स्पेलचेकर कुणी भविष्यात बनविला तर त्याला लागणारी सर्व सामग्री, दुवे एकाच ठिकाणी उपलब्ध असावेत.

अंकूर
आंबूस
आतूर
आसूस
ऊठ
ऊड
ऊत
ऊब
ऊर
कुचकूच
कूज
कुजबूज
कूट
कुडकूड
कुडबूड
कूढ
कुरकूर
कुरबूर
कुसमूस
खुटखूट
खूड
खूप
खूल
खुसखूस
खुळखूळ
गढूळ
गाभूळ
गुणगूण
गूण
गुरगूर
घूम
घुरघूर
घूस
चुकचूक
चूक
चुटपूट
चुरचूर
चूर
चुळबूळ
जूळ
झूक
झूर
झूल
झुळझूळ
ठुसठूस
डूब
डूल
ढूस
तूक
तूट
तुडतूड
थूक
दुमदूम
धूकधूक
धुगधूग
धू
धूप
धुसफूस
पहूड
पूज
पुटपूट
पूर
पूस
पेंगूळ
फूक
फूग
फूट
फुरंगूट
फुरफूर
फूल
फुसफूस
बूज
बूड
भुरभूर
भूल
मलूल
मूक
मूत
मूर
मुसमूस
मुळमूळ
रूच
रूज
रूत
रूस
लालूच
लूच
लूट
लुडबूड
विखूर
व्याकूळ
सूक
सूच
सूज
सूट
सुरकूत
स्फूर
हिरमूस
हूक
हुरहूर
_____
"काढणे" या क्रियापदाचे "काढतो" हे एक रूप होते तसेच "काढितो" असेही होऊ शकते. याला इडागम म्हणतात. म्हणजे "काढ" आणि "तो" यामध्ये "इ" चे आगमन. हंस्पेलमध्ये O हा टॅग इडागमासाठी तयार केला. इच्छणे या क्रियापदाची इडागमासह (म्हणजे इच्छतो, इच्छतात याबरोबरच इच्छितो, इच्छितात अशी) सुमारे ८५० रूपे तयार झाली.

shantanuo तुम्ही सर्व प्रतिसादांमधे लिहिण्याऐवजी या माहितीचा सविस्तर लेख लिहून तो काही भागात प्रकाशित का करत नाही? प्रतिसादांमधून भविष्यात कुणाचीतरी सोय करणे मला समजले नाही. लेखमाला असती तर ज्याला या विषयात रस आहे त्याला जास्त सोयीस्कर झाले असते असे मला वाटते.

लिब्रे ऑफिसमध्ये परिच्छेद जस्टिफाय केला की शब्दात जास्तीची जागा राहते. हे टाळण्यासाठी हायफनचा वापर अनिवार्य आहे. तसे केले नाही तर वृत्तपत्रे, पुस्तके यात मजकुरासाठी खूप पाने लागू शकतात. नेटवर आपण लेफ्ट जस्टिफाय केलेला मजकूरच वाचतो. त्यामुळे हायफनचा वापर हा मोठा अभ्यासाचा (आणि वादाचा!) मुद्दा आहे हे आपल्या लक्षात येत नाही. खाली दिलेल्या चित्रातील दुसऱ्या पॅरिग्राफमधील पहिले आणि तिसरे वाक्य पहा.

यातील पहिली डॅश "माझ्या-कडेही" कंट्रोल + डॅश वापरून दिली आहे. तर शेवटच्या लायनीतील "माझ्याकडे-ही" यातील डॅश आपोआप दिली गेली आहे. तात्पर्य "माझ्याकडेही" या शब्दात ४ ठिकाणी हायफन देणे शक्य आहे.

मा-झ्याकडेही
माझ्या-कडेही
माझ्याक-डेही
माझ्याकडे-ही

यापैकी दुसरा पर्याय (माझ्या-कडेही) योग्य वाटतो. लिब्रे ऑफिसमध्ये फॉरमॅट - पॅरेग्राफ - टेक्स्ट-फ्लो - ऑटोमॅटीक असा पर्याय निवडल्यावर हायफन कुठे येईल यावर आपले काहीच नियंत्रण नसते.

त्यासाठी आपण "माझ्या" आणि "कडेही" यामध्ये कंट्रोल + डॅश देऊ शकतो. असे केले की पर्याय ३ आणि ४ बाद होतात. जेव्हा गरज असेल तेव्हा लिब्रे ऑफिस पहिल्या अथवा दुसऱ्या पर्यायाचा वापर करून शब्द तोडतो. पण त्यासाठी अशा प्रकारे किती शब्दात विचारपूर्वक कंट्रोल डॅश वापरणार? त्यासाठी या हायफन फाईलमध्ये आवश्यक ते रूल लिहावे लागतील.

https://github.com/shantanuo/marathi_spell_check/blob/master/dicts/hyph_...

काही काळाने "ह्यात काय मोठा तीर मारला? मी सुध्दा असे छप्पन रूल लिहू शकतो." अशी टिपिकल प्रतिक्रिया येऊ शकते. म्हणून मी काही दिवस थांबून मग यावर काम करीन. Happy

लिब्रे ऑफिसची नवीन / सुधारित आवृत्ती (हायफनेशन नियमांसहित) प्रसिद्ध केली.

https://extensions.libreoffice.org/extensions/marathi-spellchecker

“देवाबद्दलचा” हा शब्द आता “दे-वाबद्दलचा” “देवा-बद्दलचा” आणि “देवाबद्दल-चा” अशा तीन प्रकारे हायफनेट होईल. पूर्वी “देवाब-द्दलचा”, “देवाबद्द-लचा” असे जे दोन पर्याय होते ते आता चालणार नाहीत. त्यासाठी हायफन फाईल मध्ये “1बद्दल" अशी नोंद केली. याचा अर्थ "बद्दल" शब्दाचे काँक्रिटीकरण झाले. ओळीच्या शेवटी पुरेशी जागा नसेल तर तो पूर्ण शब्द पुढच्या ओळीत ढकलला जाईल. अशी एकूण ११२ अव्यये जमा केली. “व्यतिरिक्त” हा चार अक्षरी शब्द (मोठा असल्यामुळे) घेतला नाही. तसेच "च” आणि "ही” देखील गाळले.
संतोष थोटिंगल यांची तीन वर्षांपूर्वीची ही जिटलॅब कमिट आधारभूत मानली आहे.

https://gitlab.com/smc/hyphenation/commit/55046f1d2e983d640c3fe92f54cd6a...

खाली दिलेला एक बदल मला पटलेला नसला तरी स्वीकारला. “वित्त" हा (उभ्या जोडणीतील) शब्द "वि-त्त” असा एकाच प्रकारे तोडता येईल. पण नॉन जॉईनर वापरून लिहीलेला आडव्या जोडणीतील (वि + पाय मोडका त + त) शब्द "वि-त्‍त” आणि "वित्‍-त” असा दोन प्रकारे तुटू शकतो. माझ्या मते जोडाक्षर असे तोडणे योग्य नाही. एरिक म्य़ुलर यांची ही सूचना संतोष यांनी स्वीकारली असल्यामुळे हिंदीतील हायफनेशन तसेच चालणार हे स्पष्ट आहे. माझ्यावर तसे करण्याचे कोणतेही बंधन नसतानाही हिंदी भाषेशी सुसंगत नियम स्वीकारला. ओळीतील जागा (कसेही करून) वाचवायची, त्यातून छापील पाने / झाडे वाचतील अशी (भाबडी) आयडिया असावी!

मराठीतील सर्व शब्द खाली दिलेल्या २६ भागात विभागायचे आहेत. हे विभाग म्हणजे हंस्पेल नियमांचे टॅग आहेत. ही पायथॉन स्क्रिप्ट वापरून तयार झालेली यादीः

f, 'अंक', 'अंकगणित', 'अंकुर'
k, 'अंगीकार', 'अंतःस्थ', 'अंतःस्फुरण'
j, 'अंत्यक्रिया', 'अंधश्रद्धा', 'अकल'
e, 'अंगठा', 'अंगडी', 'अंगरखा'
Aacd, 'अंकलिपी', 'अंगयष्टी', 'अंगाई'
Aacdh, 'अंगठी', 'अंत्येष्टी', 'अंथरुणापांघरुणा'
h, 'अंगाया', 'अंगुल्या', 'अंत्येष्ट्या'
n, 'अंतःप्रेरणा', 'अधीरता', 'अनसूया'
g, 'अंघोळ', 'अंमलदारिण', 'अंमलदारण'
AFbcd, 'अंकलिप्यां', 'अंबाबायां', 'अंबोश्यां'
m, 'अधिकउणा', 'अमरपट्टा', 'अर्धकच्चा'
l, 'अंदाधुंद', 'अदब', 'अब्रूनुकसान'
i, 'अटक', 'अवकळा', 'अवस'
AFacd, 'अमला', 'अकडी', 'अग्यापिछ्या'
Ff, 'अनुयाय', 'अपशकुन', 'अपिल'
bcd, 'अष्टम्यां', 'आइसक्रिमां', 'आकारण्या'
Abcd, 'अणूबॉंबां', 'अणूबॉम्बां', 'अधल्यामधल्या'
acdh, 'अश्वशक्ती', 'आईमाई'
acdf, 'अलुबुखार', 'आलुबुखार'
Aacde, 'अढी', 'अधेली'
eh, 'असामी'
acd, 'अर्ध्यामुर्ध्या'
Fg, 'अडवणुक'
Aacdk, 'अळवा'
Aac, 'अल्कोहोल'
acdm, 'अश्रफी'

आता जर तुम्हाला एक शब्द दिला "आखाडा” तर तुम्ही तो कोणत्या वर्गात बसेल ते सांगायचे. म्हणजे "आख़ाडा” हा शब्द जर "अंगठा” किंवा "अंगरखा” या शब्दासारखा चालत असेल तर त्याचा ग्रुप कोड "e” हा त्या शब्दापुढे लिहायचा. असा...

आखाडा/e

आखाडा या शब्दापर्यंत मी काम केले आहे. त्याच्या पुढच्या शब्दांना टॅग करायचे आहे.

http://mr.shoutwiki.com/wiki/Main_Page

हे एक वेगळ्या प्रकारचे शब्दकोडे आहे असे समजून थोडा वेळ काढू शकतील अशी लोकं नक्कीच असतील. फरक हा की तुम्ही शब्दकोडे सोडवता तेव्हा तुम्हाला आत्मिक समाधान मिळत असेल, इथे भविष्यातील हजारो लोकांना याचा फायदा मिळणार आहे. हे एक साधे विक़ीचे पान असून पूर्णपणे खुले आहे. म्हणजे ड्युप्लिकेट आयडी बनविण्याचीदेखील आवश्यकता नाही. अगदी सर्वकाही पुसून टाकण्याचीही मुभा आहे. अर्थात मी बॅकअप घेऊन ठेवला आहे. विषाची परीक्षा केल्याशिवाय ते विष आहे हे कळणार कसे?
कोणी जर असा शब्द शोधून काढला की तो कोणत्याच वर्गात बसत नाही, तर त्यासाठी मी नवीन वर्ग तयार करीन, पण त्यापूर्वी अशा व्यक्तीला माझ्यातर्फे ऍमेझॉनचे १०० रुपयांचे गिफ्ट व्हाऊचर दिले जाईल! हंस्पेलचे सर्व टॅग येथे पाहता येतील.

शुद्धलेखनाचा सोळावा नियम असा आहेः

राहणे, पाहणे, वाहणे अशी रूपे वापरावीत 'रहाणे, राहाणे, पहाणे, वहाणे, वाहाणे, अशी रूपे वापरू नयेत.
आज्ञार्थी प्रयोग करताना मात्र 'राहा, पहा, वाहा' या बरोबरच 'रहा, पहा, वहा' अशी रूपेही वापरण्यास हरकत नाही.

‘हालणे’ हे क्रियापद या नियमात बसते का? म्हणजे हालणे वापरा, हलणे वापरू नका. आज्ञार्थी प्रयोग करताना "हाला” किंवा 'हला’ दोन्ही बरोबर असा याचा अर्थ होतो का?

सध्या डिक्शनरीत या दोन नोंदी आहेत. त्यातील दुसरी नोंद बदलून NOP करावी लागेल कारण त्यात इडागमाचा पर्याय आहे. म्हणजे 'हालवतो' आणि 'हालवितो' हे दोन्ही शब्द शुद्धच आहेत.

हालणे/NP
हालवणे/NP

प्रश्न असा आहे की हलणे, हलवणे हे दोन शब्द देखील घेऊ का?

हलणे/NP
हलवणे/NOP

काहीच प्रतिसाद मिळाला नाही तर डिक्शनरी सर्वसमावेशक करण्याच्या दृष्टीने हे दोन्ही शब्द घेईन आणि हालवणे/NOP असा बदल पुढील आवृत्तीत होईल.

Pages