मशीन लर्निंग वापरून मराठी भाषेचा अभ्यास

Submitted by shantanuo on 10 June, 2018 - 04:47

फक्त चार / पाच ओळींचा कोड लिहून आपण मराठी भाषेतील संबंधित तसेच विरुद्धार्थी शब्द शोधू शकतो. उदाहरण म्हणून मी "संगीत" हा शब्द दिल्यावर मॉडेलने "कला" , "कविता", "नाटक" , "महाराष्टर", " "भारत" असे शब्द दिले.

https://ic.pics.livejournal.com/shantanuo/56336/1952/1952_900.png

आता यात काय मोठे दिवे लावले? असा प्रश्न साहजिकच आहे. तसेच संगीताचा युद्धाशी आणि कंपनीशी कसा संबंध ते स्पष्ट करा असा उपरोधही अपेक्षित आहे. त्याचे उत्तरः

१) हे मॉडेल विकिपीडियावरून फार पूर्वी बनवलेले आहे. २०१३ साली मराठी विकिपीडियावर फारसे लेख नव्हते. जसा डेटा वाढत जाईल तशी क्वालिटी वाढेल. गुगल न्यूजचा डेटा वापरून वापरून बनवलेले (इंग्लिश) मॉडेल प्रसिद्ध आहे. मराठीला तेवढी उंची गाठायला वेळ लागेल. पण निदान शक्यता वाटू लागली आहे.
२) अनेकदा आवाहन करूनही मराठीसाठी काही करू शकणारे स्वयंसेवक मिळत नाहीत. ज्यांना वेळ आहे त्यांना संगणक हाताळता येत नाही. तर संगणक तत्ज्ञांना अशा कामासाठी वेळ नाही. मशीन लर्निंगच्या माध्यमातून भविष्यात मोठमोठे कोशदेखील सिद्ध होतील. असे कोश १००% अचूक नसतील हे मान्य. पण त्यातून कामाची निकड भागेल. हे महत्त्वाचे .

या क्षेत्राचे भवितव्य उज्ज्वल आहे. मराठीच नव्हे तर सर्व तरुणांनी यात लक्ष घालायला हवे.

शब्दखुणा: 
Group content visibility: 
Use group defaults

१३ जून २०२० च्या पोस्टमध्ये मी मशीन लर्निंग वापरून ग्रामर / स्पेल चेक कसा करता येईल याची कल्पना मांडली होती. त्यात मी म्हणालो होतो की "ती म्हणाली मी शाळेत जातो." हे वाक्य "ती म्हणाली की मी शाळेत जाते." असे बदलून मिळाले पाहिजे आणि हे मशीन लर्निंगच्या मॉडेलकडूनच होणे शक्य आहे. तीन वर्षांच्या आत असे एखादे मॉडेल बाजारात येईल असे मला स्वप्नातही वाटले नव्हते.

https://paraphrasetool.com/

उदाहरण म्हणून मी हा मजकूर टाईप केला.

गुरुवारच्या (दिनांक १८-०७-२०१३) महाराष्ट्र टाईमसमधे प्रा. जयंत नारळीकर यांनी शिक्षण क्षेत्रातील संशोधनाच्या बाजारीकरणा बाबतीत व्यक्त केलेली मते वाचली. या क्षेत्रातील दुरावस्थेचे खापर त्यांनी 'commercialization’ म्हणजे बाजारीकरणाच्या माथी मारले आहे. तसेच “बॅक टू फ्युचर” मधे पूर्व संकल्पनांच्या पगड्यामुळे खगोल भौतिकी विज्ञानवादी दृष्टीकोन समाजातून हद्दपार झाला आहे अशी खंत व्यक्त केली आहे. दुर्दैवाने प्रा. नारळीकर स्वतःच या पूर्व संकल्पनांना बळी पडले आहेत.

या वेबसाईटने खाली दिलेल्या सुधारणा सुचविल्या...

गुरुवारी जयंत नारळीकर यांनी महाराष्ट्र टाइम्समध्ये शिक्षणातील संशोधनाचे व्यापारीकरण या विषयावर चर्चा करणारा स्तंभ वाचला. संशोधनाचे ‘बाजारीकरण’ झाल्यामुळे ही परिस्थिती निर्माण झाली असून ही समस्या असल्याचे ते म्हणाले. त्याच आवृत्तीतील दुसर्‍या स्तंभात भविष्यातील समस्या आणि कालबाह्य पूर्वकल्पनांमुळे खगोलभौतिकी दृष्टीकोन समाजातून हद्दपार झाल्याबद्दल लोकांना खेद कसा वाटतो यावर चर्चा केली. मुंबईच्या इन्स्टिट्यूट ऑफ सायन्सचे प्राध्यापक जयंत नारळीकर हे याच पूर्वकल्पनेला बळी पडले आहेत.

यात काही त्रुटी आहेत हे उघड आहे. पण नुकतेच जन्मलेले मूल आपले बोलणे ऐकून स्वतःच्या भाषेत बोलत आहे हे लक्षात घेतल्यावर त्याचे महत्त्व जाणवेल. उदाहरणार्थ खाली दिलेल्या सुधारणा या नक्कीच स्वीकारता येण्यासारख्या आहेत असे मला वाटते.

बाजारीकरण > व्यापारीकरण
दुरावस्था > समस्या आणि कालबाह्य पूर्वकल्पना
'commercialization’ > ‘बाजारीकरण’
खंत व्यक्त केली > खेद वाटतो
व्यक्त केलेली मते वाचली > चर्चा करणारा स्तंभ वाचला

इतर काही नाही तर "टाईमसमधे" ही स्पेलिंग मिस्टेक "टाइम्समध्ये" अशी लीलया सुधारली गेली, हे काय कमी आहे?

Pages