मशीन लर्निंग वापरून मराठी भाषेचा अभ्यास

Submitted by shantanuo on 10 June, 2018 - 04:47

फक्त चार / पाच ओळींचा कोड लिहून आपण मराठी भाषेतील संबंधित तसेच विरुद्धार्थी शब्द शोधू शकतो. उदाहरण म्हणून मी "संगीत" हा शब्द दिल्यावर मॉडेलने "कला" , "कविता", "नाटक" , "महाराष्टर", " "भारत" असे शब्द दिले.

https://ic.pics.livejournal.com/shantanuo/56336/1952/1952_900.png

आता यात काय मोठे दिवे लावले? असा प्रश्न साहजिकच आहे. तसेच संगीताचा युद्धाशी आणि कंपनीशी कसा संबंध ते स्पष्ट करा असा उपरोधही अपेक्षित आहे. त्याचे उत्तरः

१) हे मॉडेल विकिपीडियावरून फार पूर्वी बनवलेले आहे. २०१३ साली मराठी विकिपीडियावर फारसे लेख नव्हते. जसा डेटा वाढत जाईल तशी क्वालिटी वाढेल. गुगल न्यूजचा डेटा वापरून वापरून बनवलेले (इंग्लिश) मॉडेल प्रसिद्ध आहे. मराठीला तेवढी उंची गाठायला वेळ लागेल. पण निदान शक्यता वाटू लागली आहे.
२) अनेकदा आवाहन करूनही मराठीसाठी काही करू शकणारे स्वयंसेवक मिळत नाहीत. ज्यांना वेळ आहे त्यांना संगणक हाताळता येत नाही. तर संगणक तत्ज्ञांना अशा कामासाठी वेळ नाही. मशीन लर्निंगच्या माध्यमातून भविष्यात मोठमोठे कोशदेखील सिद्ध होतील. असे कोश १००% अचूक नसतील हे मान्य. पण त्यातून कामाची निकड भागेल. हे महत्त्वाचे .

या क्षेत्राचे भवितव्य उज्ज्वल आहे. मराठीच नव्हे तर सर्व तरुणांनी यात लक्ष घालायला हवे.

शब्दखुणा: 
Groups audience: 
Group content visibility: 
Use group defaults

## download the pre-trained model:

wget http://bit.ly/12FI1xV

mv 12FI1xV polyglot-mt.pkl

## install python 2.7 package
pip install polyglot

## run this code to get the output shown as in the image
## https://ic.pics.livejournal.com/shantanuo/56336/1952/1952_900.png

import polyglot
from polyglot.mapping import Embedding
embeddings=Embedding.load("polyglot-mt.pkl")
neighbors = embeddings.nearest_neighbors("संगीत")
for i in neighbors:
print (i.encode('utf-8'))

aataa samajalaa nemkaa kaay mhanayach aahe tumhala te.. thanks Happy
शन्का:
१. polyglot वापरुन text similarity analysis (between phrases) करता येत का?
semantic text similarity साठी gensim वापरल आहे ह्य अधी
'२. wget च्या use cases काय आहेत,
it is pre trained model for predictive analysis, right?

polyglot वापरुन text similarity analysis (between phrases) करता येत का?

Yes. That is possible.

semantic text similarity साठी gensim वापरल आहे ह्य अधी

gensim is similar to this.

wget च्या use cases काय आहेत,

wget is used to download a file directly from net to linux local disk.

it is pre trained model for predictive analysis, right?

Yes right.

Please email me directly at shantanu.oak@gmail.com instead of writing a comment on maayboli.

Please email me directly at ?? ओके... सविस्तर बोलुच मेल वर. आधी ती लिन्क बघ्ते काय आहे ते

The advantage of polyglot is that it also support transliteration (Not translation)

from polyglot.transliteration import Transliterator
transliterator = Transliterator(source_lang="en", target_lang="mr")
your_text='shntnoo prbhakar'
for i in your_text.split():
print(transliterator.transliterate(i))

This will return शंतनू प्रभाकर in unicode!

The advantage of polyglot is that it also support transliteration>> भारी
I am aware of transliteration tools, I am its end user since "stone age" Light 1

text similarity analysis मध्ये सध्या जास्त डोक लावत आहे , need a model/algo/package with good accuracy