संगणकावर मराठी भाषेच्या संशोधनासाठी मायबोलीकर लेखकांची मदत हवी आहे

Submitted by kalesunil on 6 July, 2018 - 07:37
ठिकाण/पत्ता: 
सुनिल दि. काळे, सहायक प्राध्यापक, संगणक अभियांत्रिकी विभाग, पुणे इन्स्टिट्यूट ऑफ कॉम्प्यूटर टेक्नॉलॉजी, पुणे. ई - मेल आयडी kalesunild@gmail.com

प्रिय मायबोलिकर,
आम्ही संशोधनाच्या हेतूसाठी एक मराठी टाइप-लिखित लेखन डेटा सेट तयार करत आहोत. संशोधन क्षेत्र मराठी भाषेच्या टाइप-लिखित डेटा सेट मधून माहिती काढणे, लेखक ओळख, लेखक प्रोफाइलिंग, भावना विश्लेषण इत्यादी असू शकते. हा डेटा सेट विविध लेखकांचे टाइप-लिखित लेखन असेल आणि हे TDIL, http://www.tdil.meity.gov.in/ या भारत सरकारच्या उपक्रमा वर अपलोड केले जाईल. हा टाइप-लिखित डेटा सेट मराठी भाषेतील लेखन डेटावर संशोधनासाठी जगभरातील कोणत्याही संशोधकासाठी मुक्तपणे उपलब्ध होईल.
एक सुप्रसिध्द मराठी भाषा लेखक म्हणून आपणच केवळ या क्रियाकलापासाठी योगदान देऊ शकता. म्हणून हा मराठी टाइप-लिखित लेखन डेटा सेट शक्य तितक्या मोठ्या प्रमाणात (लेखक आणि लेखन आकाराच्या संख्येसह) करण्याच्या आपल्या कार्याची अपेक्षा आहे.
आपली लेखन डेटा ची फाइल अपलोड करण्यापूर्वी आम्ही सुचवितो की आपण आपले लेख आंशिक बनविण्यासाठी आपल्या लेखांच्या प्रारंभ, मध्य किंवा तळाशी मजकूर काढून टाका.
किंवा आपण लेखांत वाक्य अनुक्रम बदलू शकता. अशाप्रकारे आपला लेख पुन्हा प्रकाशित करणे शक्य होणार नाही. तर कृपया या मराठी टाइप-लिखित लेखन डेटा सेट चा एक भाग बनून योगदान द्या फाइल अपलोड करण्यासाठी कृपया ब्राउझरमध्ये खालील URL कॉपी व पेस्ट करा.

या मराठी टाइप-लिखित लेखन डेटा सेट करण्याचा मार्ग मला सुचवून देण्यासाठी आणि समर्थनासाठी मी श्री. अजय गल्लेवाले, संस्थापक मायाबोली यांचा खूप आभारी आहे.
तसेच खालील लेखकांनी मला माझ्या वैयक्तिक संभाषणावर या क्रियाकलापात सहकार्य केले आहे त्यांच्यासाठी खूप धन्यवाद.

1. सत्यजीत खकरकर
2. विद्या भुतकर
3. मोहन जोगळेकर
4. चैतन्य रासकर
5. आनंदिनी (डॉ. माधुरी ठाकूर)
6. लालिता प्रीती (प्रित छत्रे)
7. जव्हेरगंज
8. समीर गायकवाड
9. सई केसकर
10. अनिकेत येवले
11. चारुदत्त रामतीर्थकर
12. धनंजय अवाळे

Dear Maaybolikar,
We are preparing a Marathi typewritten text corpus for research purpose. Research area is text mining on Marathi typewritten text that includes but not limited to Author Identification, Author Profiling, and Sentiment Analysis etc. This research will help create software which can detect plagiarism etc.
This text corpus will contain text from various authors and this will be uploaded on TDIL an initiative by Central Government of India http://www.tdil.meity.gov.in/ This text corpus will be freely available to any researcher worldwide for research on Marathi Language Text Data.
As a well-known Marathi Language Authors (you can only contribute to this activity as its Marathi Text corpus), so your contribution is expected for making this Text Corpus as large as possible (in number of Authors and Text size).
Before uploading your file we suggest you remove text at the start, middle or bottom of your articles for making your article partial or change the sequence of sentences. This way it won't be possible to republish as it is.
So please be a part of this Text Corpus and contribute your text by uploading your file by copy and paste the following URL into the browser.

I am very thankful to Mr. Ajay Gallewale, Founder Maayboli for supporting this activity and suggesting a way to collect text corpus.
Very much thanks to the Authors who already supported me in this activity on personal communication by me.
1. Satyajeet Kharkar
2. Vidya Bhutkar
3. Mohana Joglekar
4. Chaitanya Raskar
5. Dr. Madhuri Thakur (Anandini)
6. Priti Chhatre (lalita priti)
7. Arvind Jadhav (Jhaveganj
8. Sameer Gaikwad
9. Saee Keskar
10. Aniket Yewale
11. Charudatta Ramtirthkar
12. Dhananjay Awale
Thank You.

विषय: 
प्रांत/गाव: 
तारीख/वेळ: 
शुक्रवार, July 6, 2018 - 07:19 to Tuesday, July 31, 2018 - 07:19
Group content visibility: 
Use group defaults

@kalesunil
तुमचा वरिल लेख वाचून, तुम्हाला नक्की काय म्हणायचे आहे अथवा कसली मदत हवीय, ते काहिच कळले नाही.
--

Now I have added English version of the same.
I really appreciate if someone could please help me to translate the above request in Marathi and write the translation here below.
Thanks.

Please explain what is text corpus.
मराठी टाइप-लिखित लेखन डेटा सेट म्हणजे नक्की काय अपेक्षित आहे, ते सांगावे.

माझ्या समजुती नुसार:

ते एक मराठी लिखाणाचा मोठा सॅंपल डाटाबेस (corpus) बनवत आहेत. त्यामध्ये विविध लेखक, त्यांची माहिती आणि त्यांचे पुष्कळसे लिखाण शिवाय अन्य माहिती सुद्धा असेल. नंतर मराठी भाषेवर संशोधन करणाऱ्याना तो उपलब्ध करून दिला जाईल (जगाच्या पाठीवर कुठेही). यातून निघणारे निष्कर्ष सोफ्टवेअरला पुरवले जातील'. (बहुदा हे मशीन लर्निंग सोफ्टवेअर असावे हा माझा अंदाज) त्या योगे भविष्यात त्या सोफ्टवेअर ला एखाद्या लेखकाने लिहिलेले लिखाण कळून येईल. (जसे कि काही ओळी स्कॅन केल्यानंतर त्या सोफ्टवेअर ला कळेल कि हे अतुल पाटील यांचे लिखाण आहे) त्यामुळे जालावरच्या लिखाणाचे कॉपी राईट्स व प्रोटेक्शन साठी भविष्यात त्याचा उपयोग होईल.

वरील लेख वाचुन नक्की काही कळाले नाही. बरेच प्रश्न उभे राहीले. कृपया खालील प्रश्नांचे शंकानिरसन करावे:
१. सुनिल दि. काळे, सहायक प्राध्यापक, संगणक अभियांत्रिकी विभाग, पुणे इन्स्टिट्यूट ऑफ कॉम्प्यूटर टेक्नॉलॉजी, पुणे तुमचा या प्रकल्पातील सहभाग काय स्वरुपाचा आहे? तुम्ही फक्त मायबोलीवर हा लेख लिहुन आमंत्रणे देत आहात की या प्रकल्पात सॉफ्टवेअर बनवन्यात सक्रीय आहात?
२. पुणे इन्स्टिट्यूट ऑफ कॉम्प्यूटर टेक्नॉलॉजी, पुणे या संस्थेच्या या प्रकल्पातील योगदनाचे स्वरुप काय आहे?
३. हा प्रकल्प कोणत्या व्यक्तींनी किंवा संस्थेने चालु केला आहे?
४. हा भारत सरकारचा अधिकृत प्रकल्प आहे का?
५. हा व्यावसायीक प्रकल्प आहे का?
६. तयार झालेले सॉफ्टवेर कोणाच्या मालकीचे आसेल? ते सॉफ्टवेअर शुल्क आकारुन विकले जाणार की मुक्तस्त्रोत केले जाणार? कोणत्या परवान्यांतर्गत?
६. केंद्र सरकारच्या TDIL चा यात कशाप्रकारे सहभाग आहे?

आम्ही संशोधनाच्या हेतूसाठी एक मराठी टाइप-लिखित लेखन डेटा सेट तयार करत आहोत. संशोधन क्षेत्र मराठी भाषेच्या टाइप-लिखित डेटा सेट मधून माहिती काढणे, लेखक ओळख, लेखक प्रोफाइलिंग, भावना विश्लेषण इत्यादी असू शकते.
>>
१. नक्की कशाचे संशोधन?
२. या संशोधनासाठी लेखकाचे वयक्तीक माहिती व त्याचे प्रोफायलींग याची आवश्यकता का आहे?
३. ही वयक्तीक माहिती नक्की कोणत्या स्वरुपाची असेल?

Before uploading your file we suggest you remove text at the start, middle or bottom of your articles for making your article partial or change the sequence of sentences. This way it won't be possible to republish as it is. >>
हे नाही कळलं. Republish करणारा त्यावरून अंदाज लाऊन, आपल्या खिशातून सुद्धा काही भाग टाकून करेलच की. म्हणजे ९०% चोरीचा आणि १०% आपला असा मामला असेल तर हा प्रकार plagiarism अंतर्गत येणार नाही का?
लेखात म्हटल्याप्रमाणे, हा डेटा बेस संशोधनात्मक कार्यासाठी उपलब्ध असेल. पण मूळ मजकुरात काटछाट केल्याने त्याचा अर्थ लागेल का?

एक लेखक म्हणून माझा कर्तुत्व शून्य आहे, पण रोजच्या कामासंदर्भात विषय असल्याने requirement analysis mode madhe गेलो इतकाच Happy

>>पण मूळ मजकुरात काटछाट केल्याने त्याचा अर्थ लागेल का?<<

गुड पॉइंट. मूळात या रिपाझटरीतुन लेख्/लिखाण डाउन्लोड करण्याची सोय (पायरसी?) असावी का? आणि प्लेजरिज्मला आळा घालण्याचा उद्देश असेल तर मूळ लेखातला भाग (सुरुवातीचा, मधला किंवा शेवटचा) वगळण्यात हशील काय? काँटेक्स्ट गडबडल्याने प्लेजरिज्मच्या दाव्यात दम उरेल का?..

Thanks for your questions....
I am doing research on Author Identification on indian literature in marathi at Savitibai phule pune university and working as AP at PICT, Pune.
To do research on Marathi Language ( area may be anything) researchers need a standard data set.
I have prepared a text corpus/data set with support from intotal 12 authors and will be available soon on TDIL.
Now its my initiative to prepare a Large data set/text corpus for future researchers.
I am taking information as name of authorr and his/her text.
I suggested for removing text from top/ mid/bottem and may be change in sequence of scentences for avoiding republication.

Expecting your support for further research on indian regional language Marathi.

Thank you.

Now its my initiative to prepare a Large data set/text corpus for future researchers. >> मोठा डाटा सेट वापरून संशोधनात नक्की कसा उपयोग होईल?

researchers need a standard data set >> standard म्हणजे नक्की काय?

I suggested for removing text from top/ mid/bottem and may be change in sequence of scentences for avoiding republication.>> म्हणजे काय? समजा मी माझा लेख तुम्हाला देणार असेन तर त्याचा टॉप म्हणजे टायटल, की पहिला परिच्छेद, की पहिला शब्द? ते काढल्याने republication कसे avoid होईल? ते तुम्हाला का avoid करायचे आहे? की इतरांनी स्वतःच्या नावावर ते प्रसिद्ध करू नये यासाठी तुमची ही शक्कल आहे?

क्षमस्व, पण तुमच्या मराठी किंवा इंग्रजी, दोन्ही लिखाणामधून कुणालाच नीट अर्थबोध होत नाहिये. त्यातल्या त्यात अतुल पाटील यांनी अर्थ लावायचा प्रयत्न केला आहे (त्यांचे अनेक आभार), पण तेही तुम्ही बरोबर आहे की चूक हे न सांगता केवळ एका वाक्यात (Yes sir, Its Machine Learning and text corpus is utilized for research purpose only) प्रतिसाद दिला आहे. कृपया सविस्तर माहिती दिलीत तर बरे होईल.

1. आणि इथल्या लोकांचा डेटाच का? छापील पुस्तकातील लेख डिजिटल माध्यमात करायला परिश्रम पडतील इथला डिजिटल आहे म्हणून का कॉपीराईटचा प्रश्न आहे की आणि काही?
2. पहिली वाक्ये, मधली वाक्ये आणि शेवट काढायचे हे गरीबाची डेटा इंटिग्रिटीं प्रोटेक्शन का?
3. फंडिंग कुठलं आहे?
4. हा डेटा प्लेजरिझम डिटेक्त करणारे का लेखकाची सिग्नेचर तयार करणारे?
5. प्रोटीटाईप आहे का? का तोच करायचा आहे?
चांगला प्रयत्न असेल हा पण डिटेल लिहिलेत तर इंटरेस्ट निर्माण होईल. काही व्हाईट पेपर असेल तरी शेअर करा.

@kalesunil,

I assume you are looking for "training data" to train your machine learning models.

१. Why don't you simply purchase the ebooks available and use them?

२. If you are really on a shoestring budget, then you can legally download PDFs from esahity.com and use them.

If you are worried about copyright issues, copyright restricts reproducing further copies. If you're not creating a copy(replica) it wouldn't apply. Also "Fair Use doctrine" should keep you safe* for training a machine learning model. E.g. google uses copyrighted material to train it's machine learning based indexing model.

*Disclaimer: I am not a lawer

प्रा. सुनिल काळे गेले काही वर्षे मराठी आणि मशिन लर्निंग या विषयात संशोधन करीत आहेत. त्यांचे या विषयावर आंतरराष्ट्रीय पातळीवर शोध निबंधही प्रकाशीत झाले आहेत. ते या विषयावर सध्या पीएच्डी करीत आहेत.
हा त्यांचा एक शोधनिबंध.
https://www.sciencedirect.com/science/article/pii/S1877050918307567

या शोधनिबंधावरून त्यांच्या संशोधनाची कल्पना येऊ शकेल. इतर conference proceeding जालावर फुकट सापडले नाहीत म्हणून दिले नाहीत.
ते एक संगणक शास्त्रज्ञ आहेत, मराठी लेखक नाहीत.

या विषयावर तामीळ , तेलगु , बंगाली आणि पंजाबी या भाषेत बरेच संशोधन झाले आहे. पण मराठी भाषेत संशोधनासाठी पुरेसा मोठा डाटा (शब्द संपत्ती) उपलब्ध नाही. ही अडचण फक्त त्यांनाच नाही तर मराठी भाषेत संगण्कीय संशोधन करणार्‍या सगळ्यांनाच वेळोवेळी पडते. मराठी भाषेत नविन संगणकीय सुविधा उपलब्ध नसण्याच्या अनेक कारणांपैकी हे एक कारण आहे.

त्यांनी मायबोलीवरच्या काही लेखकांशी संपर्क करून त्यांच्या परवानगीने काही लेखन मिळवले. त्यांना अजून लेखन हवे आहे. आणि जरी त्यांची लगेचची निकड भासली तरी परत नवीन संशोधनासाठी त्यांना किंवा इतर संशोधकांना पुन्हा पहिल्यापासून सुरूवात करावी लागते. हे असे होऊ नये म्हणून वेगवेगळ्या संशोधन संस्था एकत्र येऊन अशी कायमस्वरूपी शब्दसंपत्ती एकत्र करण्याचा प्रयत्न करत आहेत जी कुणालाही संशोधनासाठी उपलब्ध असेल. TDIL ही भारतीय भाषांच्या विकासाठी काम करणारी मोठी संस्था आहे. उदा. युनिकोडच्या आधीच्या आवृत्तीत पोटफोड्या र, ( "दर्‍या" मधला) नव्हता तो TDIL मुळे येऊ शकला. आज आपण मायबोलीवर मराठीत लिहू शकतो ते TDIL सारख्या संस्था आणि मराठी बद्दल जिव्हाळा असणार्‍या संगणक संशोधकांमुळेच हे विसरता येणार नाही.
http://unicode.org/~emuller/iwg/p8/index.html
प्रा. काळ्यांनी गोळा केलेली ही शब्द संपत्ती TDIL वर उपलब्ध असेल.

पण जर सगळेच लेख किंवा कथा तशाच्या तशा या कामासाठी दिल्या तर भविष्यात कुणीतरी त्याचा पुन : प्रकाशीत करण्यासाठी उपयोग करू शकतो. भाषेच्या संगणक संशोधनासाठी कथेची सुरवात काय आहे, शेवट काय आहे हे महत्वाचे नाही. फक्त भरपूर पण अर्थपूर्ण परिच्छेदांची गरज आहे. त्यामुळे मी त्यांना सुचवले की लेखकाना आवाहन करताना त्यांना हवा तो मजकूर गाळून टाकायची सूचना करा. म्हणजे लेखकाला ठरवू दे काय द्यायचे आणि काय नाही.

इथेच का? कारण लेखकांची आणि लेखन शैलीची विविधता त्यांना इतरत्र ऑनलाईन दिसली नाही.

वर असलेल्या प्रतिसादात बर्‍याच शंका आल्या आहेत. सगळ्यांच निरसन मला करता येईल का ते माहिती नाही. पण एक मराठी भाषेचा विद्यार्थी म्हणून काळे सरांची अडचण मी समजू शकतो. मीव्यक्तीश: त्याना शक्य तितकी मदत करणार आहे.
तुम्हाला पटलं तर तुमच्या लेखनाचा काही भाग या चांगल्या कामाला देणगी म्हणून द्या.

अजय, मशिन लर्निंग मॉडेल बनवण्यासाठी लेखकाची परवानगी लागते हे नक्की का?
google uses copyrighted material to train it's machine learning based indexing model. याबद्दल काय म्हणायचे आहे?

व्यत्यय यांच्या दोन्ही प्रतिक्रियांशी सहमत आहे. मशीन लर्निंग साठी फार मोठा सॅंपल साईज लागतो. आणि त्यातून फक्त अल्गोरिदम ट्रेन होतात. त्यामुळे याकामासाठी लेखकाच्या परवानगीची आवश्यकता असेलसे वरकरणी तरी वाटत नाही. पण तपशीलात फक्त प्रा. सुनिल काळे हेच सांगू शकतील.

१. दक्षीणा इथे लेखन अपलोड करायचे आहे. वर लेखातही लिंक आहे.

२. व्यत्यय आणि atuldpatil
अ) गुगल A च्या मालकीचा डाटा, B या वेबसाईट वरून परवानगी शिवाय न घेता C या वेबसाईट वर अपलोड करत नाहीत. त्यांचे संशोधन पूर्णपणे त्यांच्याच जवळ असते आणि गोळा केलेला डेटा बाहेर कुठेही जाणार नाही याची ते काळजी घेतात. इथे सगळे खुले आहे. संशोधनासाठी डाटा शेअर होणार आहे. झाला नाही तरी तो कुठेही जाणार नाही याची गुगल च्या पातळीची काळजी Academic setting मधे व्यवहार्य नाही. आणि जरी काळे यांनी आता जबाबदारी घेतली , आपल्यापुरते काम केले , तरी मराठीच्या भविष्यातल्या संशोधनासाठी हा डाटा उपलब्ध होणार नाही. त्यापेक्षा रितसर आताच परवानगी घेऊन सगळे खुले आम केले तर त्या सगळ्यांचाच फायदा आहे.
ब) गुगल जे करते ते सगळे कायदेशीर आहेच असे नाही. त्यांचे काही निर्णय कायदेशीर नाहीत असे काही खटल्यानंतर सिद्ध झाले आहे.

उत्तम उपक्रम!
टेस्ट केस म्हणून थोडे लेखन पाठवले आहे. योग्य वाटल्यास कळवावे, अजूनही पाठवू शकेन.
शुभेच्छा.