मोफत मराठी पुस्तकं

Posted
3 वर्ष ago
शेवटचा प्रतिसाद
3 वर्ष ago
Time to
read
1’

ही लिंक कुठे टाकायची हे नक्की न कळल्यानी इथे देतो आहे:
https://msblc.maharashtra.gov.in/download

४४४ पुस्तकं महाराष्ट्र साहित्य आणि संस्कृती मंडळाकडून

विषय: 
प्रकार: 
शब्दखुणा: 

महाराष्ट्र साहित्य आणि संस्कृती मंडळ यांना अनेक धन्यवाद. अत्यंत उत्तम कार्य केले आहे.
हे कार्य आपल्याकडे पोचवण्याचे दुसरे उत्तम कार्य श्री आश्चिग यांनी केले आहे त्यांनाहि धन्यवाद.

मोगल दरबारची बातमीपत्रे, French Record (Relating to the History of the Marathas), PORTUGUESE MAHRATTA RELATIONS !!!

व्वा!! सहीच!!!! गेल्या वर्षा पासून मी स्वतःचीच एक डिजिटल लायब्ररी बनवली आहे आणि त्यात इतिहासाशी संबंधित संदर्भ ग्रंथ, आत्मचरित्र यांचे पीडीएफ घेतले आहेत गुटेनबर्ग, archive.org, इ वरून. पण ती सगळी इंग्रजी आहेत. हा मात्र खूप मोठा खजिना आहे, इतिहास, खगोलशास्त्र, तत्त्वज्ञान, सगळंच आहे इथे! Happy Happy

पुस्तके स्कॅन केलेली आहेत. नॉट ट्रू ईबुक्स. त्यामुळे अगडबंब साईझ.
दुसरे, काही पुस्तकांच्या स्कॅनची क्वालिटी अत्यंत भिकार आहे. पानेच्यापाने अवाचनीय मजकूर. थोडा हिरमोड झाला.

विश मजपाशी थोडा वेळ असता..
काही पुस्तकं खरंच दुर्मिळ अन सुंदर आहेत. वाचून चक्क टाईप करून दिली असती..
रिटायर झालोच तर मोकळ्या वेळात करायच्या यादीत हे एक अ‍ॅडवून ठेवतो.

हे अगदीच मान्य @ आस्चिग. अनेकदा देवनागरी ओसीआर हवे असे वाटले आहे. त्यावाचून काम अडले आहे.
परंतू ओसीआर डेव्हलपमेंट हा माझ्या कौशल्यांत बसणारा भाग नसल्याने, मला शक्य तेवढे करीन म्हणतो..

चांगल्या दर्जाचे देवनागरी ओसीआर बहुदा उपलब्ध आहे असं आठवतंय.
कितीही प्रगत तंत्रज्ञान उपलब्ध असलं तरी टेन्डर्स, बजेट, प्रकल्प राबविण्यामागे बरेचदा असलेला कल्पकतेचा, कॉमन सेन्सचा अभाव वगैरे खास सरकारी घटक असले की ते तंत्रज्ञान वापरात आणलं जात नाही मग.....
देवनागरी सोडा, इंग्लिश पुस्तकं स्कॅन केली आहेत काही संस्थांनी - ती तर मरासासंमं पेक्षा दयनीय दर्जाने स्कॅन केली आहेत. पुस्तकांचे आधीच पिवळे पडलेले जीर्ण कागद ते लो रेझोल्युशनमधे अस्पष्ट स्कॅन.. वाचून वाचून डोळ्याची भोकं व्हायची वेळ येते... असोच.

Indisenz हे एक बऱ्यापैकी मराठी OCR आहे. किंमत खूप जास्त आहे आणि चुका देखील खूपच होतात. चुका कमी होण्यासाठी स्कॅनिंग ची क्वालिटी खूप चांगली असावी लागते. हे बरेच वेळखाऊ प्रकरण आहे.
मी एका पुस्तकाची PDF स्प्लीट करून सगळी पाने वेगळी केली. मग Gimp वापरून एक पान इमेज (PNG) मध्ये बदलले. हि इमेज मग Indisenz मध्ये आयात केली. मग त्याला शब्द ओळखायला लावले. एका पूर्ण पानाला साधारण २० सेकंद लागले. शेवटी जवळ जवळ ७०% शब्द चुकीचे निघाले. म्हणजे "विकास" ऐवजी "यिकास" "भारतीय" ऐवजी "मारतीय" अशा चुका झालेल्या. व च्या जागी य हि सगळ्यात जास्त चूक निघाली.

याला शिकवता येतं म्हणे. थोडा अजून प्रयत्न करून बघायला हवा. जास्त रीजोलुशन मध्ये स्कॅनिंग केलेलं असेल तर चुका खूपच कमी होतील.

टग्या,
यापेक्षा प्रत्येक पानावर खर्च केलेल्या वेळापेक्षा कमी वेळेत पानभर टंकता आले असते, असे वाटले का तुम्हाला? मुद्रितशोधनास प्रत्यक्ष मुद्रणापेक्षा जास्त वेळ खर्च होतो असे मला वाटते.

अनेक वेबसाईट्सवर असलेले "कॅप्चा" प्रकरण हा ओसीआर एज्युकेशनचा भाग असतो असे ऐकले आहे. त्यात तुम्ही वाचून लिहिलेले वेड्यावाकड्या अक्षरांचे टंकन हे ओसीआर सॉफ्टवेअरच्या अधिक अचुक शब्दवाचनासाठी वापरले जाते. या कॅप्चामधे दोन भाग असतात, एकात अत्यंत वेडीवाकडी अक्षरे, व दुसर्‍यात तुलनेने सोपी अक्षरे.
या कॅप्चामुळे वेबसाईट्सवर बॉट लॉगिनचे प्रमाणही कमी होते, व ओसीआर सुधारणाही.

असो. धागा अचानक ओसीआरच्या चर्चेवर घसरतोय..

Pages