KERNEL

नई पहल का उद्देश्य एआई को भारतीय भाषाओं और लहजों को समझने में सक्षम बनाना है

बेसरा में आवाज का नमूना इकट्ठा करते स्वयंसेवक (फोटो सौजन्य: प्रशांत कुमार घोष)

कई व्यवसाय आज आर्टिफिशियल इंटेलिजेंस (एआई)-आधारित ग्राहक सेवाओं का उपयोग करते हैं। ये स्वचालित संदेशों का उपयोग करते हैं जो ग्राहकों से उनकी समस्या को मौखिक रूप से बताने के लिए कहते हैं (“कृपया अपना प्रश्न बताएं”)। लेकिन उपयोगकर्ता को अक्सर यह एक निराशाजनक अनुभव लगता है, क्योंकि किसी व्यक्ति की नकल करने वाली मशीन या कंप्यूटर मॉडल को उपयोगकर्ता को समझने के लिए कई प्रयास करने पड़ते हैं, जिससे हमेशा उस समय की याद आ जाती है जब कोई सीधे मनुष्य से बात कर सकता था।

यद्यपि इसमें खामियां हैं, लेकिन आवाज पहचानने की तकनीक का उद्देश्य न केवल शहरी आबादी के लिए बल्कि ग्रामीण निवासियों के लिए भी दैनिक जीवन को आसान बनाना है। ग्रामीण भारत के कई हिस्सों में लोगों को बैंक में चेक जमा करने या नए कीटनाशकों और उर्वरकों के बारे में जानकारी प्राप्त करने के लिए लंबी दूरी तय करनी पड़ती है। यहां तक कि समय पर चिकित्सा सहायता पाना भी एक विलासिता हो सकती है। हाल ही में आई महामारी ने ऐसी त्वरित सेवाओं की आवश्यकता को और भी अधिक रेखांकित किया है।

2022 की एक रिपोर्ट के अनुसार, कम से कम 98% भारतीयों के पास मोबाइल कवरेज है, और उनमें से प्रत्येक, सिद्धांत रूप में, अपनी दैनिक जरूरतों के बारे में जानकारी खोजने और सरल लेनदेन करने के लिए इसका उपयोग कर सकता है। लेकिन इसमें एक समस्या है। यह मानते हुए भी कि उपकरण हर दिन सस्ते होते जा रहे हैं, नेटवर्क कनेक्टिविटी शक्तिशाली है और बिजली की 24 घंटे आपूर्ति है, इस तकनीक का पूरा लाभ उठाने के लिए, उपयोगकर्ता को अंग्रेजी बोलने, पढ़ने और लिखने में सक्षम होना चाहिए।

दुर्भाग्य से, मुश्किल से 10% भारतीय अंग्रेजी में पारंगत हैं, जैसा कि आईआईएससी के इलेक्ट्रिकल इंजीनियरिंग विभाग (ईई) के एसोसिएट प्रोफेसर प्रशांत कुमार घोष और आईआईएससी के एआरटीपार्क के अध्यक्ष रघु धर्मराजू ने एक ब्लॉगपोस्ट (https://vaani.iisc.ac.in/media) में लिखा है।T इसका मतलब है कि लगभग एक अरब भारतीयों को सहायक तकनीकों का लाभ उठाने से बाहर रखा गया है। एक आदर्श दुनिया में, हम सभी को अपनी भाषा में, अपने स्वयं के उच्चारण में प्रश्न पूछने में सक्षम होना चाहिए, और विश्वसनीय, त्रुटि मुक्त उत्तर प्राप्त करना चाहिए। यही कारण है कि एक समावेशी डिजिटल इंडिया को एआई भाषा की आवश्यकता है जो सभी भारतीयों को समझ सके।

सीमित कारक भाषण-आधारित प्रौद्योगिकियों को विकसित करने के लिए पर्याप्त डेटा की उपलब्धता है। इस चुनौती को दूर करने के लिए, प्रशांत के मार्गदर्शन में पिछले तीन वर्षों में आईआईएससी में तीन प्रमुख वाणी-संबंधी परियोजनाएं शुरू की गईं, जिन्होंने आईआईएससी और एआरटीपार्क में सहयोगियों के साथ लगभग 20 वर्षों तक वाणी प्रसंस्करण में काम किया है। ये परियोजनाएं हैं – RESPIN, जो बिल एंड मेलिंडा गेट्स फाउंडेशन द्वारा वित्त पोषित है, जो वाणी को शब्द में बदलने के लिए वाणी के नमूने एकत्र करने के लिए मई 2021 में शुरू हुई थी; SYSPIN, जो जर्मन डेवलपमेंट कोऑपरेशन द्वारा वित्त पोषित है, जो शब्द को वाणी में बदलने के लिए जुलाई 2021 में शुरू हुई थी; और अंत में, VAANI, जो दिसंबर 2022 में शुरू हुई एक परियोजना है, जिसे गूगल द्वारा वित्त पोषित किया गया है, और इसका उद्देश्य भारत के प्रत्येक जिले से वाणी के नमूने एकत्र करना है।

वाणी की खोज

विचार यह है कि एक कंप्यूटर या मशीन लर्निंग मॉडल को प्रशिक्षित किया जाए ताकि वह देशी वक्ताओं के उदाहरणों का उपयोग करके भारतीय भाषाओं में स्वरों को पहचान सके। प्रशांत का कहना है कि भारतीय भाषा के डेटासेट खुले तौर पर और आसानी से उपलब्ध नहीं हैं, और देश के बाहर कुछ एजेंसियां ऐसे डेटासेट खरीद के लिए उपलब्ध कराती हैं। “इसलिए, अगर मुझे एक चाहिए, तो मुझे इसे उनसे हजारों यूरो में खरीदना होगा।” उन्हें यह बात हतोत्साहित करने वाली लगती है क्योंकि उनका मानना है कि हमारे पास खुद ही इस तरह के डेटा एकत्र करने की क्षमता है। “भारत में वाणी समुदाय के लिए, भारतीय भाषाओं में वाणी प्रौद्योगिकी विकास के लिए कुछ करना हमारी जिम्मेदारी है।” यही कारण है कि प्रशांत, जो दावा करते हैं कि वह “डेटा का उपनिवेशीकरण” के सख्त खिलाफ हैं, ने आसानी से गेट्स फाउंडेशन के साथ हाथ मिला लिया, जिसका काम सभी RESPIN डेटा को खुला स्रोत बनाना है।

गेट्स फाउंडेशन के अनुसार, RESPIN कृषि और वित्त के क्षेत्रों में वाणी पहचान पर ध्यान केंद्रित करता है, जो किसी भी देश के विकास के दो स्तंभ हैं। डेटा विशेष रूप से ग्रामीण क्षेत्रों से एकत्र किया जाना है जहाँ लोग अक्सर अशिक्षित या आर्थिक रूप से पिछड़े होते हैं।

संध्या बडिगर, डेटा मैनेजर और RESPIN में शुरुआती भर्तियों में से एक, का कहना है कि डेटा नौ भाषाओं में एकत्र किया जा रहा है – पांच प्रमुख (हिंदी, बंगाली, मराठी, कन्नड़ और तेलुगु) और चार कम संसाधन वाली (भोजपुरी, मैथिली, मगही) और छत्तीसगढ़ी)। प्रत्येक भाषा के लिए 3-5 बोलियाँ हैं, और लक्ष्य प्रत्येक भाषा के 2,000 मूल वक्ताओं से लगभग 1,000 घंटों के वाणी नमूने एकत्र करना है, जिसे इन बोलियों के बीच समान रूप से विभाजित किया जाएगा। आईआईएससी की टीम नवाना टेक जैसी कंपनियों के साथ साझेदारी करती है, जो आवाज़ के नमूने एकत्र करने के लिए मैदान में जाती हैं। वे ऐसा करने के लिए वक्ताओं से कृषि और वित्त से संबंधित विशेष रूप से डिज़ाइन किए गए वाक्यों को ज़ोर से पढ़ने के लिए कहते हैं। इसके बाद इस डेटा को आईआईएससी में संध्या, सौरभ कुमार और सात्विक उडुपा जैसे इंजीनियरों द्वारा संकलित किया जाता है, जो RESPIN पर काम कर रहे रिसर्च एसोसिएट्स हैं, जो फिर इसका उपयोग वाणी को टेक्स्ट में बदलने के लिए विभिन्न प्रकार के मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए करते हैं।

लेकिन ऐसा कहना जितना आसान है, करना उतना ही मुश्किल है। संध्या बिहार-पश्चिम बंगाल सीमा पर किशनगंज जिले में बोली जाने वाली एक बोली का उदाहरण देती हैं। वहां की पुरानी पीढ़ी इस लुप्तप्राय भाषा पर बेहतर पकड़ रखती है, लेकिन उनमें से कई अनपढ़ हैं। युवा पीढ़ी, जो पढ़ सकती है, अक्सर अपनी बोली में हिंदी या भोजपुरी का प्रभाव पाती है। वह कहती हैं, “हमें बोलने वालों को सावधानी से चुनना चाहिए और ऐसी समस्याओं को खत्म करने के तरीके विकसित करने चाहिए।”

RESPIN के दूसरे चरण के दौरान, टीम एकत्रित नमूनों के आधार पर मॉडल बनाने और उन्हें क्षेत्र में परीक्षण करने की योजना बना रही है ताकि यह देखा जा सके कि क्या मॉडल इनपुट के रूप में वाणी ले सकते हैं और आउटपुट के रूप में त्रुटि-मुक्त टेक्स्ट दे सकते हैं। “अभी [डेटा संग्रह चरण के दौरान], वक्ता हमारे द्वारा दिए गए वाक्यों को पढ़ रहे हैं। प्रशांत कहते हैं, ”क्षेत्र में वे ऐसा नहीं करने जा रहे हैं, बल्कि वे अनायास ही बोल देंगे।” सफलता इस बात पर निर्भर करेगी कि मॉडल वक्ता की उम्र, लिंग, शैक्षिक पृष्ठभूमि और उनकी वाणी पर उनके द्वारा बोली जाने वाली अन्य भाषाओं के प्रभाव से परे कितनी अच्छी तरह देख पाता है। इसके अलावा, चूंकि मॉडल को विशिष्ट शब्दावली को पहचानने के लिए प्रशिक्षित किया जाता है, इसलिए कृषि और वित्त के लिए विकसित किए गए कार्यक्रम अन्य क्षेत्रों में काम नहीं कर सकते हैं।

दूसरा प्रोजेक्ट, SYSPIN, भी उन्हीं नौ भाषाओं का उपयोग करता है, लेकिन वहां, लक्ष्य उल्टा है: टेक्स्ट को वाणी में बदलना। मॉडल को प्रत्येक भाषा से केवल दो वक्ताओं – एक पुरुष और एक महिला – के आवाज़ के नमूनों का उपयोग करके प्रशिक्षित किया जाता है। चुने गए वक्ता विशेषज्ञ आवाज़ कलाकार हैं, और रिकॉर्डिंग – लगभग 50 घंटे प्रत्येक – बहुत उच्च गुणवत्ता की हैं। मॉडल को इन आवाज़ों की नकल करने और उनकी तरह बोलने के लिए प्रशिक्षित किया जाता है।

प्रशांत कुमार घोष अपनी प्रयोगशाला में (फोटो सौजन्य: आर्टपार्क, आईआईएससी)

भाषा का रंग चक्र

जब प्रसांत और उनकी टीम इन दो परियोजनाओं पर काम कर रही थी, तब गूगल, जिसके पास 1,000 भाषाओं की एआई पहल थी, भारतीय भाषा के वाणी संसाधन बनाने के लिए उत्सुक था। प्रसांत कहते हैं, “उन्होंने हमसे भारत की सभी भाषाओं के लिए संपर्क किया, सिर्फ़ नौ भाषाओं के लिए नहीं।”

प्रशांत भारतीय भाषाओं की विविधता की तुलना एक सतत रंग चक्र से करते हैं। जिस तरह से आस-पास के रंग एक दूसरे में मिल जाते हैं और पीले, लाल या नीले रंग के कई शेड्स होते हैं, उसी तरह भाषाओं में भी विविधता और ओवरलैप दोनों होते हैं। यही कारण है कि उनका मानना है कि सभी भारतीय भाषाओं का वास्तविक “मानचित्र” प्राप्त करने के लिए, अधिक से अधिक क्षेत्रों में अधिक से अधिक बोलने वालों से डेटा एकत्र किया जाना चाहिए। Google द्वारा वित्तपोषित परियोजना VAANI का लक्ष्य भारत के प्रत्येक जिले से 200 घंटे के वाणी डेटा एकत्र करना है। प्रशांत बताते हैं कि इसे पिन कोड के अनुसार संग्रहीत किया जाएगा और सार्वजनिक किया जाएगा।

RESPIN में, वक्ताओं से नमूने एकत्र किए जाते हैं जो उन्हें दिए गए वाक्यों को पढ़ते हैं; VAANI में वक्ता घर पर बोली जाने वाली भाषा में छवियों के एक सेट का वर्णन करेंगे। “वक्ता अहिरानी, अंगिका या नलगोंडा शैली की तेलुगु में बोल सकते हैं। वे हमें अपनी भाषाओं का नाम देते हैं, और हम इसे उसी तरह रिकॉर्ड करते हैं,” प्रशांत कहते हैं। VAANI के पहले चरण में 80 जिलों के डेटा को लक्षित किया गया है।

प्रशांत बताते हैं कि इस तरह की परियोजना के लिए कई व्यावहारिक चुनौतियाँ हैं। “मैं सभी लोगों के लिए डेटा कैसे बनाऊँ? क्या मुझे एक ही वाक्य/छवि लेकर सभी 1.3 बिलियन भारतीयों से इसे कहलवाना चाहिए? मुझे कितने वाक्य/छवियों का उपयोग करना चाहिए? अच्छा डेटा प्राप्त करने के लिए, मुझे कैसे शुरुआत करनी चाहिए? मुझे कितने वक्ताओं से पूछना चाहिए? मैं उनसे क्या (छवियों) का वर्णन करने के लिए कहूँ? किस संदर्भ में? किन परिस्थितियों में? इनमें से कई सवालों के कोई [स्पष्ट] उत्तर नहीं हैं।”

टीम अपने डेटा को सत्यापित करने के लिए “चुनौतियाँ” भी आयोजित करती है। उदाहरण के लिए, हाल ही में एक सम्मेलन में, उन्होंने हिंदी, मराठी और तेलुगु में एक पुरुष और एक महिला वक्ता की 40 घंटे की वॉयस रिकॉर्डिंग दी, और प्रतिभागियों से कहा कि वे अपना सर्वश्रेष्ठ टेक्स्ट-टू-स्पीच प्रोग्राम बनाएँ। माइक्रोसॉफ्ट जैसी कंपनियों के साथ-साथ कुछ भारतीय और चीनी संगठनों ने भी इसमें भाग लिया। ताइवान में होने वाले आगामी सम्मेलन में, 40 टीमें बंगाली और भोजपुरी भाषा के कॉर्पोरा पर काम करेंगी। “ऐसी चुनौतियाँ परियोजना और भारतीय भाषा के डेटा को दृश्यता प्रदान करती हैं। कल्पना करें कि चीन का कोई व्यक्ति मराठी पर काम कर रहा है!” प्रशांत कहते हैं। दिलचस्प बात यह है कि प्रोग्रामर को भाषा जानने की ज़रूरत नहीं है; केवल वाक्यों की ध्वनि, जिसे फिर प्रशिक्षित कंप्यूटर द्वारा मूल लिपि में परिवर्तित किया जाता है।

प्रशांत को उम्मीद है कि जब ऐसा डेटा एकत्र किया जाएगा, तो यह न केवल वाणी-आधारित प्रौद्योगिकियों के डेवलपर्स के लिए उपयोगी होगा, बल्कि भाषाविदों, लुप्तप्राय भाषाओं के संरक्षकों और उन लोगों के लिए भी उपयोगी होगा जो ऐसी भाषाओं में सामग्री बनाना चाहते हैं जिनकी कोई लिपि नहीं है। एक बार जब भारतीय भाषाओं की विशाल विविधता और रंग स्वच्छ डेटा के रूप में संरक्षित हो जाएंगे, तो संभावनाएं असीम होंगी।