क्लेमेंट गॉडबार्ज
आर्टिफिशियल इंटेलिजेंस (एआई) का भविष्य केवल विनियमन से सुरक्षित नहीं होगा। सभी के लिए सुरक्षित और भरोसेमंद एआई सुनिश्चित करने के लिए, हमें विनियमन को उन नीतियों के साथ संतुलित करना होगा जो सार्वजनिक वस्तु के रूप में उच्च गुणवत्ता वाले डेटा को बढ़ावा देती हैं। पारदर्शिता को बढ़ावा देने, समान अवसर बनाने और सार्वजनिक विश्वास बनाने के लिए यह दृष्टिकोण महत्वपूर्ण है। डेटा तक निष्पक्ष और व्यापक पहुँच प्रदान करके ही हम एआई की पूरी क्षमता का एहसास कर सकते हैं और इसके लाभों को समान रूप से वितरित कर सकते हैं।
डेटा एआई की जीवनरेखा है। इस संबंध में, न्यूरल स्केलिंग के नियम सरल हैं: जितना अधिक, उतना बेहतर। उदाहरण के लिए, मानव-निर्मित पाठ की जितनी अधिक मात्रा और विविधता अप्रशिक्षित सीखने के लिए उपलब्ध होगी, बड़े भाषा मॉडल (एलएलएम) का प्रदर्शन उतना ही बेहतर होगा। कंप्यूटिंग शक्ति और एल्गोरिदम संबंधी नवाचारों के साथ-साथ, डेटा यकीनन इस क्षेत्र में प्रगति का सबसे महत्वपूर्ण चालक है।
नैतिकता की कीमत पर डेटा की दौड़
लेकिन एक समस्या है। मनुष्य इन लगातार बढ़ते जानवरों को खिलाने के लिए पर्याप्त डिजिटल सामग्री का उत्पादन नहीं करते हैं। वर्तमान प्रशिक्षण डेटासेट पहले से ही बहुत बड़े हैं: उदाहरण के लिए, मेटा का LLama 3, 15 ट्रिलियन टोकन पर प्रशिक्षित है, जो ब्रिटिश लाइब्रेरी के पुस्तक संग्रह से 10 गुना से अधिक है। हाल ही में किए गए एक अध्ययन के अनुसार, शुद्ध पाठ की मांग इतनी है कि हम 2030 से पहले ‘पीक डेटा’ जैसी किसी चीज़ तक पहुँच सकते हैं। अन्य शोधपत्र एलएलएम द्वारा सार्वजनिक डेटा संदूषण के खतरों के प्रति आगाह करते हैं, जिससे फीडबैक लूप बनते हैं जो पूर्वाग्रहों को बढ़ाते हैं और विविधता को कम करते हैं।
‘एआई विंटर’ की आशंकाएं डेटा के लिए अथक दौड़ को दर्शाती हैं जिसमें शोधकर्ता और उद्योग के खिलाड़ी लगे हुए हैं, कभी-कभी गुणवत्ता और नैतिकता की कीमत पर। इसका एक प्रमुख उदाहरण ‘बुक्स3’ है, जो पायरेटेड पुस्तकों का एक खजाना है, जिसके बारे में व्यापक रूप से माना जाता है कि यह प्रमुख एलएलएम को बढ़ावा देता है। क्या इस तरह का अभ्यास उचित उपयोग नीति के अंतर्गत आता है, यह वकीलों के लिए एक बहस का विषय है। इससे भी अधिक परेशान करने वाली बात यह है कि इन पुस्तकों को बिना किसी स्पष्ट मार्गदर्शक सिद्धांत के जमा किया जा रहा है।
भले ही प्रगति हो रही हो, खास तौर पर विनियमन के कारण, एलएलएम को अभी भी लाइसेंस प्राप्त सामग्री, ‘सार्वजनिक रूप से उपलब्ध डेटा’ और ‘सोशल मीडिया इंटरैक्शन’ के एक गूढ़ दलदल पर प्रशिक्षित किया जाता है। हालाँकि, अध्ययनों से पता चलता है कि ये डेटा हमारे साइबरस्पेस की वर्तमान विकृतियों को दर्शाते हैं और कभी-कभी इसे और भी बढ़ा देते हैं: एक अत्यधिक अंग्रेजीभाषी और वर्तमानवादी दुनिया।
प्राथमिक स्रोतों की अनुपस्थिति
यह धारणा कि एलएलएम मानव ज्ञान के सार्वभौमिक संग्रह पर प्रशिक्षित हैं, एक काल्पनिक भ्रम है। वर्तमान एलएलएम लीबनिज़ और बोर्गेस जैसे लोगों द्वारा परिकल्पित सार्वभौमिक पुस्तकालय से बहुत दूर हैं। जबकि ‘बुक्स3’ जैसे चुराए गए ग्रंथों के संग्रह में कुछ विद्वानों के कार्य शामिल हो सकते हैं, ये मुख्य रूप से अंग्रेजी में लिखे गए द्वितीयक स्रोत हैं: टिप्पणियाँ जो केवल मानव संस्कृति की सतह को छूती हैं। प्राथमिक स्रोत और उनकी असंख्य भाषाएँ स्पष्ट रूप से अनुपस्थित हैं: अभिलेखीय दस्तावेज़, मौखिक परंपराएँ, सार्वजनिक भंडारों में भूली हुई पुस्तकें, पत्थर पर उकेरे गए शिलालेख – वे हमारी सांस्कृतिक विरासत के बहुत कच्चे माल हैं।
ये दस्तावेज़ भाषाई डेटा के अप्रयुक्त भंडार का प्रतिनिधित्व करते हैं। इटली पर विचार करें। इस देश के राज्य अभिलेखागार में अकेले 1,500 किलोमीटर से कम लंबे दस्तावेज़ (रैखिक माप के संदर्भ में) नहीं हैं – वेटिकन के विशाल संग्रह को छोड़कर। इस विरासत से प्राप्त किए जा सकने वाले टोकन की कुल मात्रा का अनुमान लगाना मुश्किल है। हालाँकि, अगर हम अपने पाँच महाद्वीपों में फैले सैकड़ों अभिलेखागारों को शामिल करते हैं, तो यह मानना उचित है कि वे एलएलएम को प्रशिक्षित करने के लिए वर्तमान में उपयोग किए जाने वाले डेटा के परिमाण तक पहुँच सकते हैं, या उससे आगे निकल सकते हैं।
अगर इन आंकड़ों का इस्तेमाल किया जाए तो ये न केवल मानवता की सांस्कृतिक संपदा के बारे में एआई की समझ को समृद्ध करेंगे बल्कि इसे दुनिया के लिए और भी सुलभ बना देंगे। वे इतिहास की हमारी समझ में क्रांतिकारी बदलाव ला सकते हैं, साथ ही दुनिया की सांस्कृतिक विरासत को लापरवाही, युद्ध और जलवायु परिवर्तन से बचा सकते हैं। वे महत्वपूर्ण आर्थिक लाभ का भी वादा करते हैं। न्यूरल नेटवर्क को बढ़ाने में मदद करने के साथ-साथ, सार्वजनिक डोमेन में उनके जारी होने का मतलब होगा कि छोटी कंपनियां, स्टार्टअप और ओपन-सोर्स एआई समुदाय अपने स्वयं के अनुप्रयोगों को विकसित करने के लिए मुक्त और पारदर्शी डेटा के उन बड़े पूल का उपयोग कर सकते हैं, जिससे वैश्विक स्तर पर नवाचार को बढ़ावा देते हुए बिग टेक के खिलाफ़ खेल का मैदान समतल हो जाएगा।
इटली और कनाडा के उदाहरण
डिजिटल मानविकी में प्रगति, विशेष रूप से एआई के कारण, डिजिटलीकरण की लागत में भारी कमी आई है, जिससे हम अभूतपूर्व सटीकता और गति के साथ मुद्रित और पांडुलिपि दस्तावेजों से पाठ निकालने में सक्षम हुए हैं। इटली ने इस क्षमता को पहचाना, और अपने ‘नेक्स्ट जेनरेशन ईयू’ पैकेज के 500 मिलियन यूरो को ‘डिजिटल लाइब्रेरी’ परियोजना के लिए निर्धारित किया। दुर्भाग्य से, इटली की समृद्ध विरासत को खुले डेटा के रूप में सुलभ बनाने के उद्देश्य से इस महत्वाकांक्षी पहल को तब से प्राथमिकता से हटा दिया गया है और पुनर्गठित किया गया है। अदूरदर्शिता हावी रही।
कनाडा का आधिकारिक भाषा अधिनियम इस संबंध में एक शिक्षाप्रद सबक प्रदान करता है। लंबे समय तक बेकार के रूप में उपहास की जाने वाली इस नीति ने द्विभाषी संस्थानों की आवश्यकता को अंततः अनुवाद सॉफ़्टवेयर के प्रशिक्षण के लिए सबसे मूल्यवान डेटासेट में से एक प्रदान किया।
हालाँकि, स्पैनिश कोर्टेस और यूरोपीय संघ के संस्थानों में क्षेत्रीय भाषाओं को अपनाने के बारे में हाल की बहसों ने इस महत्वपूर्ण बिंदु को नजरअंदाज कर दिया है। यहाँ तक कि अधिवक्ता भी कम संसाधन वाली भाषाओं के डिजिटलीकरण को पूरक के रूप में बढ़ावा देने के सांस्कृतिक, आर्थिक और तकनीकी लाभों को पहचानने में विफल रहे हैं।
जैसे-जैसे हम डिजिटल संक्रमण को गति दे रहे हैं, हमें अपनी दुनिया की सांस्कृतिक विरासत की अपार संभावनाओं को नज़रअंदाज़ नहीं करना चाहिए। इसका डिजिटलीकरण इतिहास को संरक्षित करने, ज्ञान का लोकतंत्रीकरण करने और वास्तव में समावेशी AI नवाचार को बढ़ावा देने की कुंजी है।
केवल डेटा तक निष्पक्ष और व्यापक पहुँच प्रदान करके ही AI की पूरी क्षमता का एहसास किया जा सकता है और इसके लाभों को समान रूप से वितरित किया जा सकता है। द हिंदू से साभार
लेखक स्कूल ऑफ मॉडर्न लैंग्वेजेज, यूनिवर्सिटी ऑफ सेंट एंड्रयूज, यू.के. में डिजिटल ह्यूमैनिटीज के व्याख्याता हैं।