आर्टिफिशियल इंटेलिजेंसः ‘जहाँ ज्ञान निःशुल्क है’

‘डीपसीक’ ने इंजीनियरिंग की दुनिया को हिलाकर रख दिया है

स्वागतम दास

27 जनवरी को वैश्विक कृत्रिम बुद्धिमत्ता (आर्टिफिशियल इंटेलिजेंस) व्यापार बाजार में भूचाल आ गया। चीन की एक छोटी सी शोध टीम द्वारा विकसित ‘डीपसीक’ नामक एआई मॉडल ने बहुत ही कम समय में अमेरिकी शेयर बाजार से लगभग 1 ट्रिलियन डॉलर का सफाया कर दिया है। शेयर बाजार के इतिहास में एक दिन में इतनी बड़ी गिरावट पहले कभी नहीं देखी गई। ऐसा कहने से वास्तव में कुछ नहीं कहा जा सकता। मशीन इंटेलिजेंस बाजार पर हावी रहे अमेरिकी दिग्गजों की तुलना में – जैसे कि ओपनएआई, मेटा, गूगल, और निश्चित रूप से, एआई हार्डवेयर के मामले में एनवीडिया – मई 2023 में पदार्पण करने वाली कंपनी डीपसेक, पूंजी या आकार के मामले में महत्वहीन है।

मैं लंबे समय से सोचता रहा हूं कि चैटजीपीटी जैसे भाषा प्रसंस्करण मॉडल को शुरू से बनाने के लिए पहचाने गए डेटा के महासागर और उस महासागर को मथने के लिए अविश्वसनीय कंप्यूटिंग शक्ति की आवश्यकता होगी। जबकि एआई के लिए जीपीयू, डेटा सेंटर और विशाल मात्रा में बिजली की आवश्यकता अपरिहार्य लगती थी, नवाचार के लिए इस कीमत का भुगतान करने की क्षमता संयुक्त राज्य अमेरिका को छोड़कर कई देशों की पहुंच से बाहर थी। विश्लेषकों ने माना कि परमाणु ऊर्जा – जो स्वच्छ और स्वतंत्र रूप से विस्तार योग्य बिजली प्रदान कर सकती है – धीरे-धीरे एआई क्रांति के पीछे प्रेरक शक्ति बन जाएगी। यहीं पर डीपसीक ने खेल को पलट दिया – केवल छह मिलियन डॉलर के साथ एक स्टार्टअप ने अपनी असाधारण अभिनव शक्ति का उपयोग पूंजी की कमी को पूरा करने के लिए किया, एक ऐसी शक्ति जो वास्तव में कृत्रिम बुद्धिमत्ता पर आधारित नहीं है, बल्कि विशुद्ध रूप से मानवीय बुद्धिमत्ता पर आधारित है।

आइये हम आपको यह बताने का प्रयास करें कि खेल का परिणाम कैसा रहा। एआई की दुनिया में, टोकन हमारी भाषा की सबसे छोटी इकाई है, जिसका उपयोग चैटजीपीटी जैसे बड़े भाषा मॉडल द्वारा उपयोगकर्ताओं के सवालों के जवाब देने के लिए किया जाता है। यह आमतौर पर एक शब्द, आंशिक शब्द या प्रतीक (जैसे विराम चिह्न) हो सकता है। ओपनएआई के चैटजीपीटी-4 जैसे मॉडल को चलाने में प्रति मिलियन टोकन 100 डॉलर का खर्च आता है। डीपसीक की लागत प्रति मिलियन टोकन केवल 4 डॉलर है!

डीपसीक के नवाचारों का प्रभाव प्रौद्योगिकी क्षेत्र तक ही सीमित नहीं है। एनवीडिया, जिसके हार्डवेयर की कल्पना जीपीयू के बिना नहीं की जा सकती थी, को शेयर बाजार में बड़ा झटका लगा है; विस्ट्रा और कांस्टेलेशन जैसी कम्पनियों, जिन्होंने परमाणु ऊर्जा के भविष्य पर दांव लगाया था, के शेयरों में रिकॉर्ड गिरावट देखी गई है। वर्टिव होल्डिंग्स, जो एआई के लिए डेटा सेंटर इन्फ्रास्ट्रक्चर प्रदान करती है, के शेयर की कीमत में 30% की गिरावट देखी गई। लेकिन यह सिर्फ कीमतें कम करने के बारे में नहीं है, यह सिर्फ कुछ बड़ी तकनीकी कंपनियों के खजाने से सबसे उन्नत निजी एआई मॉडल को लेने और उन्हें दुनिया भर के गरीब देशों के साधारण शोधकर्ताओं की पहुंच के भीतर लाने के बारे में है – ऐसे मॉडल बनाकर एआई का एक प्रकार का लोकतंत्रीकरण, जो सफलता के मामले में चैटजीपीटी के करीब हैं, लेकिन लगभग ओपन सोर्स हैं, जिसका अर्थ है उपयोग करने के लिए मुफ़्त। कई लोगों के अनुसार, यही इस गहरे समुद्र के जुए का वास्तविक महत्व है।

डीपसीक की क्षमताओं के पीछे के रहस्य को समझने के लिए, हमें मशीन लर्निंग की एक विशेष शाखा पर गौर करना होगा, जिसे औपचारिक रूप से ‘रीइन्फोर्समेंट लर्निंग’ कहा जाता है। यह सीखने की एक विधि है जिसमें एक एजेंट (जैसे, एक बच्चा) अपने वातावरण में सीधे कुछ क्रिया करता है; उसे पता चलता है कि उस काम के परिणाम अच्छे हैं या बुरे; और, वह यह सीखता रहता है कि भविष्य में उसी वातावरण में क्या करना है। जब आप कुछ अच्छा करते हैं, तो आपको पुरस्कार मिलता है; और यदि वह कोई गलती करता है, तो उसे दंड या नकारात्मक प्रतिक्रिया मिलती है, जो उसे अगली बार कार्य सही ढंग से करने के लिए प्रेरित करती है।

मान लीजिए कि एक बच्चा एक नई भाषा सीख रहा है। लेकिन वह पहले से खरीदे गए बड़े शब्दकोष के साथ नहीं बैठता, बल्कि अपने आस-पास के वातावरण से कुछ शब्द चुनता है जो उसे पसंद होते हैं। जब वह पहली बार ‘बिस्किट’ कहता है, तो वह बार-बार गलत उच्चारण करता है, और उसके माता-पिता उसे सही उच्चारण सिखाते हैं – यह एक तरह का सुधार या ‘दंड’ है। जब वह ‘बिस्किट’ सही ढंग से बोल पाता है, तो सभी खुश होते हैं और उसकी प्रशंसा करते हैं – यही उसका पुरस्कार है। बच्चा देखता है कि जब वह सही उच्चारण करता है तो सभी खुश होते हैं, इसलिए वह अगली बार उसे बेहतर ढंग से बोलने की कोशिश करता है। इस प्रक्रिया में, बच्चा धीरे-धीरे भाषा सीखता है, क्योंकि वह समझता है कि कौन से उच्चारण या वाक्यों पर सकारात्मक प्रतिक्रिया मिलेगी, और कौन से उच्चारण या वाक्यों में गलती होने पर उन्हें सुधारा जाएगा। इसे ‘सुदृढीकरण अधिगम’ कहा जाता है।

डीपसीक आर-1 एक ऐसा मॉडल है जो जटिल समस्या को हल करते समय उपयोग किए जाने वाले तर्क का निरंतर पुनर्मूल्यांकन करता है, उस तर्क में मौजूद कमियों से सीखता है, तथा समय के साथ अधिक मजबूत और विश्वसनीय बन जाता है। मशीन इंटेलिजेंस के संदर्भ में, डीपसेक ने बाजार-संचालित ‘पर्यवेक्षित फाइन-ट्यूनिंग’ के बजाय प्रत्यक्ष ‘सुदृढ़ीकरण सीखने’ पर अधिक जोर दिया है।

पारंपरिक सुदृढीकरण सीखने में, एक एआई मॉडल को पहले से निर्धारित करना होता है कि सही उत्तरों के लिए उसे कितना इनाम मिलेगा, और गलत उत्तरों के लिए उसे कितनी सजा या फटकार मिलेगी। लेकिन डीपसीक एक विशेष सुदृढीकरण सीखने की विधि का उपयोग करता है, जो कुछ लोगों द्वारा नया कौशल सीखने के तरीके के समान है। हम परीक्षण और त्रुटि के माध्यम से सुधार की ओर बढ़ते हैं, और धीरे-धीरे अपने पिछले प्रयासों को पार कर जाते हैं। इस शिक्षण पद्धति में, जब कोई जटिल प्रश्न अलग-अलग तरीकों से पूछा जाता है, या जब एक ही प्रश्न के कई संभावित उत्तर होते हैं, तो AI मॉडल अलग-अलग समय पर दिए गए विभिन्न उत्तरों की तुलना करना जारी रखता है, ताकि भविष्य के उत्तर अधिक उचित हों, जबकि मॉडल की स्थिरता बनाए रखी जा सके।

लेकिन कहानी यहीं ख़त्म नहीं होती. उन शोधकर्ताओं को ध्यान में रखते हुए, जो कृत्रिम बुद्धिमत्ता अनुसंधान करने के लिए अरबों टका मूल्य के जीपीयू खरीदने का जोखिम नहीं उठा सकते, डीपसीक ने बाजार में कुछ छोटे ‘डिस्टिल्ड वर्जन’ लॉन्च किए हैं, जहां एक बड़ा मॉडल (शिक्षक) एक छोटे मॉडल (छात्र) को प्रशिक्षित करता है। मात्र 48 जीबी रैंडम एक्सेस मेमोरी (रैम) के साथ, ये मॉडल हमारे घरेलू लैपटॉप पर भी चल सकते हैं। इससे उन्नत एआई अधिक लोगों के लिए सुलभ हो सकेगी। विश्लेषक आज डीपसी की सफलता की तुलना सोवियत कृत्रिम उपग्रह स्पुतनिक के प्रक्षेपण के क्षण से कर रहे हैं। एक बात बहुत स्पष्ट है – कृत्रिम बुद्धिमत्ता की दुनिया में अब सफलता सिर्फ पैसे या कंप्यूटिंग शक्ति से नहीं मिलेगी, बल्कि अपनी स्वयं की नवोन्मेषी क्षमता और पारंपरिक ढांचे से बाहर निकलने के साहस से मिलेगी।

भारत में ऐसा अनुसंधान क्यों नहीं किया जाता? इसका एक कारण यह है कि स्कूल स्तर से ही शिक्षा प्रणाली पूरी तरह नष्ट हो चुकी है। उच्च शिक्षा में नवीन, अत्याधुनिक अनुसंधान में लगभग कोई निवेश नहीं किया जाता है। उच्च शिक्षा संस्थानों के प्रतिष्ठित नेता नौकरशाहों के आदेशों का पालन करते हुए, अनुसंधान को वित्तपोषित करने वाली सरकार को यथासंभव खुश करते हुए, तथा कभी-कभी पुष्पक विमान या गोमूत्र के गुणों का बखान करते हुए अपने संस्थान चला रहे हैं। हम कुंभ मेले में आईआईटी बाबा के चमत्कार का भी आनंद ले रहे हैं। डिप्सिक, यह किसी अन्य प्रयास का परिणाम है। आनंद बाजार से साभार

लेखक भारतीय सांख्यिकी संस्थान, कोलकाता से संबद्ध हैं।