घर >  समाचार >  कॉम्पैक्ट एआई की रीजनिंग पावर: चुनौतीपूर्ण जीपीटी?

कॉम्पैक्ट एआई की रीजनिंग पावर: चुनौतीपूर्ण जीपीटी?

by Hannah Apr 07,2025

हाल के वर्षों में, एआई फील्ड को बड़े भाषा मॉडल (एलएलएम) की सफलता से मोहित कर दिया गया है। प्रारंभ में प्राकृतिक भाषा प्रसंस्करण के लिए डिज़ाइन किया गया, ये मॉडल एक मानव-जैसी, चरण-दर-चरण विचार प्रक्रिया के साथ जटिल समस्याओं से निपटने में सक्षम शक्तिशाली तर्क उपकरणों में विकसित हुए हैं। हालांकि, उनकी असाधारण तर्क क्षमताओं के बावजूद, एलएलएम महत्वपूर्ण कमियों के साथ आते हैं, जिसमें उच्च कम्प्यूटेशनल लागत और धीमी गति से तैनाती की गति शामिल है, जिससे वे मोबाइल उपकरणों या एज कंप्यूटिंग जैसे संसाधन-विवश वातावरण में वास्तविक दुनिया के उपयोग के लिए अव्यवहारिक हो जाते हैं। इसने छोटे, अधिक कुशल मॉडल विकसित करने में बढ़ती रुचि पैदा की है जो लागत और संसाधन मांगों को कम करते हुए समान तर्क क्षमताओं की पेशकश कर सकते हैं। यह लेख एआई के भविष्य के लिए इन छोटे तर्क मॉडल, उनकी क्षमता, चुनौतियों और निहितार्थों के उदय की पड़ताल करता है।

परिप्रेक्ष्य में एक बदलाव

एआई के हाल के इतिहास में से अधिकांश के लिए, इस क्षेत्र ने "स्केलिंग कानूनों" के सिद्धांत का पालन किया है, जो बताता है कि मॉडल प्रदर्शन डेटा, गणना शक्ति और मॉडल आकार में वृद्धि के रूप में अनुमानित रूप से सुधार करता है। जबकि इस दृष्टिकोण ने शक्तिशाली मॉडल प्राप्त किए हैं, इसके परिणामस्वरूप महत्वपूर्ण व्यापार-बंद भी शामिल हैं, जिसमें उच्च बुनियादी ढांचा लागत, पर्यावरणीय प्रभाव और विलंबता मुद्दे शामिल हैं। सभी अनुप्रयोगों को सैकड़ों अरबों मापदंडों के साथ बड़े पैमाने पर मॉडल की पूरी क्षमताओं की आवश्यकता नहीं होती है। कई व्यावहारिक मामलों में-जैसे कि ऑन-डिवाइस असिस्टेंट, हेल्थकेयर, और शिक्षा-स्मालर मॉडल समान परिणाम प्राप्त कर सकते हैं यदि वे प्रभावी रूप से तर्क कर सकते हैं।

एआई में तर्क को समझना

AI में तर्क ताज़ाद जंजीरों का पालन करने, कारण और प्रभाव को समझने, निहितार्थों को कम करने, एक प्रक्रिया में योजनाओं की योजना बनाने और विरोधाभासों की पहचान करने की क्षमता को संदर्भित करता है। भाषा मॉडल के लिए, इसका मतलब अक्सर न केवल जानकारी को पुनः प्राप्त करना है, बल्कि एक संरचित, चरण-दर-चरण दृष्टिकोण के माध्यम से जानकारी में हेरफेर करना और उसका उल्लेख करना भी है। तर्क का यह स्तर आम तौर पर एक उत्तर पर पहुंचने से पहले मल्टी-स्टेप तर्क करने के लिए ठीक-ट्यूनिंग एलएलएम द्वारा प्राप्त किया जाता है। प्रभावी होने पर, ये विधियां महत्वपूर्ण कम्प्यूटेशनल संसाधनों की मांग करती हैं और उनकी पहुंच और पर्यावरणीय प्रभाव के बारे में चिंताओं को बढ़ाते हुए, तैनात करने के लिए धीमी और महंगी हो सकती हैं।

छोटे तर्क मॉडल को समझना

छोटे तर्क मॉडल का उद्देश्य बड़े मॉडलों की तर्क क्षमताओं को दोहराना है, लेकिन कम्प्यूटेशनल पावर, मेमोरी उपयोग और विलंबता के संदर्भ में अधिक दक्षता के साथ। ये मॉडल अक्सर नॉलेज डिस्टिलेशन नामक एक तकनीक को नियुक्त करते हैं, जहां एक छोटा मॉडल ("छात्र") एक बड़े, पूर्व-प्रशिक्षित मॉडल ("शिक्षक") से सीखता है। आसवन प्रक्रिया में तर्क की क्षमता को स्थानांतरित करने के लक्ष्य के साथ, बड़े द्वारा उत्पन्न डेटा पर छोटे मॉडल को प्रशिक्षित करना शामिल है। छात्र मॉडल तब अपने प्रदर्शन को बेहतर बनाने के लिए ठीक-ठाक है। कुछ मामलों में, विशेष डोमेन-विशिष्ट इनाम कार्यों के साथ सुदृढीकरण सीखने को कार्य-विशिष्ट तर्क करने के लिए मॉडल की क्षमता को और बढ़ाने के लिए लागू किया जाता है।

छोटे तर्क मॉडल की वृद्धि और प्रगति

छोटे तर्क मॉडल के विकास में एक उल्लेखनीय मील का पत्थर दीपसेक-आर 1 की रिहाई के साथ आया था। पुराने जीपीयू के अपेक्षाकृत मामूली क्लस्टर पर प्रशिक्षित होने के बावजूद, डीपसेक-आर 1 ने एमएमएलयू और जीएसएम -8 के जैसे बेंचमार्क पर ओपनआईए के ओ 1 जैसे बड़े मॉडलों की तुलना में प्रदर्शन हासिल किया। इस उपलब्धि ने पारंपरिक स्केलिंग दृष्टिकोण पर पुनर्विचार किया है, जो मानता था कि बड़े मॉडल स्वाभाविक रूप से बेहतर थे।

दीपसेक-आर 1 की सफलता को इसकी अभिनव प्रशिक्षण प्रक्रिया के लिए जिम्मेदार ठहराया जा सकता है, जिसने शुरुआती चरणों में पर्यवेक्षित फाइन-ट्यूनिंग पर भरोसा किए बिना बड़े पैमाने पर सुदृढीकरण सीखने को संयुक्त किया। इस नवाचार ने दीपसेक-आर 1-जीरो के निर्माण का नेतृत्व किया, एक मॉडल जिसने बड़े तर्क मॉडल की तुलना में प्रभावशाली तर्क क्षमताओं का प्रदर्शन किया। आगे के सुधार, जैसे कि कोल्ड-स्टार्ट डेटा का उपयोग, मॉडल के सुसंगतता और कार्य निष्पादन को बढ़ाया, विशेष रूप से गणित और कोड जैसे क्षेत्रों में।

इसके अतिरिक्त, आसवन तकनीक बड़े लोगों से छोटे, अधिक कुशल मॉडल विकसित करने में महत्वपूर्ण साबित हुई है। उदाहरण के लिए, दीपसेक ने अपने मॉडलों के डिस्टिल्ड संस्करण जारी किए हैं, जिसमें 1.5 बिलियन से 70 बिलियन मापदंडों तक का आकार है। इन मॉडलों का उपयोग करते हुए, शोधकर्ताओं ने एक बहुत छोटे मॉडल, डीपसेक-आर 1-डिस्टिल-क्वेन -32 बी को प्रशिक्षित किया है, जिसने विभिन्न बेंचमार्क में ओपनईएआई के ओ 1-मिनी को बेहतर बनाया है। ये मॉडल अब मानक हार्डवेयर के साथ तैनात हैं, जिससे वे अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए अधिक व्यवहार्य विकल्प बन जाते हैं।

क्या छोटे मॉडल जीपीटी-स्तरीय तर्क से मेल खा सकते हैं?

यह आकलन करने के लिए कि क्या छोटे रीज़निंग मॉडल (SRM) GPT जैसे बड़े मॉडल (LRMs) की तर्क शक्ति से मेल खा सकते हैं, मानक बेंचमार्क पर उनके प्रदर्शन का मूल्यांकन करना महत्वपूर्ण है। उदाहरण के लिए, डीपसेक-आर 1 मॉडल ने एमएमएलयू परीक्षण पर लगभग 0.844 स्कोर किया, जैसे कि ओ 1 जैसे बड़े मॉडलों की तुलना में। GSM-8K डेटासेट पर, जो ग्रेड-स्कूल गणित पर केंद्रित है, DeepSeek-R1 के डिस्टिल्ड मॉडल ने O1 और O1-Mini दोनों को पार करते हुए, शीर्ष स्तरीय प्रदर्शन प्राप्त किया।

कोडिंग कार्यों में, जैसे कि LiveCodebench और Codeforces पर, DeepSeek-R1 के डिस्टिल्ड मॉडल ने O1-MINI और GPT-4O के समान प्रदर्शन किया, प्रोग्रामिंग में मजबूत तर्क क्षमताओं का प्रदर्शन किया। हालांकि, बड़े मॉडलों में अभी भी व्यापक भाषा की समझ या लंबे संदर्भ खिड़कियों को संभालने वाले कार्यों में एक बढ़त है, क्योंकि छोटे मॉडल अधिक कार्य-विशिष्ट होते हैं।

अपनी ताकत के बावजूद, छोटे मॉडल विस्तारित तर्क कार्यों के साथ संघर्ष कर सकते हैं या जब आउट-ऑफ-डिस्ट्रिब्यूशन डेटा के साथ सामना कर सकते हैं। उदाहरण के लिए, एलएलएम शतरंज सिमुलेशन में, डीपसेक-आर 1 ने बड़े मॉडलों की तुलना में अधिक गलतियाँ कीं, जो लंबी अवधि में फोकस और सटीकता बनाए रखने की अपनी क्षमता में सीमाओं का सुझाव देती हैं।

व्यापार बंद और व्यावहारिक निहितार्थ

जीपीटी-स्तरीय एलआरएम के साथ एसआरएम की तुलना करते समय मॉडल आकार और प्रदर्शन के बीच व्यापार-बंद महत्वपूर्ण हैं। छोटे मॉडल को कम मेमोरी और कम्प्यूटेशनल पावर की आवश्यकता होती है, जिससे वे एज डिवाइसेस, मोबाइल ऐप्स या उन स्थितियों के लिए आदर्श बन जाते हैं जहां ऑफ़लाइन अनुमान आवश्यक है। इस दक्षता के परिणामस्वरूप कम परिचालन लागत होती है, जिसमें डीपसेक-आर 1 जैसे मॉडल O1 जैसे बड़े मॉडलों की तुलना में 96% तक सस्ते होते हैं।

हालांकि, ये दक्षता लाभ कुछ समझौते के साथ आते हैं। छोटे मॉडल आमतौर पर विशिष्ट कार्यों के लिए ठीक-ठीक होते हैं, जो बड़े मॉडलों की तुलना में उनकी बहुमुखी प्रतिभा को सीमित कर सकते हैं। उदाहरण के लिए, जबकि डीपसेक-आर 1 गणित और कोडिंग में एक्सेल करता है, इसमें मल्टीमॉडल क्षमताओं का अभाव है, जैसे कि छवियों की व्याख्या करने की क्षमता, जो जीपीटी -4 ओ जैसे बड़े मॉडल संभाल सकते हैं।

इन सीमाओं के बावजूद, छोटे तर्क मॉडल के व्यावहारिक अनुप्रयोग विशाल हैं। हेल्थकेयर में, वे नैदानिक ​​उपकरणों को बिजली दे सकते हैं जो मानक अस्पताल सर्वर पर चिकित्सा डेटा का विश्लेषण करते हैं। शिक्षा में, उनका उपयोग व्यक्तिगत ट्यूशन सिस्टम विकसित करने के लिए किया जा सकता है, जो छात्रों को चरण-दर-चरण प्रतिक्रिया प्रदान करता है। वैज्ञानिक अनुसंधान में, वे गणित और भौतिकी जैसे क्षेत्रों में डेटा विश्लेषण और परिकल्पना परीक्षण के साथ सहायता कर सकते हैं। डीपसेक-आर 1 जैसे मॉडलों की ओपन-सोर्स प्रकृति भी सहयोग को बढ़ावा देती है और एआई तक पहुंच का लोकतंत्रीकरण करती है, जिससे छोटे संगठनों को उन्नत प्रौद्योगिकियों से लाभ होता है।

तल - रेखा

छोटे तर्क मॉडल में भाषा मॉडल का विकास एआई में एक महत्वपूर्ण उन्नति है। हालांकि ये मॉडल अभी तक बड़ी भाषा मॉडल की व्यापक क्षमताओं से पूरी तरह से मेल नहीं खा सकते हैं, वे दक्षता, लागत-प्रभावशीलता और पहुंच में महत्वपूर्ण लाभ प्रदान करते हैं। तर्क शक्ति और संसाधन दक्षता के बीच एक संतुलन बनाने से, छोटे मॉडल विभिन्न अनुप्रयोगों में एक महत्वपूर्ण भूमिका निभाने के लिए तैयार हैं, जिससे एआई वास्तविक दुनिया के उपयोग के लिए अधिक व्यावहारिक और टिकाऊ हो जाता है।