বাড়ি >  খবর >  কমপ্যাক্ট এআইয়ের যুক্তি শক্তি: চ্যালেঞ্জিং জিপিটি?

কমপ্যাক্ট এআইয়ের যুক্তি শক্তি: চ্যালেঞ্জিং জিপিটি?

by Hannah Apr 07,2025

সাম্প্রতিক বছরগুলিতে, এআই ক্ষেত্রটি বৃহত্তর ভাষার মডেলগুলির (এলএলএম) সাফল্যের দ্বারা মোহিত হয়েছে। প্রাথমিকভাবে প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণের জন্য ডিজাইন করা, এই মডেলগুলি একটি মানুষের মতো, ধাপে ধাপে চিন্তাভাবনা প্রক্রিয়া সহ জটিল সমস্যাগুলি মোকাবেলায় সক্ষম শক্তিশালী যুক্তিযুক্ত সরঞ্জামগুলিতে বিকশিত হয়েছে। যাইহোক, তাদের ব্যতিক্রমী যুক্তিযুক্ত দক্ষতা থাকা সত্ত্বেও, এলএলএমগুলি উচ্চ গণনার ব্যয় এবং ধীর মোতায়েনের গতি সহ উল্লেখযোগ্য ত্রুটিগুলি নিয়ে আসে, মোবাইল ডিভাইস বা এজ কম্পিউটিংয়ের মতো সম্পদ-সীমাবদ্ধ পরিবেশে বাস্তব-বিশ্বের ব্যবহারের জন্য এগুলি অযৌক্তিক করে তোলে। এর ফলে ছোট, আরও দক্ষ মডেলগুলি বিকাশে ক্রমবর্ধমান আগ্রহের দিকে পরিচালিত হয়েছে যা ব্যয় এবং সংস্থানগুলির চাহিদা হ্রাস করার সময় অনুরূপ যুক্তিযুক্ত ক্ষমতা সরবরাহ করতে পারে। এই নিবন্ধটি এই ছোট যুক্তিযুক্ত মডেলগুলির উত্থান, তাদের সম্ভাবনা, চ্যালেঞ্জ এবং এআইয়ের ভবিষ্যতের জন্য প্রভাবগুলি অনুসন্ধান করে।

দৃষ্টিকোণে একটি পরিবর্তন

এআইয়ের সাম্প্রতিক ইতিহাসের বেশিরভাগ ক্ষেত্রে, ক্ষেত্রটি "স্কেলিং আইন" এর নীতি অনুসরণ করেছে, যা পরামর্শ দেয় যে মডেল পারফরম্যান্স ডেটা, গণনা শক্তি এবং মডেলের আকার বৃদ্ধি হিসাবে অনুমানযোগ্যভাবে উন্নত করে। যদিও এই পদ্ধতির শক্তিশালী মডেলগুলি পাওয়া গেছে, এর ফলে উচ্চ অবকাঠামোগত ব্যয়, পরিবেশগত প্রভাব এবং বিলম্বিত সমস্যাগুলি সহ উল্লেখযোগ্য বাণিজ্য-অফারও রয়েছে। সমস্ত অ্যাপ্লিকেশনগুলির জন্য কয়েকশো বিলিয়ন পরামিতি সহ বিশাল মডেলের সম্পূর্ণ ক্ষমতা প্রয়োজন হয় না। অনেক ব্যবহারিক ক্ষেত্রে-যেমন অন-ডিভাইস সহকারী, স্বাস্থ্যসেবা এবং শিক্ষা-ছোট মডেলগুলি কার্যকরভাবে যুক্তিযুক্ত করতে পারলে একই রকম ফলাফল অর্জন করতে পারে।

এআই -তে যুক্তি বোঝা

এআই -তে যুক্তিযুক্ত লজিক্যাল চেইনগুলি অনুসরণ করার, কারণ এবং প্রভাব বোঝার, প্রভাবগুলি হ্রাস করা, কোনও প্রক্রিয়াতে পদক্ষেপের পরিকল্পনা এবং দ্বন্দ্বগুলি সনাক্ত করার জন্য কোনও মডেলের ক্ষমতা বোঝায়। ভাষার মডেলগুলির জন্য, এর অর্থ প্রায়শই কেবল তথ্য পুনরুদ্ধার করা নয়, কাঠামোগত, ধাপে ধাপে পদ্ধতির মাধ্যমে তথ্যগুলি ম্যানিপুলেট করা এবং অনুমান করাও। এই যুক্তির এই স্তরটি সাধারণত কোনও উত্তরে পৌঁছানোর আগে বহু-পদক্ষেপের যুক্তি সম্পাদন করার জন্য সূক্ষ্ম-টিউনিং এলএলএম দ্বারা অর্জন করা হয়। কার্যকর থাকাকালীন, এই পদ্ধতিগুলি উল্লেখযোগ্য গণ্য সংস্থানগুলির দাবি করে এবং তাদের অ্যাক্সেসযোগ্যতা এবং পরিবেশগত প্রভাব সম্পর্কে উদ্বেগ উত্থাপন করে মোতায়েন করা ধীর এবং ব্যয়বহুল হতে পারে।

ছোট যুক্তিযুক্ত মডেলগুলি বোঝা

ছোট যুক্তিযুক্ত মডেলগুলি বৃহত মডেলগুলির যুক্তি সক্ষমতাগুলির প্রতিলিপি তৈরি করার লক্ষ্য রাখে তবে গণনামূলক শক্তি, মেমরি ব্যবহার এবং বিলম্বের দিক থেকে বৃহত্তর দক্ষতার সাথে। এই মডেলগুলি প্রায়শই নলেজ ডিস্টিলেশন নামে একটি কৌশল ব্যবহার করে, যেখানে একটি ছোট মডেল ("শিক্ষার্থী") একটি বৃহত্তর, প্রাক-প্রশিক্ষিত মডেল ("শিক্ষক") থেকে শিখেন। পাতন প্রক্রিয়াটি যুক্তির ক্ষমতা স্থানান্তর করার লক্ষ্য সহ বৃহত্তর দ্বারা উত্পাদিত ডেটাতে আরও ছোট মডেলকে প্রশিক্ষণ দেওয়া জড়িত। ছাত্র মডেলটি তখন তার কার্যকারিতা উন্নত করতে সূক্ষ্ম সুরযুক্ত। কিছু ক্ষেত্রে, টাস্ক-নির্দিষ্ট যুক্তি সম্পাদন করার মডেলটির ক্ষমতা আরও বাড়ানোর জন্য বিশেষায়িত ডোমেন-নির্দিষ্ট পুরষ্কার ফাংশনগুলির সাথে শক্তিবৃদ্ধি শেখার প্রয়োগ করা হয়।

ছোট যুক্তিযুক্ত মডেলগুলির উত্থান এবং অগ্রগতি

ছোট যুক্তিযুক্ত মডেলগুলির বিকাশের একটি উল্লেখযোগ্য মাইলফলক ডিপসেক-আর 1 প্রকাশের সাথে এসেছিল। পুরানো জিপিইউগুলির তুলনামূলকভাবে পরিমিত ক্লাস্টারে প্রশিক্ষিত হওয়া সত্ত্বেও, ডিপসেক-আর 1 এমএমএলইউ এবং জিএসএম -8 কে-এর মতো বেঞ্চমার্কগুলিতে ওপেনএআই এর ও 1 এর মতো বৃহত্তর মডেলের সাথে তুলনীয় পারফরম্যান্স অর্জন করেছে। এই অর্জনটি traditional তিহ্যবাহী স্কেলিং পদ্ধতির পুনর্বিবেচনার দিকে পরিচালিত করেছে, যা ধরে নিয়েছিল যে বৃহত্তর মডেলগুলি সহজাতভাবে উচ্চতর ছিল।

ডিপসেক-আর 1 এর সাফল্যকে তার উদ্ভাবনী প্রশিক্ষণ প্রক্রিয়া হিসাবে দায়ী করা যেতে পারে, যা প্রাথমিক পর্যায়ে তদারকি করা সূক্ষ্ম সুরের উপর নির্ভর না করে বৃহত আকারের শক্তিবৃদ্ধি শিক্ষার একত্রিত করে। এই উদ্ভাবনের ফলে ডিপসেক-আর 1-জিরো তৈরির দিকে পরিচালিত হয়েছিল, এটি এমন একটি মডেল যা বড় যুক্তিযুক্ত মডেলের সাথে তুলনা করে চিত্তাকর্ষক যুক্তি দক্ষতা প্রদর্শন করেছিল। শীতল-সূচনার ডেটা ব্যবহারের মতো আরও উন্নতিগুলি বিশেষত গণিত এবং কোডের মতো অঞ্চলে মডেলটির সংহতি এবং কার্য সম্পাদনকে বাড়িয়ে তোলে।

অতিরিক্তভাবে, পাতন কৌশলগুলি বৃহত্তর থেকে আরও ছোট, আরও দক্ষ মডেলগুলি বিকাশে গুরুত্বপূর্ণ বলে প্রমাণিত হয়েছে। উদাহরণস্বরূপ, ডিপসেক তার মডেলগুলির পাতন সংস্করণ প্রকাশ করেছে, আকারগুলি 1.5 বিলিয়ন থেকে 70 বিলিয়ন পরামিতিগুলির সাথে। এই মডেলগুলি ব্যবহার করে গবেষকরা অনেক ছোট মডেল, ডিপসেক-আর 1-ডিস্টিল-কুইন -32 বি প্রশিক্ষণ দিয়েছেন, যা বিভিন্ন মানদণ্ড জুড়ে ওপেনাইয়ের ও 1-মিনিটকে ছাড়িয়ে গেছে। এই মডেলগুলি এখন স্ট্যান্ডার্ড হার্ডওয়্যার সহ মোতায়েনযোগ্য, এগুলি বিস্তৃত অ্যাপ্লিকেশনগুলির জন্য আরও কার্যকর বিকল্প হিসাবে তৈরি করে।

ছোট মডেলগুলি কি জিপিটি-স্তরের যুক্তির সাথে মেলে?

ছোট যুক্তিযুক্ত মডেলগুলি (এসআরএমএস) জিপিটি -র মতো বৃহত মডেলগুলির (এলআরএমএস) যুক্তি শক্তির সাথে মেলে কিনা তা নির্ধারণের জন্য, স্ট্যান্ডার্ড মানদণ্ডে তাদের কর্মক্ষমতা মূল্যায়ন করা গুরুত্বপূর্ণ। উদাহরণস্বরূপ, ডিপসেক-আর 1 মডেল এমএমএলইউ পরীক্ষায় প্রায় 0.844 স্কোর করেছে, যেমন ও 1 এর মতো বৃহত্তর মডেলের সাথে তুলনীয়। জিএসএম -8 কে ডেটাসেটে, যা গ্রেড-স্কুল গণিতের উপর দৃষ্টি নিবদ্ধ করে, ডিপসেক-আর 1 এর ডিস্টিলড মডেলটি ও 1 এবং ও 1-মিনিট উভয়কেই ছাড়িয়ে শীর্ষ স্তরের পারফরম্যান্স অর্জন করেছে।

কোডিং কার্যগুলিতে, যেমন লাইভকোডবেঞ্চ এবং কোডফোর্সগুলিতে, ডিপসেক-আর 1 এর ডিস্টিলড মডেলগুলি প্রোগ্রামিংয়ে দৃ strong ় যুক্তিযুক্ত ক্ষমতা প্রদর্শন করে ও 1-মিনিট এবং জিপিটি -4o এর সাথে একইভাবে সম্পাদন করে। তবে, বৃহত্তর মডেলগুলির এখনও বিস্তৃত ভাষা বোঝার জন্য বা দীর্ঘ প্রসঙ্গে উইন্ডোগুলি পরিচালনা করার জন্য কার্যগুলিতে একটি প্রান্ত রয়েছে, কারণ ছোট মডেলগুলি আরও বেশি কার্য-নির্দিষ্ট হতে থাকে।

তাদের শক্তি থাকা সত্ত্বেও, ছোট মডেলগুলি বর্ধিত যুক্তিযুক্ত কাজগুলির সাথে বা বিতরণের বাইরে থাকা ডেটার মুখোমুখি হওয়ার সাথে লড়াই করতে পারে। উদাহরণস্বরূপ, এলএলএম দাবা সিমুলেশনগুলিতে, ডিপসেক-আর 1 বৃহত্তর মডেলের চেয়ে বেশি ভুল করেছে, যা দীর্ঘ সময় ধরে ফোকাস এবং নির্ভুলতা বজায় রাখার ক্ষমতার সীমাবদ্ধতার পরামর্শ দেয়।

ট্রেড-অফস এবং ব্যবহারিক প্রভাব

জিপিটি-স্তরের এলআরএমএসের সাথে এসআরএমগুলির তুলনা করার সময় মডেল আকার এবং পারফরম্যান্সের মধ্যে বাণিজ্য-অফগুলি গুরুত্বপূর্ণ। ছোট মডেলগুলির জন্য কম মেমরি এবং গণনামূলক শক্তি প্রয়োজন, এগুলি এজ ডিভাইস, মোবাইল অ্যাপস বা এমন পরিস্থিতিতে যেখানে অফলাইন অনুমানের প্রয়োজন হয় তাদের জন্য আদর্শ করে তোলে। এই দক্ষতার ফলে কম অপারেশনাল ব্যয় হয়, ডিপসেক-আর 1 এর মতো মডেলগুলি ও 1 এর মতো বৃহত্তর মডেলের তুলনায় চালানোর জন্য 96% কম দামে।

যাইহোক, এই দক্ষতা লাভ কিছু আপস সঙ্গে আসে। ছোট মডেলগুলি সাধারণত নির্দিষ্ট কাজের জন্য সূক্ষ্ম সুরযুক্ত, যা বৃহত্তর মডেলের তুলনায় তাদের বহুমুখিতা সীমাবদ্ধ করতে পারে। উদাহরণস্বরূপ, ডিপসেক-আর 1 গণিত এবং কোডিংয়ে দক্ষতা অর্জন করার সময়, এতে মাল্টিমোডাল সক্ষমতা নেই, যেমন চিত্রগুলি ব্যাখ্যা করার ক্ষমতা, যা জিপিটি -4O এর মতো বৃহত্তর মডেলগুলি পরিচালনা করতে পারে।

এই সীমাবদ্ধতা সত্ত্বেও, ছোট যুক্তিযুক্ত মডেলগুলির ব্যবহারিক অ্যাপ্লিকেশনগুলি বিশাল। স্বাস্থ্যসেবাতে, তারা ডায়াগনস্টিক সরঞ্জামগুলি শক্তি দিতে পারে যা স্ট্যান্ডার্ড হাসপাতালের সার্ভারগুলিতে মেডিকেল ডেটা বিশ্লেষণ করে। শিক্ষায়, এগুলি শিক্ষার্থীদের ধাপে ধাপে প্রতিক্রিয়া সরবরাহ করে ব্যক্তিগতকৃত টিউটরিং সিস্টেমগুলি বিকাশ করতে ব্যবহার করা যেতে পারে। বৈজ্ঞানিক গবেষণায়, তারা গণিত এবং পদার্থবিজ্ঞানের মতো ক্ষেত্রে ডেটা বিশ্লেষণ এবং হাইপোথিসিস পরীক্ষায় সহায়তা করতে পারে। ডিপসেক-আর 1 এর মতো মডেলগুলির মুক্ত-উত্স প্রকৃতি এছাড়াও সহযোগিতা উত্সাহিত করে এবং এআইয়ের অ্যাক্সেসকে গণতান্ত্রিক করে তোলে, ছোট সংস্থাগুলিকে উন্নত প্রযুক্তি থেকে উপকৃত করতে সক্ষম করে।

নীচের লাইন

ছোট যুক্তিযুক্ত মডেলগুলিতে ভাষার মডেলগুলির বিবর্তন এআই -তে একটি উল্লেখযোগ্য অগ্রগতি। যদিও এই মডেলগুলি এখনও বৃহত্তর ভাষার মডেলগুলির বিস্তৃত দক্ষতার সাথে পুরোপুরি মেলে না, তবে তারা দক্ষতা, ব্যয়-কার্যকারিতা এবং অ্যাক্সেসযোগ্যতার মূল সুবিধাগুলি সরবরাহ করে। যুক্তি শক্তি এবং সংস্থান দক্ষতার মধ্যে ভারসাম্য বজায় রেখে, ছোট মডেলগুলি বিভিন্ন অ্যাপ্লিকেশন জুড়ে গুরুত্বপূর্ণ ভূমিকা পালন করতে প্রস্তুত, এআইকে বাস্তব-বিশ্বের ব্যবহারের জন্য আরও ব্যবহারিক এবং টেকসই করে তোলে।