Дом >  Новости >  Компактная сила ИИ: бросает вызов GPT?

Компактная сила ИИ: бросает вызов GPT?

by Hannah Apr 07,2025

В последние годы поле ИИ была очарована успехом моделей крупных языков (LLMS). Первоначально разработанные для обработки естественного языка, эти модели превратились в мощные инструменты рассуждений, способные решать сложные проблемы с человеческим, пошаговым процессом мышления. Тем не менее, несмотря на их исключительные способности рассуждения, LLM имеют значительные недостатки, включая высокие вычислительные затраты и медленные скорости развертывания, что делает их нецелесообразными для реального использования в условиях, ограниченных ресурсами, таких как мобильные устройства или вычисления с краями. Это привело к растущему интересу к разработке более мелких и более эффективных моделей, которые могут предложить аналогичные возможности рассуждений, в то же время минимизируя затраты и потребности в ресурсах. В этой статье рассматривается рост этих небольших моделей рассуждений, их потенциал, проблемы и последствия для будущего ИИ.

Сдвиг в перспективе

В течение большей части недавней истории ИИ эта область следовала принципу «законов масштабирования», который предполагает, что производительность модели прогнозируется, как и ожидалось, как данные, вычисление мощности и увеличение размера модели. Хотя этот подход дал мощные модели, он также привел к значительным компромиссам, включая высокие затраты на инфраструктуру, воздействие на окружающую среду и проблемы с задержкой. Не все приложения требуют полных возможностей массовых моделей с сотнями миллиардов параметров. Во многих практических случаях, таких как помощники на поступлении, здравоохранение и образование, модели, модели, могут достичь аналогичных результатов, если они могут эффективно рассуждать.

Понимание рассуждений в ИИ

Рассуждение в ИИ относится к способности модели следовать логическим цепям, понимать причину и следствие, вывести последствия, планировать шаги в процессе и выявлять противоречия. Для языковых моделей это часто означает не только получение информации, но и манипулирование и вывод информации с помощью структурированного пошагового подхода. Этот уровень рассуждений обычно достигается тонкой настройкой LLM для выполнения многоэтапных рассуждений, прежде чем прийти к ответу. Несмотря на эффективные, эти методы требуют значительных вычислительных ресурсов и могут быть медленными и дорогостоящими в развертывании, что вызывает обеспокоенность по поводу их доступности и воздействия на окружающую среду.

Понимание небольших моделей рассуждений

Небольшие модели рассуждений направлены на то, чтобы воспроизвести возможности рассуждений крупных моделей, но с большей эффективностью с точки зрения вычислительной мощности, использования памяти и задержки. Эти модели часто используют технику, называемую дистилляцией знаний, где меньшая модель («Студент») учится на более крупной, предварительно обученной модели («Учитель»). Процесс дистилляции включает в себя обучение меньшей модели данных, генерируемым более крупной, с целью передачи способности рассуждения. Студенческая модель затем настраивается, чтобы улучшить свою производительность. В некоторых случаях применяется обучение подкреплению со специализированными функциями вознаграждения, специфичных для домена, применяется для дальнейшего повышения способности модели выполнять специфические для задачи мышления.

Рост и достижения малых моделей рассуждений

Примечательная веха в разработке небольших моделей рассуждений была с выпуском DeepSeek-R1. Несмотря на то, что DeepSeek-R1 был обучен на относительно скромном кластере более старых графических процессоров, достиг производительности, сравнимой с более крупными моделями, такими как O1 OpenAI, на критериях, таких как MMLU и GSM-8K. Это достижение привело к пересмотру традиционного подхода к масштабированию, который предполагал, что более крупные модели были по своей природе выше.

Успех DeepSeek-R1 может быть связан с его инновационным процессом обучения, который сочетает в себе крупномасштабное обучение подкреплению, не полагаясь на контролируемую тонкую настройку на ранних этапах. Это инновация привела к созданию DeepSeek-R1-Zero, модели, которая продемонстрировала впечатляющие способности рассуждения по сравнению с большими моделями рассуждений. Дальнейшие улучшения, такие как использование данных о холодном начале, повышение когерентности и выполнения задач модели, особенно в таких областях, как математика и код.

Кроме того, методы дистилляции оказались решающими в разработке более мелких и более эффективных моделей из более крупных. Например, DeepSeek выпустила дистиллированные версии своих моделей с размерами от 1,5 до 70 миллиардов параметров. Используя эти модели, исследователи обучили гораздо меньшую модель, DeepSeek-R1-Distill-QWEN-32B, который превзошел O1-Mini OpenAI по различным критериям. Эти модели в настоящее время развернуты со стандартным оборудованием, что делает их более жизнеспособным вариантом для широкого спектра приложений.

Могут ли небольшие модели соответствовать рассуждениям на уровне GPT?

Чтобы оценить, могут ли небольшие модели рассуждений (SRM) соответствовать мощности рассуждений крупных моделей (LRM), таких как GPT, важно оценить их производительность по стандартным критериям. Например, модель DeepSeek-R1 набрала около 0,844 на тесте MMLU, сравнимой с более крупными моделями, такими как O1. На наборе данных GSM-8K, который фокусируется на математике школы класса, дистиллированная модель DeepSeek-R1 достигла производительности высшего уровня, превысив как O1, так и O1-Mini.

В задачах кодирования, таких как задачи на LiveCodebench и Codeforces, дистиллированные модели DeepSeek-R1 выполняли аналогично O1-Mini и GPT-4O, демонстрируя сильные возможности рассуждения в программировании. Тем не менее, более крупные модели по-прежнему имеют преимущество в задачах, требующих более широкого понимания языка или обработки длинных контекстных окон, поскольку более мелкие модели, как правило, более специфичны для задач.

Несмотря на их сильные стороны, небольшие модели могут бороться с расширенными задачами рассуждений или при столкновении с данными за пределами распределения. Например, при шахматном моделировании LLM DeepSeek-R1 допустил больше ошибок, чем более крупные модели, что предлагает ограничения в его способности поддерживать фокус и точность в течение длительных периодов времени.

Компромиссы и практические последствия

Компромисс между размером модели и производительностью имеют решающее значение при сравнении SRM с LRM на уровне GPT. Меньшие модели требуют меньше памяти и вычислительной мощности, что делает их идеальными для устройств, мобильных приложений или ситуаций, где необходим автономный вывод. Эта эффективность приводит к более низким эксплуатационным затратам, при этом модели, такие как DeepSeek-R1, на 96% дешевле, чем более крупные модели, такие как O1.

Тем не менее, эти повышения эффективности поставляются с некоторыми компромиссами. Меньшие модели, как правило, настраиваются на определенные задачи, которые могут ограничить их универсальность по сравнению с более крупными моделями. Например, в то время как DeepSeek-R1 превосходит по математике и кодированию, ему не хватает мультимодальных возможностей, таких как способность интерпретировать изображения, с которыми могут обращаться более крупные модели, такие как GPT-4O.

Несмотря на эти ограничения, практические применения моделей небольших рассуждений обширны. В здравоохранении они могут питать диагностические инструменты, которые анализируют медицинские данные на стандартных больничных серверах. В образовании их можно использовать для разработки персонализированных систем обучения, обеспечивая пошаговую обратную связь для студентов. В научных исследованиях они могут помочь с анализом данных и тестированием гипотез в таких областях, как математика и физика. Характер с открытым исходным кодом, таких как DeepSeek-R1, также способствует сотрудничеству и демократизирует доступ к ИИ, что позволяет небольшим организациям извлечь выгоду из передовых технологий.

Суть

Эволюция языковых моделей в более мелкие модели рассуждений является значительным прогрессом в ИИ. Хотя эти модели еще не могут полностью соответствовать широким возможностям крупных языковых моделей, они предлагают ключевые преимущества в эффективности, экономической эффективности и доступности. Выразив баланс между рассуждением мощностью и эффективностью ресурсов, более мелкие модели будут играть важную роль в различных приложениях, что делает ИИ более практичным и устойчивым для реального использования.

Трендовые игры Более >