Casa >  Notizia >  Potere di ragionamento di AI compatto: sfidare GPT?

Potere di ragionamento di AI compatto: sfidare GPT?

by Hannah Apr 07,2025

Negli ultimi anni, il campo AI è stato affascinato dal successo dei modelli di grandi dimensioni (LLM). Inizialmente progettati per l'elaborazione del linguaggio naturale, questi modelli si sono evoluti in potenti strumenti di ragionamento in grado di affrontare problemi complessi con un processo di pensiero graduale e graduale. Tuttavia, nonostante le loro eccezionali capacità di ragionamento, gli LLM sono dotati di significativi inconvenienti, tra cui elevati costi computazionali e velocità di distribuzione lente, rendendoli poco pratici per l'uso del mondo reale in ambienti limitati dalle risorse come dispositivi mobili o emendamento. Ciò ha portato a un crescente interesse nello sviluppo di modelli più piccoli ed efficienti che possono offrire capacità di ragionamento simili minimizzando i costi e le esigenze delle risorse. Questo articolo esplora l'ascesa di questi piccoli modelli di ragionamento, le loro potenziali, le loro sfide e le implicazioni per il futuro dell'IA.

Uno spostamento della prospettiva

Per gran parte della storia recente di AI, il campo ha seguito il principio delle "leggi sul ridimensionamento", il che suggerisce che le prestazioni del modello migliorano prevedibilmente con l'aumento dei dati, calcolare la potenza e l'aumento delle dimensioni del modello. Sebbene questo approccio abbia prodotto modelli potenti, ha anche portato a compromessi significativi, tra cui elevati costi di infrastruttura, impatto ambientale e problemi di latenza. Non tutte le applicazioni richiedono le capacità complete di modelli enormi con centinaia di miliardi di parametri. In molti casi pratici, come assistenti sul dispositivo, assistenza sanitaria e istruzione, i modelli più piccoli possono ottenere risultati simili se possono ragionare in modo efficace.

Comprensione del ragionamento nell'IA

Il ragionamento nell'intelligenza artificiale si riferisce alla capacità di un modello di seguire le catene logiche, comprendere la causa ed effetto, dedurre le implicazioni, pianificare le fasi in un processo e identificare le contraddizioni. Per i modelli linguistici, questo spesso significa non solo recuperare informazioni, ma anche manipolare e inferire informazioni attraverso un approccio strutturato e passo-passo. Questo livello di ragionamento è in genere raggiunto da LLMS di messa a punto per eseguire ragionamenti in più fasi prima di arrivare a una risposta. Sebbene efficaci, questi metodi richiedono risorse computazionali significative e possono essere lenti e costosi da distribuire, sollevando preoccupazioni sulla loro accessibilità e impatto ambientale.

Comprensione di piccoli modelli di ragionamento

Piccoli modelli di ragionamento mirano a replicare le capacità di ragionamento dei modelli di grandi dimensioni ma con maggiore efficienza in termini di potenza computazionale, utilizzo della memoria e latenza. Questi modelli spesso impiegano una tecnica chiamata distillazione della conoscenza, in cui un modello più piccolo (lo "studente") impara da un modello più ampio e pre-addestrato (il "insegnante"). Il processo di distillazione prevede la formazione del modello più piccolo sui dati generati da quello più grande, con l'obiettivo di trasferire la capacità di ragionamento. Il modello studentesco viene quindi messo a punto per migliorare le sue prestazioni. In alcuni casi, viene applicato l'apprendimento di rinforzo con funzioni di ricompensa specifiche per dominio specializzate per migliorare ulteriormente la capacità del modello di eseguire ragionamenti specifici per le attività.

L'ascesa e i progressi di piccoli modelli di ragionamento

Una pietra miliare notevole nello sviluppo di piccoli modelli di ragionamento è arrivata con il rilascio di DeepSeek-R1. Nonostante sia stato addestrato su un cluster relativamente modesto di GPU più vecchie, DeepSeek-R1 ha ottenuto prestazioni paragonabili a modelli più grandi come O1 di Openi su parametri di riferimento come MMLU e GSM-8K. Questo risultato ha portato a una riconsiderazione dell'approccio di ridimensionamento tradizionale, che ha ipotizzato che modelli più grandi fossero intrinsecamente superiori.

Il successo di DeepSeek-R1 può essere attribuito al suo processo di formazione innovativo, che ha combinato l'apprendimento di rinforzo su larga scala senza fare affidamento sulla messa a punto supervisionata nelle prime fasi. Questa innovazione ha portato alla creazione di DeepSeek-R1-Zero, un modello che ha dimostrato impressionanti capacità di ragionamento rispetto ai grandi modelli di ragionamento. Ulteriori miglioramenti, come l'uso dei dati di partenza a freddo, hanno migliorato la coerenza e l'esecuzione delle attività del modello, in particolare in aree come la matematica e il codice.

Inoltre, le tecniche di distillazione hanno dimostrato di essere cruciali nello sviluppo di modelli più piccoli ed efficienti da quelli più grandi. Ad esempio, DeepSeek ha rilasciato versioni distillate dei suoi modelli, con dimensioni che vanno da 1,5 a 70 miliardi di parametri. Usando questi modelli, i ricercatori hanno addestrato un modello molto più piccolo, DeepSeek-R1-Distill-Qwen-32B, che ha sovraperformato O1-Mini di Opens su vari benchmark. Questi modelli sono ora distribuibili con hardware standard, rendendoli un'opzione più praticabile per una vasta gamma di applicazioni.

I piccoli modelli possono abbinare il ragionamento a livello di GPT?

Per valutare se i piccoli modelli di ragionamento (SRMS) possono abbinare il potere di ragionamento dei grandi modelli (LRM) come GPT, è importante valutare le loro prestazioni sui parametri di riferimento standard. Ad esempio, il modello DeepSeek-R1 ha segnato circa 0,844 nel test MMLU, paragonabile a modelli più grandi come O1. Sul set di dati GSM-8K, che si concentra sulla matematica della scuola di grado, il modello distillato di Deepseek-R1 ha raggiunto le prestazioni di alto livello, superando sia O1 che O1-Mini.

Nelle attività di codifica, come quelle su LiveCodebench e codeformi, i modelli distillati di DeepEek-R1 hanno eseguito in modo simile a O1-Mini e GPT-4O, dimostrando forti capacità di ragionamento nella programmazione. Tuttavia, i modelli più grandi hanno ancora un vantaggio nelle attività che richiedono una comprensione del linguaggio più ampia o gestire finestre di contesto lunghe, poiché i modelli più piccoli tendono ad essere più specifici per le attività.

Nonostante i loro punti di forza, i piccoli modelli possono lottare con compiti di ragionamento estesi o di fronte a dati fuori distribuzione. Ad esempio, nelle simulazioni di scacchi LLM, DeepSeek-R1 ha commesso più errori rispetto ai modelli più grandi, suggerendo limiti nella sua capacità di mantenere la concentrazione e l'accuratezza per lunghi periodi.

Compromessi e implicazioni pratiche

I compromessi tra dimensioni del modello e prestazioni sono fondamentali quando si confrontano gli SRM con LRM a livello GPT. Modelli più piccoli richiedono meno memoria e potenza computazionale, rendendoli ideali per dispositivi Edge, app mobili o situazioni in cui è necessaria l'inferenza offline. Questa efficienza si traduce in minori costi operativi, con modelli come DeepSeek-R1 fino al 96% più economico da funzionare rispetto ai modelli più grandi come O1.

Tuttavia, questi guadagni di efficienza hanno alcuni compromessi. I modelli più piccoli sono in genere messi a punto per attività specifiche, che possono limitare la loro versatilità rispetto ai modelli più grandi. Ad esempio, mentre DeepSeek-R1 eccelle in matematica e codifica, manca di capacità multimodali, come la capacità di interpretare immagini, che possono gestire modelli più grandi come GPT-4O.

Nonostante questi limiti, le applicazioni pratiche di piccoli modelli di ragionamento sono vaste. Nell'assistenza sanitaria, possono alimentare strumenti diagnostici che analizzano i dati medici sui server ospedalieri standard. Nell'istruzione, possono essere utilizzati per sviluppare sistemi di tutoraggio personalizzati, fornendo feedback dettagliati agli studenti. Nella ricerca scientifica, possono aiutare con l'analisi dei dati e i test di ipotesi in campi come la matematica e la fisica. La natura open source di modelli come DeepSeek-R1 promuove anche la collaborazione e democratizza l'accesso all'IA, consentendo alle organizzazioni più piccole di beneficiare di tecnologie avanzate.

La linea di fondo

L'evoluzione dei modelli linguistici in modelli di ragionamento più piccoli è un progresso significativo nell'intelligenza artificiale. Mentre questi modelli potrebbero non corrispondere ancora a grandi capacità dei modelli di grandi dimensioni, offrono vantaggi chiave in efficienza, efficacia in termini di costi e accessibilità. Colpendo un equilibrio tra potere di ragionamento ed efficienza delle risorse, i modelli più piccoli sono destinati a svolgere un ruolo cruciale tra varie applicazioni, rendendo l'IA più pratica e sostenibile per l'uso del mondo reale.

Giochi di tendenza Di più >