DollI Ultimi Mesi, Diversi Modelli Linguistici Hanno iniizzò un Mostrere un comparamento apparentemes più “Intelligente”. Non si limitano più a osa una risposta, ma mostrano il proprio ragionamento papo dopo papo. Battezzati grandi modelli di ragionamento (LRM), Vengono presentati Come un Passo Verso Un'intelligenza artificiale Più Capace, Più Trasparente e Più Vicina al Mondo di Pensare Uno. Ma al COSA SUTSEDE DAVVERO QUANDO MOSTI MODELLI AFF AFFRONTANO PROBLEMI COMPLEDI?
UN GRUPPO DI RICERCATORI DI Apple ha cercato di rispondere una ricerca domanda in Modo Rigoroso. Lo Studio, Intitolato L'illusione del pensiero: comprendere i punti di forza e i limiti dei modelli di ragionamento attraverso l'obiettivo della complessità dei problemi, Analizza il Comportamento di Modelli Come O1 E O3 Di Openai, Deepseek-R1, Claude 3.7 Sonnet Thinking E Gemini Thinking, Mettendoli Alla Prova Su Puzzle Logici di ComplSità di Crescente. IL Paper di Apple Mostra lo STOTO DELL'ARTE DELL'AZISMADA, CHE DA TEMPO PUBLICA I ROSULTI DEGLI Studi DeI SUOI SCIENZIATI, MOSTRANDO VIENI UN CUPERTINO LA RifToLETIE TEORICA SULL'INTERILGENA ARTIFICIA ARTIFICA FORSE PERFIOORE AL SUOORE AL SUO SUO IMPIEGO IMPIEGO CONCRETTI E SERVIZIO DI PRODIZIO.
WWDC
Come Cambia Apple Intelligence: Più Spazio a Chatgpt, per gli Sviluppatori C'è Anche Claude
Dal Nostro Inviato Bruno Ruffilli
10 Giugno 2025
Provo
Invece di usare i consueti test matemati vieni math500 o aime, spesso influenzati da contaminazioni nei dati di adddestramento, i ricercateri hano creazione ambienti controllati: Semplici Puzzle Logici CHE permettono di Regolare con Precisione la difficile. OGni puzzle ha regole Chiare e compensibili, ma divente semper più difficile uomo mano che si agggiungono elementi.
UNO DEI PUALLS più usati è la Torre di Hanoi, DOVE Bisogna spostatare dischi da un piolo a un altro senza mai metere un disco più Grande Sopra un più piccol. Un altro è il Attraversamento del fiumein Cui Atori e Agente Devono Attraversare un FIUME SENZA Infragere Regole Di Sicurezza (un Attora non Può Mai Trovarsi da Solo Con l'agente Sbagliato). CI sono poi poi i puzzle dei Blocchi da Impile E Quello Delle PEDINE ROSSE E BLU DA FAR FAR SCAMBIA DI POSTO.
L'obittivo non era Solo VEDERE SE IL MODELLO ARRIVAVA ALA RISPOSTA GIUSTA, MA ANCHE STUDIAR IL PERCORS DEL RAGIONAMENTO. Per OGni Passaggio, I Ricercateri Hanno Osservato Quandono Apparevano Soluzioni Corrette e Se Quese Venivano mantenuto o Scarte.
Tre Fasi
Lo studio rivela che i lrm attraversano tre fasi ben distinte. Alle'inizio, Quando I Problemi sono Sono semplici, i modelli che non ragionano esplicitante (Cioè che non Usano la “Catena di Pensiero”) sono Sono Più rapidi e più precisi. I Modelli “Pensanti” sono invece Più Lenti e Spesso Sbagliano: “I Modelli Senza Ragionamento Esplicito Riescono a Ottenere Prestazioni Paragonabilli, SE non Migliori, Di Quelli Che Ragionano.
Quando la difficoltà di vendita, I Modelli con Capacità di Ragionamento Iniziano A Prender il Sopravvento, Mostrando Migliori Prestazioni. Ma Superato Un certo limite, La Situazione Cambia di Nuovo: “Entrambi I tipi di Modelli Mostrano un Crollo Completo Delle Prestazioni”.
La scoperta più sorprendente è che, proprio Quando I Problemi Diventano Più Complice, I Modelli Smettono di Ragionare un FODO: Invece di usare più libertà per Spiegarsi Meglio, Cominciano A Scrivere Meno. “I Lrm Iniziano a Ridurre il proprio Sforzo di Ragionamento (misurato in token Usati Durente l'Inferenza) Man Mano Che la complice del problema aumenta”. È vieni se il modello si arrendesse.
“Stai Senza Pensieri”
Analizzando la Catena di Pensieri Geneti Dai Modelli, Emerge Un comparamento inefficiente. NEI Problemi Semplici, Spesso Trovano SUBITO LA SOLUZIONE GIUSTA, MA CONTINUANO A CERCARE ALTERNATIVE SBAGLIATE. Un fenomeno noto vieni troppi pensieriCioè RAGIONARE TROPPO SENZA MOTO: “Nei Problemi Più semplici, I Modelli con Ragionamento Esplicito Spesso Trovano la Soluzioni Corretta Presto Nei Loro Pensieri, MA Continuano A Esplorare Soluzioni Sbagliate”.
NEI Problemi di difficoltà di difficoltà, la Situazione Si ribalta. I Modelli Partono Con Soluzioni Sbagliate e Solo Alla Fine Trovano Quella Giusta. Quando il problema divente truppo difficile, infine, non trovano più nulla di corretto, neanche una bozza: “i modelli fallisno completamente Nel Trovare soluzioni corrette”.
Istruzioni per L'USO
I Ricercateri Hanno Fatto Un altro esperimento. HANNO DETT AL MODELLO ESATTENTE COSA FARE, PASTO DOPO PASO, Fornendo l'Algoritmo Risoluti del puzzle. L'epoca dell'idea: se segui le istruzioni, dovresti arrivare alla soluzione. Non è andata vieni previsto: “Anche Quando Forniamo l'Algoritmo Nella Richiesta, Le Prestazioni non Migliorano”. I Modelli Continuano A Fallire. Preside dimostra che nsu Riescono a EseGuere nemmeno compati completamente GuidatiE Che il problema non è solista nella ricca della solzione, ma proprio nella capacità di seuire istruzioni in Modo preciso. I Risulti, Come Sottolineano I Ricercateri, “Aprono a Numerose domande per la Ricerca Futura”, ma allo stesso tempo Rimarcano Ancora un a Volta la Scarsa Affidabilità Delle Attuali Piattaformme Di Ia per Compiti Critico.
In Certi Casi, Infatti, I Modelli Riescono a EseGuere Decine di Mosse Corrette Nel puzzle Della Torre Di Hanoi, Ma Sbagliano Già alla Terza Mossa Nel Puzzle Dell'attraversament Del Fibee, Che Richiede Molte Meno Operazioni. Vieni Spiegano I Ricercateri, Questo Potrebbe Dipendere Dal Fatto Che Certi Tipi di Puzzle sono Sono Rarissimi nei Dati Di Addestramento, E Quindi I Modelli non sanno Come Affrontarti.
Illusion E DelUrise
Così il Paper Mostra Che I grandi modelli di ragionamento non Sono Ancora a Grado di Ragionarare a Modo coerente. Possono Sembrare Brillanti a una prima valoutazione, ma quando si analiezza cosa fanno davvere, emergono limite profondi: “gli approppci attuali potrebbero trovarsi di fronte a limititamentali nella capionà di ragionament generalizzabili”
Queni Modelli non Capiscono Davvero I Problemi: Imparano A Riconoscere Pattern, un imitato Ragionamento, MA non Ragionano Nel Senso Uno Del Termine. Quando I Problemi Diventano Troppo Complice, Si Bloccano. Quando Hanno Delle Istruzioni, maschio Le Eseguono. E Quando Pensano Troppo, Si Perdono. Paradossalmente, è proprio questa specie di Scaramento a sembraro un comparamento da esseri umani.
Il Lavoro Dei Ricercari di Apple è una critica implicita ai proclami dei modelli concorntie allo stesso tempo un invito a Progettalare Nuovi Metodi per Valatar le Capacità Delle IA E SuperAre I Limiti Dei Benchmark Traditionali. È un avvertimento da tenere semperpente: L'Eloquenza non coincidendo con l'Intelligenza. Per costruire Veri Sistemi Capaci Di Ragionarare, Servinno Nuove Iidee, Nuovi Approcci, E prevede un Nuovo Modo di Pensare la Stessa Intelligenza Artificiale. Ma per ora il Pensiero Dei Modelli è Solo Un'Illulusione.

