VB,C.Frazen
Nonostante crescano preoccupazione e scetticismo nei confronti della strategia di sviluppo e degli elevati impegni di spesa della startup statunitense di intelligenza artificiale OpenAI, i fornitori cinesi di intelligenza artificiale open source stanno intensificando la concorrenza e uno di loro ha addirittura raggiunto il modello proprietario a pagamento di punta di OpenAI, GPT-5, nei principali benchmark di prestazioni di terze parti con un nuovo modello gratuito.Il nuovo modello Kimi K2 Thinking della startup cinese di intelligenza artificiale Moonshot AI , rilasciato oggi, ha superato sia i concorrenti proprietari che quelli open-weight, conquistando la prima posizione nei benchmark di ragionamento, codifica e strumenti agentici.
Nonostante sia completamente open source, il modello ora supera GPT-5 di OpenAI, Claude Sonnet 4.5 (modalità Thinking) di Anthropic e Grok-4 di xAI in diverse valutazioni standard, un punto di svolta per la competitività dei sistemi di intelligenza artificiale aperti.
Gli sviluppatori possono accedere al modello tramite platform.moonshot.ai e kimi.com ; pesi e codice sono ospitati su Hugging Face . La versione open include API per chat, ragionamento e flussi di lavoro multi-strumento.
Gli utenti possono provare Kimi K2 Thinking direttamente tramite il suo sito web concorrente simile a ChatGPT e anche nello spazio Hugging Face.
Licenza Open Source Standard modificata
Moonshot AI ha rilasciato ufficialmente Kimi K2 Thinking con una licenza MIT modificata su Hugging Face.
La licenza garantisce pieni diritti commerciali e derivati, il che significa che i singoli ricercatori e sviluppatori che lavorano per conto di clienti aziendali possono accedervi liberamente e utilizzarla in applicazioni commerciali, ma aggiunge una restrizione:
“Se il software o un prodotto derivato serve più di 100 milioni di utenti attivi al mese o genera più di 20 milioni di dollari USA al mese di fatturato, il distributore deve visualizzare in modo ben visibile ‘Kimi K2’ sull’interfaccia utente del prodotto.”
Per la maggior parte delle applicazioni di ricerca e aziendali, questa clausola funziona come un requisito di attribuzione leggero, preservando al contempo le libertà delle licenze standard del MIT.
Ciò rende il K2 Thinking uno dei modelli di classe frontiera con licenza più permissiva attualmente disponibili.
Un nuovo leader di riferimento
Kimi K2 Thinking è un modello Mixture-of-Experts (MoE) costruito attorno a mille miliardi di parametri, di cui 32 miliardi attivati per inferenza.
Combina il ragionamento a lungo termine con l’uso strutturato di strumenti, eseguendo fino a 200-300 chiamate sequenziali di strumenti senza intervento umano.
Secondo i risultati dei test pubblicati da Moonshot, K2 Thinking ha ottenuto:
- 44,9% all’Ultimo Esame dell’Umanità (HLE) , un punteggio all’avanguardia;
- 60,2% su BrowseComp , un test di ragionamento e ricerca web agente;
- 71,3% su SWE-Bench Verified e 83,1% su LiveCodeBench v6 , valutazioni chiave della codifica;
- 56,3% su Seal-0 , un punto di riferimento per il recupero di informazioni nel mondo reale.

In tutte queste attività, K2 Thinking supera costantemente i punteggi corrispondenti di GPT-5 e sorpassa il precedente leader nella categoria open weight MiniMax-M2, rilasciato solo poche settimane prima dal rivale cinese MiniMax AI.
Il modello aperto supera i sistemi proprietari
GPT-5 e Claude Sonnet 4.5 Thinking restano i principali modelli proprietari di “pensiero”.
Tuttavia, nella stessa suite di benchmark, i punteggi di ragionamento agentico di K2 Thinking li superano entrambi : ad esempio, su BrowseComp il 60,2% del modello aperto supera nettamente il 54,9% di GPT-5 e il 24,1% di Claude 4.5.
K2 Thinking supera anche GPT-5 nel GPQA Diamond (85,7% contro 84,5%) e lo eguaglia nei compiti di ragionamento matematico come AIME 2025 e HMMT 2025 .
Solo in alcune configurazioni in modalità pesante, in cui GPT-5 aggrega più traiettorie, il modello proprietario riacquista la parità.
Il fatto che la versione completamente open-weight di Moonshot possa raggiungere o superare i punteggi di GPT-5 segna una svolta. Il divario tra sistemi a frontiera chiusa e modelli disponibili al pubblico si è di fatto colmato per il ragionamento e la codifica di fascia alta.
Superare MiniMax-M2: il precedente benchmark open source
Quando VentureBeat ha descritto MiniMax-M2 solo una settimana e mezza fa, è stato salutato come il “nuovo re degli LLM open source”, ottenendo i punteggi più alti tra i sistemi open-weight:
- τ²-Bench 77.2
- BrowseComp 44.0
- FinSearchComp-global 65.5
- SWE-Bench Verificato 69.4
Questi risultati hanno posizionato MiniMax-M2 a un livello di capacità prossimo a GPT-5 nell’uso di strumenti agentivi. Eppure Kimi K2 Thinking ora li eclissa di gran lunga.
Il risultato BrowseComp del 60,2% supera il 44,0% di M2, mentre il 71,3% verificato da SWE-Bench supera il 69,4%. Anche in compiti di ragionamento finanziario come FinSearchComp-T3 (47,4%), K2 Thinking ottiene risultati comparabili, pur mantenendo un ragionamento generale superiore.
Tecnicamente, entrambi i modelli adottano architetture sparse Mixture-of-Experts per l’efficienza di calcolo, ma la rete di Moonshot attiva più esperti e implementa un addestramento avanzato basato sulla quantizzazione (INT4 QAT).
Questo design raddoppia la velocità di inferenza rispetto alla precisione standard senza compromettere l’accuratezza, aspetto fondamentale per lunghe sessioni di “thinking-token” che raggiungono finestre di contesto di 256 k.
Ragionamento agentivo e utilizzo degli strumenti
La capacità distintiva di K2 Thinking risiede nella sua traccia di ragionamento esplicita. Il modello genera un campo ausiliario, reasoning_content, che rivela la logica intermedia prima di ogni risposta finale. Questa trasparenza preserva la coerenza anche in lunghe attività multi-turn e chiamate di strumenti multi-step.
Un’implementazione di riferimento pubblicata da Moonshot dimostra come il modello gestisce autonomamente un flusso di lavoro di “notiziario quotidiano”: richiamando strumenti di ricerca di date e web, analizzando i contenuti recuperati e componendo un output strutturato, il tutto mantenendo uno stato di ragionamento interno.
Questa autonomia end-to-end consente al modello di pianificare, ricercare, eseguire e sintetizzare le prove in centinaia di passaggi, rispecchiando la classe emergente di sistemi di “intelligenza artificiale agente” che operano con una supervisione minima.
Efficienza e accesso
Nonostante la sua scala da mille miliardi di parametri, il costo di esecuzione di K2 Thinking rimane modesto. Moonshot ne elenca l’utilizzo a:
- $0,15 / 1 M di token (cache hit)
- $0,60 / 1 M di token (cache miss)
- $2,50 / 1 M di token in uscita
Queste tariffe sono competitive anche rispetto al prezzo di input di 0,30 $ / output di 1,20 $ di MiniMax-M2 e di un ordine di grandezza inferiore a GPT-5 (input di 1,25 $ / output di 10 $).
Contesto comparativo: accelerazione a peso aperto
La rapida successione di M2 e K2 Thinking dimostra la rapidità con cui la ricerca open source sta conquistando i sistemi di frontiera. MiniMax-M2 ha dimostrato che i modelli open source potrebbero avvicinarsi alle capacità agentiche di classe GPT-5 a una frazione del costo di elaborazione. Moonshot ha ora ulteriormente ampliato questa frontiera, spingendo i pesi open oltre la parità, fino a raggiungere la leadership assoluta.
Entrambi i modelli si basano su un’attivazione sparsa per l’efficienza, ma il numero più elevato di attivazioni di K2 Thinking (32 B contro 10 B di parametri attivi) garantisce una maggiore fedeltà di ragionamento in tutti i domini. La sua scalabilità in fase di test, che espande i “token di pensiero” e i turni di chiamata degli strumenti, fornisce miglioramenti misurabili delle prestazioni senza necessità di riaddestramento, una caratteristica non ancora osservata in MiniMax-M2.
Prospettive tecniche
Moonshot segnala che K2 Thinking supporta l’inferenza INT4 nativa e contesti a 256 k-token con un degrado minimo delle prestazioni. La sua architettura integra quantizzazione, aggregazione di traiettorie parallele (“modalità pesante”) e routing Mixture-of-Experts ottimizzato per attività di ragionamento.
In pratica, queste ottimizzazioni consentono a K2 Thinking di supportare cicli di pianificazione complessi (compilazione, test, correzione, ricerca, analisi e riepilogo del codice) su centinaia di chiamate di strumenti. Questa capacità è alla base dei suoi risultati superiori su BrowseComp e SWE-Bench, dove la continuità del ragionamento è decisiva.
Enormi implicazioni per l’ecosistema dell’intelligenza artificiale
La convergenza di modelli aperti e chiusi a livello avanzato segnala un cambiamento strutturale nel panorama dell’intelligenza artificiale. Le aziende che un tempo si affidavano esclusivamente ad API proprietarie possono ora implementare alternative aperte che corrispondono al ragionamento di livello GPT-5, mantenendo al contempo il pieno controllo su pesi, dati e conformità.
La strategia di pubblicazione aperta di Moonshot segue il precedente stabilito da DeepSeek R1, Qwen3, GLM-4.6 e MiniMax-M2, ma lo estende al ragionamento agentico completo.
Per gli sviluppatori accademici e aziendali, K2 Thinking offre sia trasparenza che interoperabilità, ovvero la possibilità di ispezionare le tracce di ragionamento e di ottimizzare le prestazioni per agenti specifici del dominio.
L’arrivo di K2 Thinking segnala che Moonshot, una giovane startup fondata nel 2023 con investimenti da alcune delle più grandi aziende cinesi di app e tecnologia, è qui per partecipare a una competizione sempre più intensa, e arriva in un momento in cui la sostenibilità finanziaria dei principali attori dell’intelligenza artificiale è sempre più sotto esame.
Solo un giorno fa, Sarah Friar, CFO di OpenAI, ha scatenato polemiche dopo aver suggerito all’evento WSJ Tech Live che il governo degli Stati Uniti potrebbe alla fine dover fornire una “garanzia” per gli oltre 1,4 trilioni di dollari di impegni dell’azienda in elaborazione dati e data center, un commento ampiamente interpretato come una richiesta di garanzie sui prestiti sostenute dai contribuenti.
Sebbene Friar abbia poi chiarito che OpenAI non stava cercando un sostegno federale diretto, l’episodio ha riacceso il dibattito sulla portata e la concentrazione della spesa in conto capitale per l’intelligenza artificiale.
Con OpenAI, Microsoft, Meta e Google che gareggiano per assicurarsi la fornitura di chip a lungo termine, i critici mettono in guardia da una bolla di investimenti insostenibile e da una “corsa agli armamenti dell’IA” guidata più dalla paura strategica che dai rendimenti commerciali, una bolla che potrebbe “esplodere” e trascinare con sé l’intera economia globale in caso di esitazione o incertezza del mercato, dato che sono state effettuate così tante transazioni e valutazioni in previsione di continui ingenti investimenti nell’IA e di rendimenti massicci.
In questo contesto, le release open-weight di Moonshot AI e MiniMax esercitano una maggiore pressione sulle aziende statunitensi di intelligenza artificiale proprietaria e sui loro sostenitori affinché giustifichino l’entità degli investimenti e i percorsi verso la redditività.
Se un cliente aziendale può ottenere con la stessa facilità prestazioni comparabili o migliori da un modello di intelligenza artificiale cinese gratuito e open source rispetto a soluzioni di intelligenza artificiale proprietarie a pagamento come GPT-5 di OpenAI, Claude Sonnet 4.5 di Anthropic o Gemini 2.5 Pro di Google, perché dovrebbe continuare a pagare per accedere ai modelli proprietari? Già oggi, aziende di punta della Silicon Valley come Airbnb hanno sollevato perplessità per aver ammesso di utilizzare ampiamente alternative open source cinesi come Qwen di Alibaba rispetto alle offerte proprietarie di OpenAI. .
Per investitori e imprese, questi sviluppi suggeriscono che le capacità di intelligenza artificiale di fascia alta non sono più sinonimo di elevati investimenti in conto capitale. I sistemi di ragionamento più avanzati potrebbero ora provenire non più da aziende che costruiscono data center su larga scala, ma da gruppi di ricerca che ottimizzano architetture e quantizzazione per l’efficienza.
In questo senso, il dominio di riferimento di K2 Thinking non è solo una pietra miliare tecnica, ma strategica, che arriva in un momento in cui la domanda più importante del mercato dell’intelligenza artificiale si è spostata da quanto potenti possano diventare i modelli a chi può permettersi di sostenerli. .
Cosa significa per le imprese in futuro
Nel giro di poche settimane dall’ascesa di MiniMax-M2, Kimi K2 Thinking lo ha superato, insieme a GPT-5 e Claude 4.5, in quasi tutti i benchmark di ragionamento e agentici.
Il modello dimostra che i sistemi open-weight possono ora soddisfare o superare i modelli proprietari di frontiera sia in termini di capacità che di efficienza.
Per la comunità di ricerca sull’intelligenza artificiale, K2 Thinking rappresenta più di un semplice modello aperto: è la prova che la frontiera è diventata collaborativa.
Il modello di ragionamento più performante disponibile oggi non è un prodotto commerciale chiuso, ma un sistema open source accessibile a chiunque.