Kimi K2.5: “visual agentic intelligence” e perché questa release è più grossa di quanto sembri

Kimi (Moonshot AI) ha pubblicato Kimi K2.5 come evoluzione “agentica” e nativamente multimodale (testo + immagini + video), e l’ha impacchettata in modo molto più “prodotto” del solito: non solo weights e benchmark, ma modalità d’uso, tooling da developer, e perfino un pezzo di infrastruttura per ricostruire fiducia nell’ecosistema open-source. Di seguito ti smonto le novità tecniche più importanti (quelle che cambiano workflow, non la solita “+X su un benchmark”).

Non è “solo un modello”: 4 modalità operative (e una cambia le regole)

Su Kimi.com e Kimi App K2.5 arriva con 4 modalità:

K2.5 Instant (risposta rapida)
K2.5 Thinking (più ragionamento)
K2.5 Agent (tool-use/azioni)
K2.5 Agent Swarm (Beta) (multi-agente parallelo)

Questo è importante perché segnala una scelta chiara: K2.5 viene pensato come runtime con profili diversi, non come “un solo LLM e arrangiati”.

Nota pratica già qui: Agent Swarm è in beta e Kimi scrive che i free credits per provarlo sono disponibili per utenti paganti di fascia alta. Tradotto: la parte più “nuova” non è pensata per essere mass-market subito.

“Coding with Vision”: quando l’immagine/video diventa la specifica (e il debug diventa visivo)

La prima novità grossa è l’idea di coding con input visivi:

image/video-to-code: invece di descrivere a parole una UI, gliela fai vedere (screenshot o video) e chiedi di ricostruirla.
visual debugging: il modello ragiona su cosa vede (render, layout, output), prova una modifica, ricontrolla, itera.

Kimi porta esempi espliciti: ricostruzione di un sito “da video”, e capacità che derivano da vision-text joint pre-training su scala enorme, con l’idea che “vision e text non si rubano qualità a vicenda” quando sali abbastanza di scala.

Perché questa cosa, da developer, è diversa dal solito “multimodal”

Perché cambia l’input: la specifica non è più solo testo. Se devi fare front-end, spesso la richiesta reale è visiva: spaziature, ritmo delle animazioni, gerarchie, microinterazioni. Quando l’AI può prendere un video come “source of truth”, smetti di perdere mezz’ora a tradurre il visivo in parole.

Kimi Code: il tassello “Claude Code / Gemini CLI” ma con un dettaglio interessante

In parallelo al modello, Moonshot ha rilasciato Kimi Code, un tool per terminale integrabile in IDE come VSCode/Cursor/Zed. La parte davvero interessante (se vera nel quotidiano) è questa: supporta immagini e video come input e dichiara di scoprire/migrare skill e MCP già presenti nell’ambiente di lavoro.

Se funziona bene, è un acceleratore enorme per chi ha già:

MCP server locali (browser/devtools, repo tools, ecc.)
toolchain di script interni
“abilità” operative già in piedi

…perché riduce l’attrito di onboarding: “non devo rispiegare tutto a mano”.

Agent Swarm: “scaling out, not just up” (PARL, 100 sub-agenti, 1500 step)

Qui c’è la seconda botta vera.

Kimi presenta Agent Swarm come passaggio da “un agente più intelligente” a “tanti agenti coordinati”, e dice di averlo addestrato con Parallel-Agent Reinforcement Learning (PARL). Risultato dichiarato:

fino a 100 sub-agenti
fino a 1.500 step coordinati
senza ruoli predefiniti o workflow hardcoded

Questa è una tesi forte: non è tu che disegni la pipeline multi-agente, ma il modello che la autodirige.

Schermata principale di kimi.com con menù a tendina su come selezionare la modalità agentica "Swarm"

Cosa significa in pratica: invece di un agente che fa tutto in serie (ricerca → scrittura → verifica → refactor), puoi avere:

agente A che esplora alternative,
agente B che implementa,
agente C che valida/controlla edge cases,
agente D che prepara output “presentabile” (doc, slide, ecc.)

…in parallelo. È un salto di throughput, non solo di IQ.

Office productivity “seria”: Word/PDF, pivot, output lunghi

La terza area su cui Kimi spinge è la produttività “da ufficio”, con esempi molto concreti:

annotazioni in Word
modelli finanziari con Pivot Table
equazioni LaTeX in PDF
capacità di reggere output lunghi tipo paper da 10.000 parole o documenti da 100 pagine

Questa parte è meno sexy ma più monetizzabile: è dove i tool agentici diventano “collega operativo”, non “chatbot”.

La cosa più “matura”: Kimi Vendor Verifier (KVV) e la guerra al “non è lo stesso modello”

Moonshot ha anche open-sourcato Kimi Vendor Verifier (KVV), e qui c’è un messaggio sottotraccia molto chiaro:

Aprire i pesi non basta. Se ognuno hosta il modello con parametri/decoding diversi, preprocessing diverso, bug di KV cache o quantizzazione aggressiva, i risultati cambiano e tu non sai più se il problema è “del modello” o “dell’implementazione”.

KVV nasce proprio per distinguere capacità vs deployment. E cita problemi reali: in thinking mode hanno dovuto forzare temperature e top-p lato API e verificare che il contenuto “thinking” venga passato correttamente.

KVV propone un set di test “mirati” (OCRBench, MMMU Pro, stress test lunghi tipo AIME2025, toolcall consistency, ecc.) e promette un leaderboard pubblico dei vendor.

Per chi lavora con open-source in produzione, questa è una delle parti più utili: riduce il caos del “sì però su provider X va peggio”.

Riproducibilità: contesto 256k e settaggi dichiarati

Nel report Kimi specifica anche dettagli di test (temperatura/top-p) e un context length di 256k token per gli esperimenti K2.5. È un numero enorme lato UX (documenti lunghi, multi-file, ecc.), ma soprattutto è una nota di trasparenza utile.

Come si prova (e la nota sui piani / promo)

Ufficialmente K2.5 è disponibile via Kimi.com, Kimi App, API, e Kimi Code. E la pagina “model overview” di Kimi indica anche accesso gratuito con limiti d’uso.

Detto questo, la parte che tutti vogliono davvero provare oggi (cioè Agent Swarm) è esplicitamente beta e i “free credits” vengono citati per high-tier paid users. Quindi: sì, puoi usare K2.5, ma la feature più nuova non è “free for all”.

Bonus: Google lancia “Agentic Vision” in Gemini 3 Flash (27 Gen 2026)

Quasi in parallelo, Google ha annunciato Agentic Vision in Gemini 3 Flash. Il concetto è molto simile (ed è un segnale di trend): la visione non è più “uno sguardo e risposta”, ma un loop Think → Act → Observe, dove Act significa: il modello scrive ed esegue codice Python per fare crop/rotate/annotate, calcoli, conteggi, ecc., e poi rimette l’immagine trasformata nel contesto per osservare meglio.

Google dice anche una cosa misurabile: abilitare code execution con Gemini 3 Flash dà un boost consistente 5–10% su molti benchmark di visione. Possiamo dedurre davvero che “agentic vision” non è marketing, è l’evoluzione naturale (e ha una genealogia precisa)

Se metti insieme Kimi K2.5 e Gemini 3 Flash, esce una traiettoria chiara:

Tool-augmented multimodal agents: il passo successivo è rendere normale che un modello manipoli immagini con strumenti (Python, editor visuali, ecc.) dentro un ciclo.

Quindi “agentic vision” è, in pratica, la versione multimodale di una frase semplice: meno “indovina”, più “ispeziona e dimostra”.

E qui il punto finale: quando i modelli iniziano a toccare i pixel (crop, box, overlay) e a toccare l’ambiente (tool, file, documenti), diventano molto più affidabili nei task reali: UI debugging, documenti tecnici, planimetrie, tabelle dense, reportistica, QA visivo. È esattamente la direzione in cui si stanno muovendo sia Kimi sia Google (e non per caso).