Ben Dickson

Crediti immagine: VentureBeat con Nano Banana

Una delle principali sfide nella distribuzione di agenti autonomi è la creazione di sistemi in grado di adattarsi ai cambiamenti del loro ambiente senza la necessità di riaddestrare i modelli linguistici di grandi dimensioni (LLM) sottostanti.Memento-Skills , un nuovo framework sviluppato da ricercatori di diverse università, affronta questo problema offrendo agli agenti la possibilità di sviluppare le proprie competenze in autonomia. “Aggiunge la sua capacità di apprendimento continuo all’offerta esistente sul mercato, come OpenClaw e Claude Code”, ha dichiarato Jun Wang, coautore dell’articolo, a VentureBeat.Memento-Skills funge da memoria esterna in continua evoluzione, consentendo al sistema di migliorare progressivamente le proprie capacità senza modificare il modello sottostante. Il framework fornisce un insieme di competenze che possono essere aggiornate ed espanse man mano che l’agente riceve feedback dal suo ambiente.Per i team aziendali che utilizzano agenti in produzione, questo è fondamentale. L’alternativa, ovvero la messa a punto dei pesi del modello o la creazione manuale delle competenze, comporta un notevole sovraccarico operativo e requisiti di dati considerevoli. Memento-Skills evita entrambi i problemi.Le sfide della costruzione di agenti auto-evolutiviGli agenti auto-evolutivi sono cruciali perché superano i limiti dei modelli linguistici statici. Una volta implementato, un modello mantiene i suoi parametri fissi, limitandolo alla conoscenza codificata durante l’addestramento e a tutto ciò che rientra nel suo contesto immediato.Fornire al modello un’impalcatura di memoria esterna gli consente di migliorare senza il costoso e lento processo di riaddestramento. Tuttavia, gli approcci attuali all’adattamento degli agenti si basano in gran parte su competenze progettate manualmente per gestire nuovi compiti. Sebbene esistano alcuni metodi di apprendimento automatico delle competenze, questi producono per lo più guide testuali che si riducono a una semplice ottimizzazione dei prompt. Altri approcci si limitano a registrare traiettorie relative a singoli compiti, che non sono trasferibili tra compiti diversi.Inoltre, quando questi agenti tentano di recuperare informazioni rilevanti per un nuovo compito, in genere si affidano a router di similarità semantica, come gli embedding densi standard; un’elevata sovrapposizione semantica non garantisce l’utilità comportamentale. Un agente che si affida a RAG standard potrebbe recuperare uno script per il “reset della password” per risolvere una query relativa all'”elaborazione dei rimborsi” semplicemente perché i documenti condividono la stessa terminologia aziendale.”La maggior parte dei sistemi di generazione aumentata tramite recupero (RAG) si basa sul recupero basato sulla similarità. Tuttavia, quando le competenze sono rappresentate come artefatti eseguibili, quali documenti Markdown o frammenti di codice, la sola similarità potrebbe non essere sufficiente a selezionare la competenza più efficace”, ha affermato Wang. Come Memento-Skills memorizza e aggiorna le competenzePer superare i limiti degli attuali sistemi agentici, i ricercatori hanno creato Memento-Skills. L’articolo descrive il sistema come “un sistema agentistico LLM generalista e in continuo apprendimento che funziona come un agente di progettazione di agenti”. Invece di tenere un registro passivo delle conversazioni passate, Memento-Skills crea una serie di abilità che fungono da memoria esterna persistente ed evolutiva.Apprendimento riflessivo di lettura e scritturaApprendimento riflessivo di lettura e scrittura (fonte: arXiv)Queste competenze sono memorizzate come file Markdown strutturati e fungono da base di conoscenza in continua evoluzione dell’agente. Ogni artefatto di competenza riutilizzabile è composto da tre elementi principali. Contiene specifiche dichiarative che descrivono cos’è la competenza e come dovrebbe essere utilizzata. Include istruzioni e suggerimenti specializzati che guidano il ragionamento del modello linguistico. E contiene il codice eseguibile e gli script di supporto che l’agente esegue per risolvere effettivamente il compito.Memento-Skills realizza l’apprendimento continuo attraverso il suo meccanismo di “apprendimento riflessivo di lettura-scrittura”, che inquadra gli aggiornamenti della memoria come un’iterazione attiva della politica piuttosto che come una registrazione passiva dei dati. Quando si trova di fronte a un nuovo compito, l’agente interroga un router di competenze specializzato per recuperare la competenza più rilevante dal punto di vista comportamentale, non solo quella semanticamente più simile, e la esegue.Dopo che l’agente esegue l’abilità e riceve un feedback, il sistema riflette sul risultato per chiudere il ciclo di apprendimento. Invece di limitarsi ad aggiungere un registro di ciò che è accaduto, il sistema modifica attivamente la propria memoria. Se l’esecuzione fallisce, un orchestratore valuta la traccia e riscrive gli artefatti dell’abilità. Ciò significa che aggiorna direttamente il codice o richiede di correggere la specifica modalità di errore. In caso di necessità, crea un’abilità completamente nuova.Memento-Skills aggiorna anche il sistema di instradamento delle competenze attraverso un processo di apprendimento per rinforzo offline in un’unica fase, che apprende dal feedback sull’esecuzione anziché dalla semplice sovrapposizione di testo. “Il vero valore di una competenza risiede nel modo in cui contribuisce al flusso di lavoro complessivo dell’agente e all’esecuzione successiva”, ha affermato Wang. “Pertanto, l’apprendimento per rinforzo fornisce un quadro più adatto, in quanto consente all’agente di valutare e selezionare le competenze in base all’utilità a lungo termine.”Quadro di riferimento Memento-SkillsFramework Memento-Skills (fonte: arXiv)Per prevenire regressioni in un ambiente di produzione, le modifiche automatiche delle competenze sono protette da un gate di test unitario automatico. Il sistema genera un caso di test sintetico, lo esegue tramite la competenza aggiornata e verifica i risultati prima di salvare le modifiche nella libreria globale.Riscrivendo e perfezionando continuamente i propri strumenti eseguibili, Memento-Skills permette a un modello linguistico “congelato” di sviluppare una solida memoria muscolare ed espandere progressivamente le proprie capacità in modo completo.Mettere alla prova l’agente autoevolutivoI ricercatori hanno valutato Memento-Skills utilizzando due rigorosi benchmark. Il primo è General AI Assistants (GAIA), che richiede ragionamenti complessi a più fasi, gestione multimodale, navigazione web e utilizzo di strumenti. Il secondo è Humanity’s Last Exam (HLE), un benchmark di livello esperto che abbraccia otto diverse discipline accademiche come matematica e biologia. L’intero sistema era basato su Gemini-3.1-Flash, che fungeva da modello linguistico sottostante.Il sistema è stato confrontato con un sistema di riferimento Read-Write che recupera le competenze e raccoglie feedback, ma non possiede funzionalità di auto-evoluzione. I ricercatori hanno anche testato il loro router di competenze personalizzato rispetto a sistemi di riferimento standard per il recupero semantico, inclusi gli embedding BM25 e Qwen3 .Prestazione basata sulle abilità mnemonichePrestazioni sul benchmark GAIA (abilità di memoria vs. lettura-scrittura) (fonte: arXiv)I risultati hanno dimostrato che la memoria auto-evolutiva attiva supera di gran lunga una libreria di competenze statica. Sul benchmark GAIA, caratterizzato da un’elevata diversità, Memento-Skills ha migliorato l’accuratezza del set di test di 13,7 punti percentuali rispetto alla baseline statica, raggiungendo il 66,0% contro il 52,3%. Sul benchmark HLE, dove la struttura del dominio ha consentito un massiccio riutilizzo delle competenze tra i diversi compiti, il sistema ha più che raddoppiato le prestazioni della baseline, passando dal 17,9% al 38,7%.Inoltre, il router di competenze specializzato di Memento-Skills evita la classica trappola del recupero in cui viene selezionata una competenza irrilevante semplicemente per somiglianza semantica. Gli esperimenti dimostrano che Memento-Skills aumenta il tasso di successo end-to-end delle attività all’80%, rispetto al solo 50% del recupero standard BM25.I ricercatori hanno osservato che Memento-Skills gestisce queste prestazioni attraverso una crescita delle competenze altamente organica e strutturata. Entrambi gli esperimenti di benchmark sono iniziati con sole cinque competenze di base, come la ricerca web elementare e le operazioni da terminale. Nel benchmark GAIA, l’agente ha espanso autonomamente questo gruppo iniziale in una libreria compatta di 41 competenze per gestire i diversi compiti. Nel benchmark HLE di livello esperto, il sistema ha scalato dinamicamente la sua libreria fino a 235 competenze distinte. Sviluppo delle competenze di memoriaMemento-Skills parte da un insieme di competenze di base (stelle) e ne sviluppa altre (cerchi) man mano che risolve i compiti (fonte: arXiv).Trovare il punto di equilibrio ideale per l’impresaI ricercatori hanno pubblicato il codice sorgente di Memento-Skills su GitHub , ed è immediatamente disponibile per l’utilizzo.Per gli architetti aziendali, l’efficacia di questo sistema dipende dall’allineamento con il dominio. Invece di limitarsi a esaminare i punteggi di riferimento, il compromesso aziendale fondamentale sta nel capire se gli agenti gestiscono attività isolate o flussi di lavoro strutturati.”Il trasferimento di competenze dipende dal grado di somiglianza tra i compiti”, ha affermato Wang. “In primo luogo, quando i compiti sono isolati o debolmente correlati, l’agente non può fare affidamento sull’esperienza pregressa e deve apprendere attraverso l’interazione.” In tali ambienti eterogenei, il trasferimento tra compiti è limitato. “In secondo luogo, quando i compiti condividono una struttura sostanziale, le competenze acquisite in precedenza possono essere riutilizzate direttamente. In questo caso, l’apprendimento diventa più efficiente perché la conoscenza si trasferisce tra i compiti, consentendo all’agente di ottenere buoni risultati su nuovi problemi con poca o nessuna interazione aggiuntiva.”Dato che il sistema richiede schemi di attività ricorrenti per consolidare le conoscenze, i dirigenti aziendali devono sapere esattamente dove implementarlo oggi e dove invece è meglio rimandare.”I flussi di lavoro sono probabilmente il contesto più appropriato per questo approccio, in quanto forniscono un ambiente strutturato in cui le competenze possono essere composte, valutate e migliorate”, ha affermato Wang.Tuttavia, ha messo in guardia contro un eccessivo impiego in aree non ancora adatte al framework. “Gli agenti fisici rimangono in gran parte inesplorati in questo contesto e richiedono ulteriori indagini. Inoltre, i compiti con orizzonti temporali più lunghi potrebbero richiedere approcci più avanzati, come i sistemi LLM multi-agente, per consentire il coordinamento, la pianificazione e l’esecuzione continuativa su sequenze prolungate di decisioni.”Con l’evoluzione del settore verso agenti in grado di riscrivere autonomamente il proprio codice di produzione, la governance e la sicurezza rimangono di fondamentale importanza. Sebbene Memento-Skills utilizzi meccanismi di sicurezza di base come i gate automatici per i test unitari, per un’adozione a livello aziendale sarà probabilmente necessario un framework più ampio.”Per consentire un miglioramento personale affidabile, abbiamo bisogno di un sistema di valutazione o di giudizio ben progettato, in grado di valutare le prestazioni e fornire una guida coerente”, ha affermato Wang. “Anziché permettere un’automodificazione illimitata, il processo dovrebbe essere strutturato come una forma guidata di auto-sviluppo, in cui il feedback indirizza l’agente verso progetti migliori.”

error: Content is protected !!