L’AI agentica sta avanzando rapidamente, ma i sistemi attuali sono ancora molto lontani dal sostituire il lavoro umano qualificato. L’ultimo benchmark Remote Labor Index (RLI) di Scale AI e CAIS mostra che gli agenti riescono a completare solo il 2–3% delle attività freelance reali, nonostante le aspettative del settore puntino verso workflow completamente automatizzati.
Sebbene l’AI garantisca un reale aumento di produttività e un ROI concreto per le aziende che la adottano con disciplina, il divario tra esecuzione autonoma e performance lavorativa reale resta molto ampio. Capire dove gli agenti falliscono—ambiguità, workflow complessi, mancanza di giudizio, iterazione—e dove invece funzionano—task ripetitivi e strutturati—aiuta le aziende a investire con criterio evitando i miti dell’automazione totale.
Il Remote Labor Index è oggi il test più concreto di ciò che l’AI agentica può fare senza supervisione umana. Invece di usare task accademici, gli agenti hanno ricevuto veri lavori pagati da piattaforme freelance: scrittura, ricerca, data entry, design leggero e altre attività comuni. In questi scenari reali, il modello migliore ha completato solo il 2–3% delle attività. In termini economici: 1.810 dollari su 143.991. Un contrasto evidente con chi sostiene che gli agenti possano sostituire intere funzioni lavorative o automatizzare completamente il knowledge work.
Quattro principali categorie di errori sono emerse:
Il pattern è chiaro: i modelli brillano nei task discreti e ben delimitati, crollano quando la complessità aumenta.
Nonostante i limiti evidenziati dall’RLI, l’AI agentica produce già valore nelle imprese—ma non come autonomia completa.
Le architetture efficaci seguono un approccio strutturato:
È l’estensione logica delle automazioni aziendali attuali: strutturate, controllabili, prevedibili.
Anche quando funzionano, gli agenti introducono costi indiretti, già messi in evidenza dal recente studio di Rate Limited sugli agenti per il coding:
L’autonomia non è mai “gratis”: servono governance e controllo qualità.
Il divario tra automazione totale e valore di business è grande, ma non significa che l’AI non sia utile.
Il 74% delle aziende che misurano davvero il ROI della GenAI riporta ritorni positivi.
I benefici principali derivano da:
Gli agenti non devono sostituire le persone per creare valore.
Le organizzazioni devono calibrare le aspettative: gli AI agent non gestiranno interi reparti in autonomia nel breve periodo. Il valore viene dall’augmented work, non dalla sostituzione.
Gli investimenti devono concentrarsi su agenti specializzati per dominio, framework di governance, workflow human-in-the-loop e controllo dei costi. I vendor che promettono automazione end-to-end saranno sempre più valutati secondo metriche concrete e verificabili.
I settori che beneficeranno più rapidamente sono quelli con attività strutturate: customer support, operation finance, documentazione, workflow IT.
Le attività creative, strategiche o ambigue rimarranno guidate dagli esseri umani ancora per molto.
Siamo in una fase di transizione in cui l’AI amplifica le capacità umane ma non può sostituire i professionisti qualificati nella maggior parte dei casi d’uso.
Le aziende che comprendono questa realtà “middle-to-middle”—umani e agenti che lavorano insieme, ciascuno per ciò che sa fare meglio—otterranno i risultati migliori.
Le prossime innovazioni arriveranno da architetture agentiche progettate per specializzazione, trasparenza e collaborazione, non per autonomia totale.