Intelligenza applicata ai robot: cos'è, quando ha senso parlarne, stato dell'arte (marzo 2026)
Generalizzazione, autonomia, robustezza. VLA/LBM, manipolazione, whole-body control e quando un robot è davvero "intelligente".
Articolo della serie su Robot umanoidi (marzo 2026). Altri approfondimenti: Applicazioni quotidiane dei robot, Infrastruttura dei robot (dal codice al cliente).
Smettiamola subito di fare confusione: un robot non è “intelligente” perché sembra umano o perché cammina. È “intelligente” solo quando riesce in queste operazioni:
- percepire il mondo in modo provato,
- scegliere un’azione corretta in contesti variabili,
- eseguire quell’azione con controllo accurato,
- correggersi quando qualcosa va storto,
- e farlo con un livello di autonomia utile (cioè: senza un operatore umano che lo “telecomanda” ogni due minuti).
Nel 2026 la robotica umanoide sta vivendo lo stesso passaggio che abbiamo visto con gli LLM: si sta spostando da “moduli separati” (visione da una parte, controllo dall’altra, planner a parte) verso modelli più unificati che imparano comportamenti complessi con grandi dataset e apprendimento per imitazione/rafforzamento.
Ma la differenza è sostanziale: nel linguaggio, se sbagli, fai una frase stupida. Nel mondo fisico, se sbagli, rompi cose o fai male a qualcuno.
Cosa intendiamo per “intelligenza” in robotica
Quando i produttori e i ricercatori dicono “intelligenza” in robotica, di solito stanno parlando di una (o più) di queste tre cose:
- Generalizzazione
Il robot non deve riuscire a fare “quel task” in “quella demo”, ma una famiglia di task simili in ambienti simili, senza riprogrammazione manuale pesante.
- Autonomia a lungo orizzonte
Non 10 secondi. Non 30 secondi. Ma minuti/ore di lavoro utile senza reset, senza “assistenza invisibile”, senza che il sistema crolli al primo evento non previsto.
- Robustezza e recupero dall’errore
L’intelligenza vera non è fare tutto perfetto quando va bene. È recuperare quando va male: oggetto che scivola, ostacolo imprevisto, cassetto che non si apre, superficie diversa, forza sbagliata, ecc.
Se manca uno di questi tre, chiamarla intelligenza è marketing.
Stato dell'arte 2026: cosa sta cambiando davvero
A) Dalla “pipeline a blocchi” ai modelli VLA/LBM
Per anni lo stack tipico era: visione → riconoscimento → pianificazione → controllo (con componenti separati, regole e tuning).
Nel 2026 sta prendendo piede una tendenza più “end-to-end”: modelli che collegano percezione + linguaggio + azione.
- Si parla di Vision-Language-Action (VLA): modelli che da immagini (e testo) producono azioni.
- In parallelo, Toyota Research Institute + Boston Dynamics parlano di Large Behavior Models (LBM) per comportamento generalista (locomozione + manipolazione) come blocco unico.
- Figure ha pubblicato Helix 02 come sistema neurale unico “full body” guidato da pixel.
- NVIDIA sta spingendo fortissimo su “Physical AI” con modelli VLA (Isaac GR00T) orientati a umanoidi.
La realtà delle cose: un modello unificato può migliorare la generalizzazione, ma introduce un problema enorme: debug e safety diventano più difficili. Lo abbiamo imparato nei software prima e nei modelli AI dopo. Se hai una pipeline a blocchi, puoi isolare l’errore. Se hai un end-to-end, l’errore può essere “ovunque”.
B) La manipolazione è ancora il collo di bottiglia (le mani “non bastano”)
Nel 2026 la locomozione sta diventando “una commodity” per molti casi. La manipolazione fine no. Le mani prensili sono inutili senza:
- controllo di forza e contatto (non solo posizione),
- tattile per capire micro-slip e contatto reale,
- strategie di presa robuste.
Non a caso il tattile è tornato centrale: sensori come DIGIT/GelSight e varianti stanno puntando a dare ai robot una “pelle” che vede il contatto. Al momento infatti, Unitree non mostra ancora “le mani” ma solo movimenti di locomozione scenici, come il Kung-Fu.
E la letteratura recente ribadisce la stessa cosa: il tattile serve per destrezza, gestione dello slittamento e manipolazione delicata.
Quindi quando vedi un umanoide “fare la lavastoviglie” o “riordinare”, la domanda non è “wow”. È:
- è autonomo o teleoperato?
- quante volte riesce di fila?
- cosa succede quando un piatto è bagnato e scivola?
- cosa succede se l’anta è dura?
- quante eccezioni servono?
- Come gestisce le eccezioni?
C) Whole-body control: piedi come “mani” e corpo come un unico sistema
Un umanoide non è un braccio su ruote. È un sistema instabile. Quando prende un oggetto, deve bilanciarsi, spostare il baricentro, compensare forze.
Qui il progresso reale è passare da “controller separati” a strategie che trattano il corpo intero come un’unica catena di controllo. Una sequenza di istruzioni con una lista di eccezioni enorme.
- TRI/Boston Dynamics hanno mostrato progressi su whole-body manipulation + locomotion con modelli unificati.
- Boston Dynamics stessa posiziona Atlas elettrico come piattaforma per whole-body mobility e bimanual manipulation.
D) Come imparano oggi gli umanoidi
I tre pilastri pratici dell’apprendimento nel 2026 sono:
- Teleoperazione / imitazione
Umani che guidano il robot (o braccia/mani) per generare dataset di traiettorie. È uno dei modi più affidabili per addestrare manipolazione. (Figure cita esplicitamente training con ore di teleop per Helix in passato; Helix 02 è evoluzione).
- Simulazione (sim-to-real)
Addestri in simulatori fisici e poi trasferisci. Funziona bene per locomozione e alcune manipolazioni, ma il gap su contatto e attrito resta duro.
- Reinforcement learning / policy learning
Ottimo per comportamenti motori, ma richiede dati, tentativi e infrastruttura.
La cosa che dobbiamo capire ora: nel 2026 i progressi “improvvisi” spesso arrivano da più dati + modelli più grandi + migliori rappresentazioni, non da una formula magica nuova.
Quando ha senso dire “questo robot è intelligente”
Possiamo smascherare il 90% delle demo con questi criteri -almeno per il momento-.
1) Autonomia verificabile
- Può fare un compito per minuti/ore senza reset?
- Se si inceppa, recupera?
2) Generalizzazione misurabile
- Stesso task su oggetti diversi, posizioni diverse, illuminazione diversa, attrito diverso.
3) Manipolazione con contatto reale
- Non “afferra la scatola sempre uguale”.
- Ma gestisce deformazioni, slittamento, oggetti fragili.
4) Safety integrata
- Forze limitate, zone sicure, arresto affidabile, log e audit.
(Se questa parte manca, non è “AI”, è “rischio legale”.)
Il punto che nessuno dice chiaramente
A marzo 2026, la maggior parte degli umanoidi “intelligenti” è ancora in una fase dove (vedi Robot umanoidi (marzo 2026) per scenario e produttori):
- la dimostrazione è più avanti del prodotto, oppure
- il prodotto è più avanti dell’autonomia, cioè è vendibile solo in contesti molto controllati, con supporto pesante.
E non è una critica: è fisica + ingegneria + safety + supply chain.
Se oggi dovessi acquistarne uno non comprerei storytelling ma uptime, metriche, contratti, capacità di assistenza.