Intelligenza applicata ai robot: VLA, LBM e autonomia (marzo 2026) | Autonomos.city

Robot umanoidi & AI

Intelligenza applicata ai robot: cos'è, quando ha senso parlarne, stato dell'arte (marzo 2026)

Generalizzazione, autonomia, robustezza. VLA/LBM, manipolazione, whole-body control e quando un robot è davvero "intelligente".

Articolo della serie su Robot umanoidi (marzo 2026). Altri approfondimenti: Applicazioni quotidiane dei robot, Infrastruttura dei robot (dal codice al cliente).

Smettiamola subito di fare confusione: un robot non è “intelligente” perché sembra umano o perché cammina. È “intelligente” solo quando riesce in queste operazioni:

percepire il mondo in modo provato,
scegliere un’azione corretta in contesti variabili,
eseguire quell’azione con controllo accurato,
correggersi quando qualcosa va storto,
e farlo con un livello di autonomia utile (cioè: senza un operatore umano che lo “telecomanda” ogni due minuti).

Nel 2026 la robotica umanoide sta vivendo lo stesso passaggio che abbiamo visto con gli LLM: si sta spostando da “moduli separati” (visione da una parte, controllo dall’altra, planner a parte) verso modelli più unificati che imparano comportamenti complessi con grandi dataset e apprendimento per imitazione/rafforzamento.

Ma la differenza è sostanziale: nel linguaggio, se sbagli, fai una frase stupida. Nel mondo fisico, se sbagli, rompi cose o fai male a qualcuno.

Cosa intendiamo per “intelligenza” in robotica

Quando i produttori e i ricercatori dicono “intelligenza” in robotica, di solito stanno parlando di una (o più) di queste tre cose:

Generalizzazione

Il robot non deve riuscire a fare “quel task” in “quella demo”, ma una famiglia di task simili in ambienti simili, senza riprogrammazione manuale pesante.

Autonomia a lungo orizzonte

Non 10 secondi. Non 30 secondi. Ma minuti/ore di lavoro utile senza reset, senza “assistenza invisibile”, senza che il sistema crolli al primo evento non previsto.

Robustezza e recupero dall’errore

L’intelligenza vera non è fare tutto perfetto quando va bene. È recuperare quando va male: oggetto che scivola, ostacolo imprevisto, cassetto che non si apre, superficie diversa, forza sbagliata, ecc.

Se manca uno di questi tre, chiamarla intelligenza è marketing.

Stato dell'arte 2026: cosa sta cambiando davvero

A) Dalla “pipeline a blocchi” ai modelli VLA/LBM

Per anni lo stack tipico era: visione → riconoscimento → pianificazione → controllo (con componenti separati, regole e tuning).

Nel 2026 sta prendendo piede una tendenza più “end-to-end”: modelli che collegano percezione + linguaggio + azione.

Si parla di Vision-Language-Action (VLA): modelli che da immagini (e testo) producono azioni.
In parallelo, Toyota Research Institute + Boston Dynamics parlano di Large Behavior Models (LBM) per comportamento generalista (locomozione + manipolazione) come blocco unico.
Figure ha pubblicato Helix 02 come sistema neurale unico “full body” guidato da pixel.
NVIDIA sta spingendo fortissimo su “Physical AI” con modelli VLA (Isaac GR00T) orientati a umanoidi.

La realtà delle cose: un modello unificato può migliorare la generalizzazione, ma introduce un problema enorme: debug e safety diventano più difficili. Lo abbiamo imparato nei software prima e nei modelli AI dopo. Se hai una pipeline a blocchi, puoi isolare l’errore. Se hai un end-to-end, l’errore può essere “ovunque”.

B) La manipolazione è ancora il collo di bottiglia (le mani “non bastano”)

Nel 2026 la locomozione sta diventando “una commodity” per molti casi. La manipolazione fine no. Le mani prensili sono inutili senza:

controllo di forza e contatto (non solo posizione),
tattile per capire micro-slip e contatto reale,
strategie di presa robuste.

Non a caso il tattile è tornato centrale: sensori come DIGIT/GelSight e varianti stanno puntando a dare ai robot una “pelle” che vede il contatto. Al momento infatti, Unitree non mostra ancora “le mani” ma solo movimenti di locomozione scenici, come il Kung-Fu.

E la letteratura recente ribadisce la stessa cosa: il tattile serve per destrezza, gestione dello slittamento e manipolazione delicata.

Quindi quando vedi un umanoide “fare la lavastoviglie” o “riordinare”, la domanda non è “wow”. È:

è autonomo o teleoperato?
quante volte riesce di fila?
cosa succede quando un piatto è bagnato e scivola?
cosa succede se l’anta è dura?
quante eccezioni servono?
Come gestisce le eccezioni?

C) Whole-body control: piedi come “mani” e corpo come un unico sistema

Un umanoide non è un braccio su ruote. È un sistema instabile. Quando prende un oggetto, deve bilanciarsi, spostare il baricentro, compensare forze.

Qui il progresso reale è passare da “controller separati” a strategie che trattano il corpo intero come un’unica catena di controllo. Una sequenza di istruzioni con una lista di eccezioni enorme.

TRI/Boston Dynamics hanno mostrato progressi su whole-body manipulation + locomotion con modelli unificati.
Boston Dynamics stessa posiziona Atlas elettrico come piattaforma per whole-body mobility e bimanual manipulation.

D) Come imparano oggi gli umanoidi

I tre pilastri pratici dell’apprendimento nel 2026 sono:

Teleoperazione / imitazione

Umani che guidano il robot (o braccia/mani) per generare dataset di traiettorie. È uno dei modi più affidabili per addestrare manipolazione. (Figure cita esplicitamente training con ore di teleop per Helix in passato; Helix 02 è evoluzione).

Simulazione (sim-to-real)

Addestri in simulatori fisici e poi trasferisci. Funziona bene per locomozione e alcune manipolazioni, ma il gap su contatto e attrito resta duro.

Reinforcement learning / policy learning

Ottimo per comportamenti motori, ma richiede dati, tentativi e infrastruttura.

La cosa che dobbiamo capire ora: nel 2026 i progressi “improvvisi” spesso arrivano da più dati + modelli più grandi + migliori rappresentazioni, non da una formula magica nuova.

Quando ha senso dire “questo robot è intelligente”

Possiamo smascherare il 90% delle demo con questi criteri -almeno per il momento-.

1) Autonomia verificabile

Può fare un compito per minuti/ore senza reset?
Se si inceppa, recupera?

2) Generalizzazione misurabile

Stesso task su oggetti diversi, posizioni diverse, illuminazione diversa, attrito diverso.

3) Manipolazione con contatto reale

Non “afferra la scatola sempre uguale”.
Ma gestisce deformazioni, slittamento, oggetti fragili.

4) Safety integrata

Forze limitate, zone sicure, arresto affidabile, log e audit.

(Se questa parte manca, non è “AI”, è “rischio legale”.)

Il punto che nessuno dice chiaramente

A marzo 2026, la maggior parte degli umanoidi “intelligenti” è ancora in una fase dove (vedi Robot umanoidi (marzo 2026) per scenario e produttori):

la dimostrazione è più avanti del prodotto, oppure
il prodotto è più avanti dell’autonomia, cioè è vendibile solo in contesti molto controllati, con supporto pesante.

E non è una critica: è fisica + ingegneria + safety + supply chain.

Se oggi dovessi acquistarne uno non comprerei storytelling ma uptime, metriche, contratti, capacità di assistenza.

Serie: Robot umanoidi (marzo 2026)

Robot umanoidi (marzo 2026) — scenario e produttori
Applicazioni quotidiane dei robot
Infrastruttura dei robot (dal codice al cliente)

Facebook Tweet LinkedIn Email