Vai al contenuto

Intelligenza applicata ai robot

Intelligenza applicata ai robot: VLA, LBM e autonomia (marzo 2026) | Autonomos.city
Robot umanoidi & AI

Intelligenza applicata ai robot: cos'è, quando ha senso parlarne, stato dell'arte (marzo 2026)

Generalizzazione, autonomia, robustezza. VLA/LBM, manipolazione, whole-body control e quando un robot è davvero "intelligente".

Articolo della serie su Robot umanoidi (marzo 2026). Altri approfondimenti: Applicazioni quotidiane dei robot, Infrastruttura dei robot (dal codice al cliente).

Smettiamola subito di fare confusione: un robot non è “intelligente” perché sembra umano o perché cammina. È “intelligente” solo quando riesce in queste operazioni:

  • percepire il mondo in modo provato,
  • scegliere un’azione corretta in contesti variabili,
  • eseguire quell’azione con controllo accurato,
  • correggersi quando qualcosa va storto,
  • e farlo con un livello di autonomia utile (cioè: senza un operatore umano che lo “telecomanda” ogni due minuti).

Nel 2026 la robotica umanoide sta vivendo lo stesso passaggio che abbiamo visto con gli LLM: si sta spostando da “moduli separati” (visione da una parte, controllo dall’altra, planner a parte) verso modelli più unificati che imparano comportamenti complessi con grandi dataset e apprendimento per imitazione/rafforzamento.

Ma la differenza è sostanziale: nel linguaggio, se sbagli, fai una frase stupida. Nel mondo fisico, se sbagli, rompi cose o fai male a qualcuno.

Cosa intendiamo per “intelligenza” in robotica

Quando i produttori e i ricercatori dicono “intelligenza” in robotica, di solito stanno parlando di una (o più) di queste tre cose:

  1. Generalizzazione

Il robot non deve riuscire a fare “quel task” in “quella demo”, ma una famiglia di task simili in ambienti simili, senza riprogrammazione manuale pesante.

  1. Autonomia a lungo orizzonte

Non 10 secondi. Non 30 secondi. Ma minuti/ore di lavoro utile senza reset, senza “assistenza invisibile”, senza che il sistema crolli al primo evento non previsto.

  1. Robustezza e recupero dall’errore

L’intelligenza vera non è fare tutto perfetto quando va bene. È recuperare quando va male: oggetto che scivola, ostacolo imprevisto, cassetto che non si apre, superficie diversa, forza sbagliata, ecc.

Se manca uno di questi tre, chiamarla intelligenza è marketing.

Stato dell'arte 2026: cosa sta cambiando davvero

A) Dalla “pipeline a blocchi” ai modelli VLA/LBM

Per anni lo stack tipico era: visione → riconoscimento → pianificazione → controllo (con componenti separati, regole e tuning).

Nel 2026 sta prendendo piede una tendenza più “end-to-end”: modelli che collegano percezione + linguaggio + azione.

  • Si parla di Vision-Language-Action (VLA): modelli che da immagini (e testo) producono azioni.
  • In parallelo, Toyota Research Institute + Boston Dynamics parlano di Large Behavior Models (LBM) per comportamento generalista (locomozione + manipolazione) come blocco unico.
  • Figure ha pubblicato Helix 02 come sistema neurale unico “full body” guidato da pixel.
  • NVIDIA sta spingendo fortissimo su “Physical AI” con modelli VLA (Isaac GR00T) orientati a umanoidi.

La realtà delle cose: un modello unificato può migliorare la generalizzazione, ma introduce un problema enorme: debug e safety diventano più difficili. Lo abbiamo imparato nei software prima e nei modelli AI dopo. Se hai una pipeline a blocchi, puoi isolare l’errore. Se hai un end-to-end, l’errore può essere “ovunque”.

B) La manipolazione è ancora il collo di bottiglia (le mani “non bastano”)

Nel 2026 la locomozione sta diventando “una commodity” per molti casi. La manipolazione fine no. Le mani prensili sono inutili senza:

  • controllo di forza e contatto (non solo posizione),
  • tattile per capire micro-slip e contatto reale,
  • strategie di presa robuste.

Non a caso il tattile è tornato centrale: sensori come DIGIT/GelSight e varianti stanno puntando a dare ai robot una “pelle” che vede il contatto. Al momento infatti, Unitree non mostra ancora “le mani” ma solo movimenti di locomozione scenici, come il Kung-Fu.

E la letteratura recente ribadisce la stessa cosa: il tattile serve per destrezza, gestione dello slittamento e manipolazione delicata.

Quindi quando vedi un umanoide “fare la lavastoviglie” o “riordinare”, la domanda non è “wow”. È:

  • è autonomo o teleoperato?
  • quante volte riesce di fila?
  • cosa succede quando un piatto è bagnato e scivola?
  • cosa succede se l’anta è dura?
  • quante eccezioni servono?
  • Come gestisce le eccezioni?

C) Whole-body control: piedi come “mani” e corpo come un unico sistema

Un umanoide non è un braccio su ruote. È un sistema instabile. Quando prende un oggetto, deve bilanciarsi, spostare il baricentro, compensare forze.

Qui il progresso reale è passare da “controller separati” a strategie che trattano il corpo intero come un’unica catena di controllo. Una sequenza di istruzioni con una lista di eccezioni enorme.

  • TRI/Boston Dynamics hanno mostrato progressi su whole-body manipulation + locomotion con modelli unificati.
  • Boston Dynamics stessa posiziona Atlas elettrico come piattaforma per whole-body mobility e bimanual manipulation.

D) Come imparano oggi gli umanoidi

I tre pilastri pratici dell’apprendimento nel 2026 sono:

  1. Teleoperazione / imitazione

Umani che guidano il robot (o braccia/mani) per generare dataset di traiettorie. È uno dei modi più affidabili per addestrare manipolazione. (Figure cita esplicitamente training con ore di teleop per Helix in passato; Helix 02 è evoluzione).

  1. Simulazione (sim-to-real)

Addestri in simulatori fisici e poi trasferisci. Funziona bene per locomozione e alcune manipolazioni, ma il gap su contatto e attrito resta duro.

  1. Reinforcement learning / policy learning

Ottimo per comportamenti motori, ma richiede dati, tentativi e infrastruttura.

La cosa che dobbiamo capire ora: nel 2026 i progressi “improvvisi” spesso arrivano da più dati + modelli più grandi + migliori rappresentazioni, non da una formula magica nuova.

Quando ha senso dire “questo robot è intelligente”

Possiamo smascherare il 90% delle demo con questi criteri -almeno per il momento-.

1) Autonomia verificabile

  • Può fare un compito per minuti/ore senza reset?
  • Se si inceppa, recupera?

2) Generalizzazione misurabile

  • Stesso task su oggetti diversi, posizioni diverse, illuminazione diversa, attrito diverso.

3) Manipolazione con contatto reale

  • Non “afferra la scatola sempre uguale”.
  • Ma gestisce deformazioni, slittamento, oggetti fragili.

4) Safety integrata

  • Forze limitate, zone sicure, arresto affidabile, log e audit.

(Se questa parte manca, non è “AI”, è “rischio legale”.)

Il punto che nessuno dice chiaramente

A marzo 2026, la maggior parte degli umanoidi “intelligenti” è ancora in una fase dove (vedi Robot umanoidi (marzo 2026) per scenario e produttori):

  • la dimostrazione è più avanti del prodotto, oppure
  • il prodotto è più avanti dell’autonomia, cioè è vendibile solo in contesti molto controllati, con supporto pesante.

E non è una critica: è fisica + ingegneria + safety + supply chain.

Se oggi dovessi acquistarne uno non comprerei storytelling ma uptime, metriche, contratti, capacità di assistenza.