Dai Pixel alle Pinze: Addestrare il robot SO-101 con RL, Sim-to-Real e LoRA

Pensi che la robotica sia solo per specialisti? Scopri come addestrare il robot SO-101 con HIL-SERL e LoRA. Usando LeRobot di Hugging Face, portiamo l’AI fisica dai pixel alla realtà su GPU consumer. È il “momento Stable Diffusion” della robotica: non mancare! Avremo il robot sul palco con noi!

Costruire un robot autonomo richiede solitamente un dottorato in teoria del controllo o un budget enorme per l’acquisto di hardware industriale. Ma cosa succederebbe se potessi addestrare un braccio robotico stampabile in 3D usando la stessa logica interattiva che usiamo per insegnare agli esseri umani?

Questo talk porta un SO-101 sul palco per mostrare i risultati dei nostri esperimenti con la “Physical AI” utilizzando l’ecosistema LeRobot di Hugging Face e il robot SO-101. Supereremo l’apprendimento per imitazione statico per entrare nel mondo del Human-In-the-Loop Reinforcement Learning (HIL-SERL). A differenza del Reinforcement Learning (RL) tradizionale, che si basa su funzioni di ricompensa difficili da programmare, l’HIL-SERL permette a un operatore umano di intervenire durante la simulazione, “correggendo” gli errori del robot e addestrando un classificatore di ricompensa in tempo reale.

Percorreremo l’intero viaggio dello sviluppatore:

Il workflow HIL-SERL: Utilizzo di hilserl_sim per addestrare le policy in un ambiente di simulazione compatibile con Gymnasium, dove il feedback umano rappresenta il segnale di ricompensa principale.
Ottimizzazione LoRA: I modelli Large Vision-Language-Action (VLA) sono potenti ma pesanti. Dimostrerò come utilizzare la Low-Rank Adaptation (LoRA) per effettuare il fine-tuning di questi modelli su GPU di fascia consumer, riducendo drasticamente i requisiti di VRAM senza perdere prestazioni.
Dal Virtuale al Fisico: Lezioni apprese nel colmare il divario (gap) tra il simulatore gym_hil e l’hardware reale del robot SO-101.

Che tu sia uno sviluppatore Python curioso di hardware o un appassionato di AI alla ricerca del “momento Stable Diffusion” per la robotica, questo talk fornisce una tabella di marcia per costruire agenti intelligenti e interattivi con strumenti open-source.

Cosa imparerai:

Come configurare lo stack LeRobot HIL-SERL per l’addestramento interattivo.
L’architettura dei Classificatori di Ricompensa (Reward Classifiers) e perché sostituiscono l’ingegneria manuale delle ricompense.
Strategie pratiche per il fine-tuning basato su LoRA delle policy robotiche.

Dai Pixel alle Pinze: Addestrare il robot SO-101 con RL, Sim-to-Real e LoRA

Saturday, May 30

12:25 - 12:55

Stefano Maestri