Dagli smartphone ai robot: Xiaomi lancia Robotics-0 ed è open source

xiaomi robotics 0
Crediti: Canva, Xiaomi (Mi Bunny)

Xiaomi ha ufficialmente ampliato i propri orizzonti tech entrando nel settore della ricerca robotica avanzata. Dopo MiMo (il rivale di ChatGPT) casa di Lei Jun ha presentato Xiaomi-Robotics-0, il suo primo modello VLA (Vision-Language-Action) di grandi dimensioni rilasciato in modalità open source.

Con un’architettura basata su 4,7 miliardi di parametri, il sistema è stato progettato per integrare in un unico modello la comprensione visiva, la logica del linguaggio e l’esecuzione di azioni fisiche in tempo reale.

Xiaomi-Robotics-0: la rivoluzione della robotica intelligente diventa open source

xiaomi robotics 0
Crediti: Xiaomi

L’innovazione principale di Xiaomi-Robotics-0 risiede nella sua architettura Mixture-of-Transformers (MoT), che simula la collaborazione tra il cervello e il cervelletto umano. Il sistema affida la comprensione dei comandi a un modello linguistico-visivo (VLM) che funge da “cervello”, capace di interpretare istruzioni umane anche vaghe e di analizzare le relazioni spaziali tramite input video ad alta definizione.

Parallelamente, la gestione del movimento è delegata a un Action Expert che utilizza un trasformatore di diffusione (DiT) per generare sequenze di movimenti fluide e precise. La separazione dei compiti permette di bilanciare un ragionamento logico profondo con un controllo motorio estremamente fine, evitando che il robot perda le sue capacità di comprensione generale durante l’apprendimento di nuovi compiti fisici.

Un aspetto fondamentale che rende questo modello estremamente pratico per gli sviluppatori è la soluzione adottata per eliminare i micro-scatti e l’instabilità nei movimenti, spesso causati dalla latenza di elaborazione. Xiaomi ha introdotto l’inferenza asincrona, una tecnica che scollega il processo di ragionamento del modello dall’esecuzione fisica del robot, garantendo una continuità d’azione anche quando il sistema richiede più tempo per elaborare un comando complesso.

xiaomi robotics 0
Crediti: Xiaomi

Inoltre i dovuti accorgimenti consentono al robot di dare priorità al feedback visivo immediato rispetto alla memoria storica, rendendolo capace di reagire istantaneamente a cambiamenti improvvisi dell’ambiente circostante.

Le prestazioni di Xiaomi-Robotics-0 sono già state validate da benchmark (come LIBERO, CALVIN e SimplerEnv) dove il modello ha superato decine di sistemi concorrenti. Nei test reali, robot dotati di doppio braccio hanno completato con successo compiti a lungo raggio, come lo smontaggio di blocchi di costruzioni e la manipolazione di oggetti morbidi e flessibili.

Un dettaglio importante è la compatibilità dell’hardware: il modello supporta l’inferenza in tempo reale anche su schede grafiche di fascia consumer, abbattendo drasticamente le barriere d’ingresso per la ricerca e lo sviluppo in ambito robotico.

La casa cinese ha il rilasciato codice sorgente e model weight di Xiaomi-Robotics-0 su piattaforme come GitHub e Hugging Face. Sempre su GitHub trovate la pagina principale del progetto.