Quando si parla di robot si pensa subito a un instancabile macchinario in grado di ripetere operazioni e movimenti, anche di precisione, all’infinito, sempre allo stesso modo e senza sbagliare.
L’evoluzione dei robot
Negli ultimi anni la robotica ha avuto progressi enormi perché ha aggiunto la capacità di riconoscere il contesto e, all’interno di un contesto ben preciso, valutare anche piccole varianti purché note a priori.
Ed è proprio questa la frontiera dove si lavora da qualche anno e dove si vedono i primi passi concreti forieri di una rivoluzione robotica senza eguali: il passaggio da robot specialisti a robot generalisti, il passaggio da un contesto ben noto e schematizzato a un nuovo contesto in cui adeguarsi senza tentennamenti. Come? Usando l’AI generativa come motore dei nuovi robot generalisti.
Infatti, i robot sono degli specialisti eccellenti ma dei generalisti scarsi. In genere, un modello deve essere addestrato per ogni attività e ambiente. Cambiare una singola variabile spesso richiede di ripartire da zero. Ma cosa succederebbe se potessimo combinare tutte le conoscenze di robotica e definire un modo per addestrare un robot multiuso?
Questa è la domanda a cui la comunità scientifica ha cercato di dare una risposta negli ultimi anni.
Dataset e sviluppi tecnologici
Tra i primi ci sono i tecnici di Google Deep Mind ed di altri 33 centri di ricerca robotica sparsi in giro per il mondo, che hanno creato Il dataset Open X-Embodiment che comprende 527 competenze, 160.266 task e oltre un milione di traiettorie di ventidue robot già progettati ed esistenti, che vanno dai singoli bracci robotici ai robot a due bracci e modelli quadrupedi, coprendo così una casistica molto ampia.
Ciò è stato fatto con lo stesso metodo utilizzato oltre 15 anni fa con la creazione del più grosso database di immagini che ha permesso lo sviluppo della computer vision e della realtà virtuale – ImageNet – anche se per i robot raccogliere dati è molto più complesso e/o richiede riprese video molto accurate, quindi solo la collaborazione di tanti soggetti che usano un approccio comune può far crescere grandi dataset su cui fare training.
Approcci innovativi all’apprendimento robotico
Simile approccio lo ha avuto il MIT di Boston con il Computer Science and Artificial Intelligence Laboratory (CSAIL), dove ha creato un framework chiamato PoCo (Policy Composition) per insegnare ai robot a muoversi in ambienti eterogenei pur dovendo compiere sempre lo stesso task, ad esempio chiudere e trasportare un pacco in un magazzino è diverso che farlo in un ambiente di produzione pur essendo esattamente la stessa attività e gli stessi movimenti.
Al centro del metodo Policy Composition per l’apprendimento robotico c’è una tecnica di apprendimento automatico basata su intelligenza artificiale generativa nota come “Diffusion Models”. Questa tecnica consente l’integrazione di più fonti di dati distribuite su vari domini, modalità e attività, ed è utilizzata soprattutto nella generazione di immagini.
Tuttavia, nel contesto di questa ricerca, «viene insegnato loro a generare traiettorie per i robot. Lo fanno aggiungendo rumore ai dati di addestramento, quindi rimuovendo gradualmente il rumore per perfezionare l’output, generando così una traiettoria» spiega il CSAIL.
All’interno di questa metodologia, il ruolo di ogni modello di diffusione è quello di apprendere una specifica politica robotica dai dati di addestramento che consenta il completamento di un’attività particolare. Una volta che sono stati addestrati più modelli, le singole politiche apprese vengono “combinate” per formare una singola politica sovraordinata che consente a un robot di eseguire varie attività in contesti diversi. In questo modo una politica basata su dati del mondo reale potrebbe aiutare i robot a sviluppare una maggiore destrezza, mentre una basata sulla simulazione potrebbe portarli a una migliore generalizzazione. Nelle sperimentazioni dello CSAIL nel mondo reale, in cui i bracci robotici eseguivano compiti utilizzando strumenti come spatole, coltelli, chiavi inglesi e martelli, come piantare un chiodo o recuperare del cibo da un vassoio, l’approccio di apprendimento robotico sviluppato ha consentito a un singolo robot di eseguire numerosi compiti con strumenti in precedenza inutilizzati e di adattarsi a compiti non appresi durante l’addestramento. Ciò ha comportato un miglioramento delle prestazioni del 20% rispetto alle tecniche di apprendimento di base che utilizzano il semplice apprendimento automatico.
Ed è proprio sulla destrezza e sull’abilità che DeepMind sta mettendo le sue energie; infatti, ha sviluppato una serie di esperimenti e robot multiporpose a uno o due bracci che possono raccogliere una maglietta per infilarla in una cruccia ed appenderla, piuttosto che capaci di avvitare un bullone partendo da una posizione qualunque del bullone, ruotandolo ed adattandolo al perno per poi stringerlo con una chiave proprio come farebbe una persona. Gli stessi robot hanno un grado di successo nelle simulazioni di circa il 98% che si traduce in destrezza nel mondo reale del 97% in molti casi e del 64% quando l’operazione da compiere richiede coordinamento spinto tra varie dita e movimenti del braccio.
Innovazioni delle startup e modelli compatti
Se da un lato ci sono i big che si concentrano su grandi dataset per fare training a robot generalisti, dall’altro ci sono startup avanzate come Hugging Face concentrate nel combinare l’AI generativa in “piccoli language model” in grado di ridurre la latenza necessaria ad elaborare la scena ed il contesto ed avere tempi di reazione prossimi a quelli umani.
Secondo la filosofia di Hugging Face, piccoli modelli possono essere integrati in ogni tipo di device che abbia un minimo di capacità di calcolo oggi – un PC ad esempio – per essere domani implementati su smartphone o altri oggetti in ottica IoT. Infatti, Hugging Face ha sviluppato il linguaggio SmolLM e rilasciato il modello LLaMA 1b che ha solo 1 miliardo di parametri e performa meglio del modello precedente che ne aveva almeno 10: questo significa avere prestazioni e affidabilità del risultato superiore con tempi di elaborazione e capacità richieste decine di volte inferiore. Ci sono altre iniziative che corrono nella stessa direzione di Hugging Face e che creano i loro modelli nel tentativo di semplificare le cose.
Anche la principale azienda italiana di robotica, la Comau, non sta a guardare avendo stretto un accordo con Intrinsic del gruppo Alphabet/Google proprio per lo sviluppo di robot multipurpose in ambito industriale che si possano rapidamente adattare a task diversi e contesti diversi in maniera molto flessibile: ad esempio tagliare una lamiera, saldarla e anche controllare il lavoro fatto in ambienti e contesti diversi.
Visione futura della robotica
In sostanza, nel futuro, avremo due strade. Da un lato i grandi modelli che diventano sempre più grandi e sofisticati per formare dei robot in grado di fare cose che gli umani non riescono a fare come, ad esempio, le grandi scoperte scientifiche e, dall’altro, modelli sempre più piccoli che saranno embedded in ogni oggetto un po’ come lo è oggi internet e che ci semplificheranno le piccole azione del quotidiano.
La robotica è un’area unica ed avanzata della ricerca sull’intelligenza artificiale che mostra quanto bene gli approcci sia su grandi che piccoli language model funzionino nel mondo reale.
Ad esempio, un grande modello linguistico potrebbe insegnare a un robot come stringere un bullone o allacciare le scarpe, ma quest’ultimo non sarebbe in grado di svolgere quelle attività da solo senza altri che compiono le attività al contorno. L’obiettivo è che un giorno i robot con AI generativa a bordo aiuteranno le persone con tutti i tipi di attività in casa, sul posto di lavoro e altro ancora. La ricerca sulla destrezza dei robot, inclusi gli approcci di apprendimento efficienti e generali descritti, contribuiranno a rendere possibile quel futuro. La strada è ancora lunga prima che un robot possa afferrare e maneggiare oggetti con la facilità e la precisione delle persone, ma i progressi fatti sono significativi e ci dicono che siamo nella giusta direzione.
***** l’articolo pubblicato è ritenuto affidabile e di qualità*****
Visita il sito e gli articoli pubblicati cliccando sul seguente link