Команда исследователей из Токийского университета построила мост между большими языковыми моделями и роботами, который обещает сделать машины еще более человечными, но при этом обходится без традиционных элементов управления, пишет Tech Xplore.
Разработчики используют GPT-4, чтобы проводить робота через различные симуляции, такие как съемка селфи, подбрасывание мяча, поедание попкорна и игра на воображаемой гитаре. Раньше такое требовало специального кодирования для каждого действия, но включение GPT-4 открывает широкие новые возможности для роботов учиться с помощью устных инструкций. Авторы назвали это достижение «сменой парадигмы».
Робот Alter3 способен выполнять сложные движения верхней части тела, включая детальную мимику, имеет 43 плоскости движения, имитирующие опорно-двигательный аппарат человека. Задача кодирования координации такого большого количества суставов была очень сложной.
Благодаря большим языковым моделям роботу теперь можнодавать устные инструкции, по которым нейросеть пишет код в Python, который, в свою очередь, запускает движок. Alter3 сохраняет действия в памяти, исследователи могут уточнять и корректировать его действия, что со временем приведет к более быстрым, плавным и точным движениям.
В одном из тестов робот притворяется, что съедает пакет попкорна, только чтобы узнать, что он чужой. Преувеличенная мимика и жесты рук выражают удивление и смущение.
Оборудованный камерой Alter3 может «видеть». Исследователи обнаружили, что Alter3 может совершенствовать свое поведение, наблюдая за реакциями человека. Они сравнили такое обучение с поведением маленьких детей.