Компания 1X, занимающаяся разработкой гуманоидных роботов при поддержке OpenAI, сосредоточилась на создании цепочки задач для своего робота по имени Ева. Робот, который может выполнять последовательные задачи, приближается к полной автономии.
Подобно тому, как развивался искусственный интеллект после выхода ChatGPT в ноябре 2022 года, похожее развитие происходит и в области человекоподобных роботов. Первый ChatGPT и подобные ему до этого работали только в форме «вопрос-ответ». Однако сегодня мы можем дать им задание и заставить выполнить его. Компания 1X, производящая человекоподобных роботов, при поддержке разработчика ChatGPT компании OpenAI пытается добавить именно это в своего робота Еву.
Компания 1X хочет обеспечить физический труд с помощью безопасных, умных андроидов, и ее действия служат этой цели. Новый видеоролик, выпущенный компанией, демонстрирует способность робота-гуманоида Eve выполнять автономные задания одно за другим. Однако компания также отмечает, что это только начало пути.
Ранее компания разработала автономную модель, которая могла объединять множество задач в одну целевую условную нейронную сеть. Однако, когда многозадачные модели имеют небольшой размер (<100M параметров), добавление данных для коррекции поведения одной задачи часто негативно сказывалось на поведении других задач. Первое решение - увеличить количество параметров, но это требует больше времени на обучение и затягивает сбор показателей, необходимых для улучшения поведения робота.
Как же быстро итерировать данные и при этом создать робота общего назначения, способного выполнять множество задач с помощью одной нейронной сети? Ответ на этот вопрос у 1X довольно умный. По словам компании, она отделяет возможность быстрого улучшения выполнения задач от процесса объединения нескольких возможностей в единую нейронную сеть. Для этого компания создала управляемый голосом интерфейс на естественном языке, который позволяет объединять краткосрочные возможности в более длительные в несколько небольших моделей.
Сейчас я рекомендую вам посмотреть новое видео, представленное ниже, в котором показано долгосрочное поведение, выполняемое благодаря человеку, управляющему цепочкой навыков.
В то время как человек может легко выполнять долгосрочные задачи, очень сложно выстроить несколько навыков автономного робота в последовательность, поскольку каждый последующий навык требует обобщения результатов предыдущего. Это усугубляется с каждым последующим навыком, то есть третий навык должен учитывать изменчивость результатов второго навыка, и так далее.
В то время как люди могут без усилий выполнять долгосрочные задачи, воспроизведение этого с помощью роботов требует учета сложности этих последовательных вариаций. С точки зрения пользователя, робот может выполнять множество задач на естественном языке, абстрагируясь от фактического количества моделей, управляющих роботом. Это позволяет нам объединить модели, ориентированные на выполнение одной задачи, с моделями, зависящими от цели и времени.
Однозадачные модели обеспечивают прочную основу для оценки теневого режима, позволяя команде сравнивать предсказания новой модели с текущей базовой моделью во время тестирования. Когда модель с условием цели хорошо согласуется с прогнозами однозадачной модели, 1X говорит, что они могут перейти к более мощной, унифицированной модели без изменения рабочего процесса пользователя.
Использование этого высокоуровневого языкового интерфейса для управления роботами также открывает новые возможности для сбора данных. Вместо того чтобы использовать VR для управления одним роботом, оператор может управлять несколькими роботами с помощью естественного языка. Поскольку такие указания отправляются нечасто, человеку не обязательно находиться рядом с роботами, он может управлять ими дистанционно.
При этом 1X утверждает, что роботы на видео меняют задачи в зависимости от указаний человека, поэтому они не являются автономными. После создания набора данных пар команд, полученных с помощью зрения и естественного языка, следующим шагом будет автоматизация предсказания действий высокого уровня. 1X утверждает, что этого можно добиться с помощью мультимодальных языковых моделей с учетом особенностей зрения, таких как GPT-4o, VILA и Gemini Vision.