Minecraft случайно добавит функциональность Xbox Series X раньше

Эксперты OpenAI обучили нейронную сеть играть в Minecraft на уровне, не уступающем игрокам-людям.

Нейронная сеть была обучена на 70 000 часов разнообразных игровых кадров, дополненных небольшой базой данных видео, в которых подрядчики выполняли определенные внутриигровые задачи, а также записывались вводы с клавиатуры и мыши.

После корректировки OpenAI обнаружил, что модель способна выполнять все виды сложных способностей, от плавания до охоты на животных и поедания их мяса. Он также освоил «прыжок со столба», когда игрок подкладывает под себя блок материала в середине прыжка, чтобы набрать высоту.

Возможно, наиболее впечатляющим является то, что ИИ смог создать алмазные инструменты (для чего требовалось последовательное выполнение длинной серии действий), что OpenAI назвал «беспрецедентным» достижением для вычислительного агента.

Прорыв в ИИ?

Важность проекта Minecraft заключается в том, что он демонстрирует эффективность нового метода, который OpenAI реализует для обучения моделей ИИ, который называется Video PreTraining (VPT), ​​который, по словам компании, может ускорить разработку «агентов, использующих обычные компьютеры». ."

Исторически сложилось так, что сложность использования необработанного видео в качестве источника для обучения моделей ИИ заключалась в том, что происходящее достаточно просто для понимания, но не обязательно как. Это связано с тем, что модель ИИ будет поглощать желаемые результаты, но не будет понимать входные комбинации, необходимые для их достижения.

Однако с помощью VPT OpenAI объединяет большой набор видеоданных, извлеченных из общедоступных веб-источников, с набором тщательно отобранных изображений, помеченных соответствующими движениями клавиатуры и мыши, для создания базовой модели.

Чтобы уточнить базовую модель, команда включает меньшие наборы данных, предназначенные для обучения конкретным задачам. В этом контексте OpenAI использовал изображения игроков, выполняющих ранние игровые действия, такие как валка деревьев и создание столов для крафта, что привело бы к «значительному повышению» надежности, с которой модель могла бы выполнять эти задачи.

Другой метод заключается в том, чтобы «вознаграждать» модель ИИ за выполнение каждого шага в последовательности задач, практика, известная как обучение с подкреплением. Именно этот процесс позволил нейросети собрать все ингредиенты для алмазной кирки с вероятностью успеха на уровне человека.

«VPT позволяет агентам научиться действовать, просматривая большое количество видеороликов в Интернете. По сравнению с генеративным видеомоделированием или контрастными методами, которые создают только репрезентативный фон, VPT предлагает захватывающую возможность «обучения непосредственно из крупномасштабного видео». поведенческие предшественники в большем количестве областей, чем просто язык», — объяснил OpenAI в сообщении в блоге (открывается в новой вкладке).

«Хотя мы только экспериментируем с Minecraft, игра очень открыта, а собственный человеческий интерфейс (мышь и клавиатура) очень общий, поэтому мы считаем, что наши результаты служат хорошим предзнаменованием для других подобных областей, например, для использования компьютера».

Чтобы стимулировать новые эксперименты в этой области, OpenAI заключила партнерское соглашение с конкурсом MineRL NeurIPS, пожертвовав свои бизнес-данные и код модели участникам, пытающимся использовать ИИ для решения сложных задач Minecraft. Главный приз: €100,000 XNUMX.

Поделиться