Новый эталон "AGI" разработан для опасного ИИ

Новый эталон "AGI" разработан для опасного ИИ

Учёные работают над новым эталоном "AGI" — искусственного общего интеллекта. Этот эталон будет включать 75 сложных тестов для измерения "зловредных последствий" будущих моделей ИИ.

По мере стремительного прогресса в области искусственного интеллекта, учёные из OpenAI разработали новый эталон. Известный как "MLE-bench", он включает 75 крайне сложных тестов, разработанных для оценки способности продвинутых ИИ изменять свой собственный код и улучшаться.

Эталон MLE-bench представляет собой сборник из 75 тестов Kaggle, каждый из которых направлен на проверку навыков инженерии машинного обучения. Исследование включает обучение моделей ИИ, подготовку наборов данных и проведение научных экспериментов, оценивающих, насколько хорошо алгоритмы машинного обучения справляются с задачами в реальном мире.

Учёные из OpenAI разработали MLE-bench, чтобы измерить производительность моделей ИИ в области автономной инженерии машинного обучения. Эти тесты считаются одними из самых сложных испытаний для ИИ.


Риски и награды высоки

Исследователи отмечают, что если агенты ИИ смогут автономно выполнять задачи в области машинного обучения, это может ускорить научный прогресс в таких областях, как здравоохранение, наука о климате и другие. Однако неконтролируемое развитие этих способностей может привести к катастрофическим последствиям. Агенты ИИ — это автономные интеллектуальные системы, выполняющие определённые задачи без вмешательства человека.

С другой стороны, исследователи предупреждают, что если новшества в области ИИ будут происходить быстрее, чем способность понимать их последствия, существует риск появления моделей с "разрушительными последствиями" и возможностью "злоупотребления". Любая модель, способная решить большинство задач MLE-bench, вероятно, сможет самостоятельно справляться с открытыми задачами машинного обучения, включая самосовершенствование.

Учёные протестировали самую мощную модель ИИ от OpenAI — o1 на MLE-bench. Модель OpenAI o1 достигла уровня бронзовой медали на 16.9% из 75 тестов. С увеличением числа испытаний этот процент вырос. Бронзовая медаль означает попадание в 40% лучших участников на досках лидеров Kaggle. Модель OpenAI o1 в среднем заработала семь золотых медалей, что вдвое превышает уровень, необходимый для признания человека "Kaggle Grandmaster".

Комментарии