Фильм «Her» стал реальностью

Фильм «Her» стал реальностью

Генеральный директор OpenAI Сэм Альтман говорил, что его любимый фильм - «Her» режиссера Спайка Джонзе. Теперь Альтман воплощает свой любимый фильм в реальность с помощью GPT-4o.

Недавно компания OpenAI анонсировала GPT-4o, свою новую флагманскую модель искусственного интеллекта, которая может рассуждать между аудио, видео и текстом в режиме реального времени. Хотя прошло всего несколько часов, то, что делает новая модель, просто шокирует. По словам представителей компании, GPT-4o, способный читать выражение вашего лица и переводить разговорную речь в режиме реального времени, также может имитировать различные типы эмоций. Гуру кино могут сразу же ассоциировать эти заявления с фильмом «Her» режиссера Спайка Джонза. Потому что это именно тот случай.

Для тех, кто не знает, в фильме Спайка Джонзе «Her» 2013 года Хоакин Феникс играет страдающего от развода мужчину, который влюбляется в виртуального помощника ИИ по имени Саманта, озвученного Скарлетт Йоханссон. В конце 2023 года генеральный директор OpenAI Сэм Альтман сказал на одном из мероприятий, что «Она» - один из его любимых фильмов, что ему нравится, как люди используют ИИ, и что фильм оказался чрезвычайно прозорливым.
 

Фильм «Her» стал реальностью

Вчера вечером OpenAI представила GPT-4o в прямом эфире и попросила его рассказать историю о роботах и любви. GPT-4o, инженеры OpenAI и технический директор Мира Мурати попросили перебить его и рассказать историю в разных тонах. А ИИ просто продолжал делать то, что делал, как будто это был кто-то в комнате.

Интересно, что Сэм Альтман сделал пост на сайте X после этого события и просто написал: «Her». Конечно, в своем нынешнем виде GPT-4o не настолько способна и продвинута, как Саманта в фильме, но она довольно близка к этому. С другой стороны, когда мы смотрим на собственные разработки OpenAI, мы лучше понимаем размер шага, сделанного с GPT-4o.

Как мы уже говорили в нашем материале, где мы упомянули подробности о GPT-4o, GPT-4o не похож на другие модели компании. Все предыдущие модели GPT работали с использованием нескольких разных моделей. Например, для анализа звука активировались три модели. Однако в GPT-4o все объединено в одну модель. Аудио-, текстовая и визуальная информация анализируется и преобразуется в выходной сигнал с помощью одной модели. В результате модель работает быстрее и компетентнее.

Например, в предыдущей версии тоже был голосовой режим, но вам приходилось ждать, пока он закончит говорить, чтобы спросить его о чем-то. Однако в GPT-4o вы можете прервать его во время разговора и задать новое направление. Кроме того, теперь он может видеть мир через вашу камеру и передавать увиденное с высокой точностью.

Новые функции будут доступны в ограниченной «альфа-версии» в ближайшие недели, а после начала более широкого распространения они будут в первую очередь доступны подписчикам ChatGPT Plus. Некоторые расширенные функции также были добавлены в бесплатную версию и другие платные уровни, начиная с сегодняшнего дня.

В заключение приведем слова Сэма Альтмана из его вчерашнего сообщения в блоге: «Новый аудио- (и видео-) режим - это лучший компьютерный интерфейс, который я когда-либо использовал. Он ощущается как искусственный интеллект в фильмах, и мне до сих пор немного удивительно, что он настоящий. Достижение времени реакции и выразительности на уровне человека кажется большим изменением».

Комментарии