Meta анонсировала Llama 3.2, свою первую модель искусственного интеллекта с открытым исходным кодом, способную обрабатывать как изображения, так и текст. Эта новинка появилась всего через два месяца после выпуска предыдущей модели ИИ. Ожидается, что инновационные возможности Llama 3.2 помогут разработчикам создавать более сложные ИИ приложения.
Функционал модели включает понимание видео в реальном времени, визуальные поисковые системы, которые классифицируют изображения по содержанию, и инструменты анализа документов, которые сокращают длинные тексты. Meta разработала Llama 3.2 как дружественную для разработчиков модель, требующую минимальной настройки.
Вице-президент Meta по генеративному ИИ Ахмад Аль-Дахле заявил, что разработчикам нужно лишь "интегрировать эту новую мультимодальность и позволить Llama взаимодействовать с помощью изображений".
Эта функция выводит Meta на один уровень с такими конкурентами, как OpenAI и Google, которые представили свои мультимодальные модели в прошлом году. Добавление поддержки зрения в Llama 3.2 — это стратегический шаг, поскольку Meta продолжает улучшать возможности ИИ в таких устройствах, как умные очки Ray-Ban Meta.
Модель включает два зрительных модуля с 11 миллиардом и 90 миллиардом параметров, а также два легких текстовых модуля с 1 миллиардом и 3 миллиардом параметров. Эти меньшие модели предназначены для работы на устройствах с процессорами Qualcomm, MediaTek и других Arm.
Несмотря на запуск Llama 3.2, предыдущая версия, Llama 3.1, выпущенная в июле, все еще имеет свою роль. Более старая модель включает версию с 405 миллиардами параметров, которая теоретически предлагает более высокие возможности по генерации текста.