GPT-4 Omni, или GPT-4o – это модель, которая может работать с различными типами контента: текстом, изображениями, видео и аудио. Ранее в ChatGPT для каждой из этих задач использовались разные нейросетевые модели, что влияло на скорость ответов и качество результатов. Таким образом, новое поколение моделей фактически внесло изменения в то, что называется мультимодальностью в современных нейросетевых моделях.

В презентации отдельно сделали акцент на возможностях GPT-4o в качестве голосового помощника. Нейросеть эмоционально разговаривает, использует разные интонации и даже обладает харизмой.

Содержание

  1. Что может GPT-4?
  2. Как можно использовать нейросеть?
  3. Как получить доступ к GPT-4 и будет ли она бесплатной?

Что может GPT-4

Вот чем GPT-4o отличается от предыдущих моделей:

Голосовой ассистент распознает речь и поддерживает диалоги в реальном времени. Взаимодействие происходит более естественно, чем раньше: время отклика на аудиозапросы составляет в среднем 0,3 секунды, что сопоставимо со скоростью реакции человека.

Нейросеть говорит не роботизированным монотонным голосом, а смеется, выражает эмоции, меняет интонации и даже поет.

Распознавание видео и изображений. GPT-4o лучше анализирует и интерпретирует визуальные данные. Она распознает объекты, действия и сцены в видео. Например, модель смогла транскрибировать ролик и выделить разных спикеров с записи встречи. Раньше нейросеть работала только со статичными изображениями: картинками, скриншотами, фото.

Live demo of GPT4-o voice variation

Мультимодальность. Модель принимает на входе и генерирует на выходе любые комбинации текста, аудио и изображений. Она работает по принципу end-to-end, что означает, что все виды информации обрабатываются одной нейросетью.

Обработка текста соответствует уровню GPT-4 Turbo при работе на английском. На других языках работу существенно улучшили.

Увеличенное контекстное окно. Нейросети можно «скармливать» большие объемы информации. На презентации она поддерживала разговор в течение семи минут, а в примерах на сайте OpenAI сделала краткий пересказ 40-минутного видео.

Как можно использовать нейросеть

OpenAI показала на презентации несколько вариантов использования возможностей новой модели. Вот некоторые из них:

Общаться как с другом. Нейросеть в прямом эфире посмотрела на сотрудника OpenAI и поняла, что он в приподнятом настроении. А потом спросила, чему он так радуется, и смутилась, когда тот сказал, что проводит презентацию ее возможностей.

Учить языки. Нейросети можно показать разные объекты и попросить переводить на другой язык. Например, в деморолике GPT-4o показали фрукты, ручки и плюшевую игрушку — она перевела все верно.

Переводить в реальном времени. Нейросеть попросили помочь в разговоре италоговорящей девушки и англоговорящего парня. Когда GPT-4o слышала итальянскую речь, сразу переводила на английский, и наоборот.

Оценить образ. Сотрудник OpenAI спросил, достаточно ли он хорошо выглядит для похода на собеседование, — GPT-4o порекомендовала ему причесаться. Когда тот надел шляпу, нейросеть сказала, что он выглядит несерьезно, и посоветовала ее снять.

Как получить доступ к GPT-4 и будет ли она бесплатной

Пока что нейросеть может работать только с текстом и изображениями. Неизвестно, когда она сможет обрабатывать аудио и видео.

Некоторые платные подписчики ChatGPT также получили доступ к нейросети. Ожидается, что в течение нескольких недель GPT-4 станет доступна для всех.

В ближайшее время у пользователей ChatGPT, которые пользуются сервисом бесплатно, появится доступ к GPT-4о с ограничением по количеству сообщений.

На сайте Chatbot Arena вы можете бесплатно воспользоваться текстовыми возможностями GPT-4, но с ограничением по количеству запросов.