Как утверждают разработчики, новая версия принимает в качестве входных данных любую комбинацию текста, аудио, изображения и видео и генерирует любую комбинацию текста, аудио и изображения. GPT-4o особенно лучше воспринимает изображение и звук, если сравнивать с предыдущими версиями, говорится в сообщении.
Новую модель научили сквозному восприятию текста, изображения и звука, а это означает, что все входящие и исходящие данные обрабатывает одна и та же нейронная сеть, поэтому робот взаимодействует с человеком без единой задержки в режиме реального времени, заявили в компании.
Новая версия может позволить себе немного поговорить и даже пофлиртовать, пишет "BBC News Украина". GPT-4o может считывать изображение и обсуждать увиденное, переводить с одного языка на другой и распознавать эмоции по выражению лица. Робот, в отличие от предыдущих версий, также может запоминать предыдущие разговоры. Его можно прерывать на полуслове, у него более легкий разговорный ритм – во время демонстрации задержки между вопросом и ответом практически не было.
Во время демонстрации голосовой версии GPT-4o робот не просто решил простое уравнение, написанное на листе бумаги, но и дал полезные рекомендации по его решению. Он анализировал компьютерный код, переводя с итальянского на английский, и интерпретировал эмоции на фото улыбающегося человека.
Новая модель – это шаг вперед в области искусственного интеллекта, убежден главный технический директор OpenAI Мира Мурати.
Компания заявила, что будет внедрять новые функции постепенно.