Як стверджують розробники, нова версія приймає як вхідні дані будь-яку комбінацію тексту, аудіо, зображення й відео та генерує будь-яку комбінацію тексту, аудіо й зображення. GPT-4o особливо краще сприймає зображення і звук, якщо порівнювати з попередніми версіями, ідеться в повідомленні.
Нову модель навчили наскрізного сприйняття тексту, зображення та звуку, а це означає, що всі вхідні й вихідні дані обробляє одна й та сама нейронна мережа, тому робот взаємодіє з людиною без жодної затримки в режимі реального часу, заявили в компанії.
Нова версія може дозволити собі трохи поговорити й навіть пофліртувати, пише "BBC News Україна". GPT-4o може зчитувати зображення й обговорювати побачене, перекладати з однієї мови на іншу та розпізнавати емоції за виразом обличчя. Робот, на відміну від попередніх версій, також може запам'ятовувати попередні розмови. Його можна переривати на півслові, і в нього легший розмовний ритм – під час демонстрації затримки між запитанням і відповіддю практично не було.
Під час демонстрації голосової версії GPT-4o робот не просто розв'язав просте рівняння, написане на аркуші паперу, а й дав корисні рекомендації, як його розв'язати. Він аналізував комп'ютерний код, перекладаючи з італійської на англійську, та інтерпретував емоції на фото усміхненої людини.
Нова модель – це крок уперед у галузі штучного інтелекту, переконана головна технічна директорка OpenAI Міра Мураті.
Компанія заявила, що впроваджуватиме нові функції поступово.