Снискавший популярность чат–бот ChatGPT потрясает новыми умениями: отныне он может вести диалог с людьми и распознавать их эмоции, а также интерпретировать голос, видео, изображение и код в едином интерфейсе.
В OpenAI всегда хотели сделать голосовой разговор с ChatGPT похожим на беседу с реальным человеком, но задержка с ответом портила весь эффект. Компания внедрила в GPT–4o технологии для максимально естественного общения с ИИ. Однако после презентации осталось неясно, насколько хорошо программа говорит по–немецки.
«GPT–4 omni обеспечивает интеллект на уровне GPT–4, но работает гораздо быстрее и улучшает возможности работы с текстом, изображением и звуком», — пояснила главный технический директор Мира Мурати, продемонстрировав голосовой перевод на разных языках в реальном времени. Новая модель поддерживается на более чем 50 языках. К тому же, GPT–4 omni может запоминать диалоги.
Всего за 232 миллисекунды
OpenAI показала, как программное обеспечение может изменять тон речи от взволнованного до сочувствующего, а также свободно переводить с английского на итальянский, что делает ChatGPT мощным конкурентом для таких голосовых помощников, как Alexa от Amazon и Siri от Apple, которые на его фоне просто меркнут. Новая модель может реагировать на аудиовход всего за 232 миллисекунды, в среднем — за 320 миллисекунд, что подобно времени реакции человека при разговоре.
Среди новых доступных функций Gpt4–o также загрузка скриншотов и постановка вопросов на их основе, а также запоминание предыдущих вопросов и возможность непосредственно выходить в интернет.
«Обработка данных с камеры смартфона»
Еще одно нововведение: во время прямой трансляции OpenAI продемонстрировала, как новая модель может помочь решить математическое
Читать на mknews.de