Поддержать команду Зеркала
Беларусы на войне
  1. Россия заявила, что вторглась в область Украины, где до этого не шли боевые действия
  2. Минские школьники публично извинились за то, что порвали билеты по истории Беларуси
  3. Из России «прилетела» новость, которая способна повлиять на ситуацию на валютном рынке Беларуси. Что произошло?
  4. Чиновники решили взяться за очередную категорию работников — думают навести порядок в отрасли
  5. Жаркого лета не предвидится? Синоптик Рябов рассказал о погоде на следующую неделю
  6. Ответ России на атаку беспилотников Украины еще не завершен, ожидается масштабный удар с нескольких направлений — Reuters
  7. И снова оранжевый. Синоптики предупредили об опасной погоде в воскресенье
  8. Сотни погибших на скалах. Как действия всего одного человека привели к самой кровавой железнодорожной катастрофе в истории Европы
  9. Польского премьера родом из Несвижа убили с особой жестокостью, исполнителей так и не нашли. Рассказываем эту жуткую историю


/

На прошлой неделе американская технологическая компания OpenAI представила новейшие большие языковые модели искусственного интеллекта, получившие названия o3 и o4-mini. Однако, как показали тесты, обе модели, по-видимому, сделали значительный шаг назад: они склонны придумывать — или галлюцинировать — сильнее, чем их более ранние версии, пишет Naked Science.

Изображение носит иллюстративный характер. Фото: Freepik.com
Изображение носит иллюстративный характер. Фото: Freepik.com

По данным издания TechCrunch, новые модели OpenAI противоречат исторической тенденции, согласно которой каждая новая модель давала все меньше галлюцинаций, чем предыдущая, что позволяет предположить, что OpenAI теперь движется в неверном направлении.

Согласно результатам внутреннего тестирования OpenAI, o3 и o4-mini склонны к галлюцинациям чаще, чем старые модели, включая o1, o1-mini и даже o3-mini. Модель o3 выдала 33% ошибок на тесте точности компании. Это примерно вдвое больше, чем у предыдущих моделей OpenAI. Тогда как o4-mini показала еще более худший результат — 48%.

Хуже того, специалисты компании, похоже, не до конца понимают причины проблем. Согласно их техническому отчету, «необходимы дополнительные исследования, чтобы понять причину» этих ошибок.