OpenAI обновила GPT-5.4, добавив режим Extended Thinking, который повышает точность рассуждений до 94% и впервые выводит ИИ выше уровня человека в тестах ARC-AGI-1.
Новый режим позволяет модели «думать» перед ответом — запускать внутренние симуляции, проверять гипотезы и корректировать ход решения. В результате GPT-5.4 показывает около 94% точности на бенчмарке ARC-AGI-1, опережая человеческий показатель в 92,8%.
Extended Thinking меняет саму модель взаимодействия с ИИ. Вместо мгновенных ответов система может тратить до 60 секунд на анализ, что существенно снижает количество ошибок и «галлюцинаций» — примерно на 33% по сравнению с предыдущими версиями.
Одно из ключевых улучшений — контекстное окно до 1 млн токенов. Это позволяет модели обрабатывать массивные документы и базы данных за один проход, включая патентные архивы, юридические тексты и бизнес-аналитику.
В тестах GPT-5.4 показала новые возможности в ряде задач:
- аудит кода с выявлением критических уязвимостей, включая RCE через pickle.loads
- налоговый анализ с учётом изменений 2026 года, включая R&D Expensing
- решение сложных логических задач с самокоррекцией в процессе
- поиск аналогов (prior art) в патентных базах
- анализ маркетинговых данных и выявление аномалий CPA
- проверка консистентности текстов объёмом до 10 000 слов
- анализ сетевых логов и выявление подозрительной активности
При этом OpenAI усилила ограничения безопасности. Генерация exploit-кода ограничена, а доступ к более «сырому» уровню возможностей вынесен в отдельную программу Trusted Access for Cyber (TAC). Для обычных пользователей действуют лимиты, а при перегрузке возможен переход на менее мощные модели.
По сравнению с традиционными чат-ботами GPT-5.4 всё чаще рассматривается как полноценный reasoning engine — система, способная к глубокому анализу и принятию решений. Это открывает практическое применение в кибербезопасности, праве и бизнес-аналитике без необходимости в дорогих специализированных инструментах.
Источник: Tom’s Guide




