Claude 4.5 против GPT-5: стабильность не значит ум в кодинге
Claude 4.5 Sonnet разгромил GPT-5 в тестах на кодинг, демонстрируя высокую точность и стабильность. Однако исследование выявило тревожный нюанс: стабильность может усиливать не только правильные, но и ошибочные интерпретации, делая ИИ уверенным в своей неправоте.

Битва гигантов ИИ: Claude 4.5 Sonnet против GPT-5 в программировании
По мере того, как агенты на базе больших языковых моделей (LLM) всё активнее внедряются в производственные системы, критически важным становится понимание их поведенческой согласованности. Проще говоря, насколько стабильно нейросеть будет выдавать схожие последовательности действий при получении идентичных задач. Недавнее исследование, опубликованное на arXiv:2603.25764v1, пролило свет на этот вопрос, сравнив производительность Claude 4.5 Sonnet, GPT-5 и Llama-3.1-70B на сложной бенчмарке SWE-bench.
Результаты оказались одновременно впечатляющими и тревожными. Claude 4.5 Sonnet продемонстрировал не только самую высокую точность, но и поразительную стабильность. Однако эта стабильность, как выяснилось, имеет свою темную сторону: чем умнее и увереннее нейросеть, тем более упорно она может совершать одну и ту же ошибку, буквально убеждая себя в собственной правоте.
Исследование стабильности и точности: Claude, GPT и Llama на SWE-bench
Для оценки поведенческой согласованности и точности моделей исследователи использовали SWE-bench — сложный бенчмарк для программной инженерии, требующий многоэтапного рассуждения. Каждая из трёх моделей — Claude 4.5 Sonnet, GPT-5 и Llama-3.1-70B — была протестирована по 50 прогонов (10 задач, по 5 прогонов на каждую). Это позволило получить обширные данные для анализа как точности решений, так и вариативности ответов.
Результаты сравнения моделей:
Анализ показал чёткую корреляцию между высокой согласованностью и высокой точностью:
- Claude 4.5 Sonnet: Достиг самой низкой вариативности (коэффициент вариации 15.2%) и самой высокой точности (58%). Это означает, что Claude не только чаще давал правильные ответы, но и делал это наиболее предсказуемо.
- GPT-5: Показал промежуточные результаты с коэффициентом вариации 32.2% и точностью 32%. Модель от OpenAI оказалась менее стабильной и менее точной, чем Claude.
- Llama-3.1-70B: Продемонстрировал самую высокую вариативность (47.0%) и самую низкую точность (4%). Это указывает на значительную нестабильность и низкую надёжность в решении сложных задач программирования.
Для наглядности представим эти данные в таблице:
| Модель ИИ | Коэффициент вариации (CV) | Точность |
|---|---|---|
| Claude 4.5 Sonnet | 15.2% | 58% |
| GPT-5 | 32.2% | 32% |
| Llama-3.1-70B | 47.0% | 4% |
Парадокс стабильности: когда уверенность приводит к ошибкам
Главный вывод исследования заключается в том, что согласованность усиливает результаты, но не гарантирует правильность. Это критически важный нюанс для тех, кто разворачивает LLM-агентов в продакшене.
Глубокий анализ показал, что 71% ошибок Claude 4.5 Sonnet были результатом «последовательной неверной интерпретации». Это значит, что модель делала одно и то же неверное предположение во всех прогонах одной и той же задачи. Такая «уверенность в неправоте» делает процесс отладки чрезвычайно сложным, поскольку модель не меняет свою ошибочную стратегию, даже если ей дают несколько попыток.
«71% ошибок Claude были результатом 'последовательной неверной интерпретации': модель делала одно и то же неверное предположение во всех прогонах.»
Интересно, что GPT-5 демонстрирует схожее раннее стратегическое согласие с Claude (расхождение на шаге 3.4 против 3.2), но при этом имеет в 2.1 раза более высокую вариативность. Это говорит о том, что время расхождения в стратегии само по себе не определяет общую согласованность. Возможно, именно эта «неуверенность» GPT-5, выражающаяся в большей вариативности, могла бы в некоторых случаях привести к случайному нахождению правильного решения, если бы модель не зацикливалась на одной ошибочной интерпретации.
Практические выводы для разработчиков и пользователей
Эти результаты имеют серьёзные последствия для оценки и обучения агентов ИИ, особенно для их развертывания в производственных средах. Для систем, работающих с критически важными задачами, такими как разработка программного обеспечения, точность интерпретации задачи оказывается гораздо важнее, чем просто согласованность выполнения.
Разработчикам следует уделять повышенное внимание механизмам, которые позволяют моделям пересматривать свои первоначальные предположения, а не просто повторять их. Это может потребовать новых подходов к обучению, которые поощряют исследование альтернативных решений, даже если первое кажется «уверенным».
Для тех, кто хочет самостоятельно оценить возможности Claude 4.5 Sonnet или других передовых моделей, таких как GPT-5.3 Instant, стоит помнить, что доступ к ним можно получить через dropweb VPN — сервис, предоставляющий доступ ко всем популярным нейросетям. Актуальные цены на подписку Claude Pro составляют $20 в месяц, а на ChatGPT Plus — также $20 в месяц.
Также важно использовать разнообразные тестовые сценарии, которые специально нацелены на выявление этих «последовательных неверных интерпретаций», а не только на общую точность. Модели с высокой согласованностью, но склонностью к таким ошибкам, могут быть более опасными в продакшене, чем менее согласованные, но способные к самокоррекции.
Заключение
Исследование подчеркивает сложную природу интеллекта больших языковых моделей. Хотя Claude 4.5 Sonnet показал впечатляющие результаты в кодировании, его склонность к «уверенным ошибкам» поднимает важные вопросы о надёжности ИИ. В конечном итоге, для создания действительно надёжных и безопасных систем ИИ нам необходимо научить их не только быть последовательными, но и критически оценивать собственные первоначальные интерпретации, даже если они кажутся абсолютно правильными.
