Все статьи
AI Модели5 мин чтения

Claude 4.5 против GPT-5: стабильность не значит ум в кодинге

Claude 4.5 Sonnet разгромил GPT-5 в тестах на кодинг, демонстрируя высокую точность и стабильность. Однако исследование выявило тревожный нюанс: стабильность может усиливать не только правильные, но и ошибочные интерпретации, делая ИИ уверенным в своей неправоте.

Claude 4.5 против GPT-5: стабильность не значит ум в кодинге

Битва гигантов ИИ: Claude 4.5 Sonnet против GPT-5 в программировании

По мере того, как агенты на базе больших языковых моделей (LLM) всё активнее внедряются в производственные системы, критически важным становится понимание их поведенческой согласованности. Проще говоря, насколько стабильно нейросеть будет выдавать схожие последовательности действий при получении идентичных задач. Недавнее исследование, опубликованное на arXiv:2603.25764v1, пролило свет на этот вопрос, сравнив производительность Claude 4.5 Sonnet, GPT-5 и Llama-3.1-70B на сложной бенчмарке SWE-bench.

Результаты оказались одновременно впечатляющими и тревожными. Claude 4.5 Sonnet продемонстрировал не только самую высокую точность, но и поразительную стабильность. Однако эта стабильность, как выяснилось, имеет свою темную сторону: чем умнее и увереннее нейросеть, тем более упорно она может совершать одну и ту же ошибку, буквально убеждая себя в собственной правоте.

Исследование стабильности и точности: Claude, GPT и Llama на SWE-bench

Для оценки поведенческой согласованности и точности моделей исследователи использовали SWE-bench — сложный бенчмарк для программной инженерии, требующий многоэтапного рассуждения. Каждая из трёх моделей — Claude 4.5 Sonnet, GPT-5 и Llama-3.1-70B — была протестирована по 50 прогонов (10 задач, по 5 прогонов на каждую). Это позволило получить обширные данные для анализа как точности решений, так и вариативности ответов.

Результаты сравнения моделей:

Анализ показал чёткую корреляцию между высокой согласованностью и высокой точностью:

  • Claude 4.5 Sonnet: Достиг самой низкой вариативности (коэффициент вариации 15.2%) и самой высокой точности (58%). Это означает, что Claude не только чаще давал правильные ответы, но и делал это наиболее предсказуемо.
  • GPT-5: Показал промежуточные результаты с коэффициентом вариации 32.2% и точностью 32%. Модель от OpenAI оказалась менее стабильной и менее точной, чем Claude.
  • Llama-3.1-70B: Продемонстрировал самую высокую вариативность (47.0%) и самую низкую точность (4%). Это указывает на значительную нестабильность и низкую надёжность в решении сложных задач программирования.

Для наглядности представим эти данные в таблице:

Модель ИИ Коэффициент вариации (CV) Точность
Claude 4.5 Sonnet 15.2% 58%
GPT-5 32.2% 32%
Llama-3.1-70B 47.0% 4%

Парадокс стабильности: когда уверенность приводит к ошибкам

Главный вывод исследования заключается в том, что согласованность усиливает результаты, но не гарантирует правильность. Это критически важный нюанс для тех, кто разворачивает LLM-агентов в продакшене.

Глубокий анализ показал, что 71% ошибок Claude 4.5 Sonnet были результатом «последовательной неверной интерпретации». Это значит, что модель делала одно и то же неверное предположение во всех прогонах одной и той же задачи. Такая «уверенность в неправоте» делает процесс отладки чрезвычайно сложным, поскольку модель не меняет свою ошибочную стратегию, даже если ей дают несколько попыток.

«71% ошибок Claude были результатом 'последовательной неверной интерпретации': модель делала одно и то же неверное предположение во всех прогонах.»

Интересно, что GPT-5 демонстрирует схожее раннее стратегическое согласие с Claude (расхождение на шаге 3.4 против 3.2), но при этом имеет в 2.1 раза более высокую вариативность. Это говорит о том, что время расхождения в стратегии само по себе не определяет общую согласованность. Возможно, именно эта «неуверенность» GPT-5, выражающаяся в большей вариативности, могла бы в некоторых случаях привести к случайному нахождению правильного решения, если бы модель не зацикливалась на одной ошибочной интерпретации.

Практические выводы для разработчиков и пользователей

Эти результаты имеют серьёзные последствия для оценки и обучения агентов ИИ, особенно для их развертывания в производственных средах. Для систем, работающих с критически важными задачами, такими как разработка программного обеспечения, точность интерпретации задачи оказывается гораздо важнее, чем просто согласованность выполнения.

Разработчикам следует уделять повышенное внимание механизмам, которые позволяют моделям пересматривать свои первоначальные предположения, а не просто повторять их. Это может потребовать новых подходов к обучению, которые поощряют исследование альтернативных решений, даже если первое кажется «уверенным».

Для тех, кто хочет самостоятельно оценить возможности Claude 4.5 Sonnet или других передовых моделей, таких как GPT-5.3 Instant, стоит помнить, что доступ к ним можно получить через dropweb VPN — сервис, предоставляющий доступ ко всем популярным нейросетям. Актуальные цены на подписку Claude Pro составляют $20 в месяц, а на ChatGPT Plus — также $20 в месяц.

Также важно использовать разнообразные тестовые сценарии, которые специально нацелены на выявление этих «последовательных неверных интерпретаций», а не только на общую точность. Модели с высокой согласованностью, но склонностью к таким ошибкам, могут быть более опасными в продакшене, чем менее согласованные, но способные к самокоррекции.

Заключение

Исследование подчеркивает сложную природу интеллекта больших языковых моделей. Хотя Claude 4.5 Sonnet показал впечатляющие результаты в кодировании, его склонность к «уверенным ошибкам» поднимает важные вопросы о надёжности ИИ. В конечном итоге, для создания действительно надёжных и безопасных систем ИИ нам необходимо научить их не только быть последовательными, но и критически оценивать собственные первоначальные интерпретации, даже если они кажутся абсолютно правильными.

Читайте также

Частые вопросы

Почему Claude 4.5 Sonnet лучше GPT-5 в кодинге?

Согласно исследованию, Claude 4.5 Sonnet показал более высокую точность (58% против 32%) и значительно меньшую вариативность ответов на бенчмарке SWE-bench по сравнению с GPT-5.

Что такое «последовательная неверная интерпретация»?

Это феномен, при котором нейросеть (например, Claude 4.5 Sonnet) делает одно и то же ошибочное предположение или принимает неверное решение во всех попытках выполнения одной и той же задачи, уверенно придерживаясь своей неверной логики.

Как стабильность ИИ влияет на его надёжность?

Высокая стабильность может быть как преимуществом (предсказуемость правильных ответов), так и недостатком. Если модель стабильно совершает одну и ту же ошибку, это усложняет отладку и может привести к системным сбоям в продакшене.

Какие модели ИИ упоминаются в исследовании?

В исследовании сравнивались Claude 4.5 Sonnet, GPT-5 и Llama-3.1-70B по их производительности и согласованности в задачах программной инженерии.

Где можно получить доступ к Claude 4.5 Sonnet или GPT-5?

Актуальные версии моделей, такие как Claude 4.5 Sonnet (через бесплатный Sonnet 4.6 или платный Pro) и GPT-5.3 Instant (бесплатно или через ChatGPT Plus), доступны на официальных сайтах Anthropic и OpenAI соответственно. Для доступа могут потребоваться VPN-сервисы.

Источник:ArXiv CS.AI
#Claude 4.5#GPT-5#ИИ#LLM#SWE-bench#разработка ПО#нейросети

Хотите попробовать?

Многие AI-сервисы недоступны в некоторых регионах. С dropweb VPN вы получаете доступ к ChatGPT, Claude, Gemini, Midjourney, Sora, Higgsfield и другим нейросетям — подключение за 2 минуты.

Узнать больше →

Читайте также

О редакции →
dropweb VPNПодключить →