ATLAS CEO
📡Фронтовая сводка 9 февраля 2026 г.

OpenAI o3: что на самом деле означает «король бенчмарков»

Cyber Richee · 5 мин чтения
Поделиться
Frontier reasoning: бенчмарки, compute и практическая ценность

Не «96.7%». Важнее другое: как вы будете это измерять у себя.

OpenAI выпускает o3, Twitter взрывается цифрами. «Рекорд на ARC-AGI!» «Лучшая reasoning-модель!» «AGI на горизонте!» Через неделю — тишина. Ещё через месяц — новая модель, новые цифры, новый хайп-цикл.

Проблема не в моделях. Проблема в том, как индустрия читает бенчмарки. Почти любую цифру можно сделать «правдой», если сменить:

  • датасет,
  • протокол,
  • режим compute,
  • доп. инструменты,
  • способ подсчёта.

И пока вы принимаете решения на основе заголовков, а не инженерных отчётов, вы покупаете маркетинг. Не технологию.

⚠️

Актуально на 14 февраля 2026

ARC Prize прямо показывает разницу между «красивыми результатами» и тем, как модель ведёт себя при жёстком протоколе и ограничениях. Бенчмарки o3 различаются в разы в зависимости от режима compute (low/medium/high). Для бизнеса главный вывод: без собственной системы eval вы всегда будете покупать маркетинг.

Frontier reasoning: бенчмарки, compute и практическая ценность
Генерация: FAL.ai FLUX Schnell
#1
📊

Бенчмарк-царь: как работает машина хайпа

Цифра без контекста — это реклама

Бенчмарк — это инструмент, а не истина. Он отвечает только на один вопрос: «в этих условиях, с этим протоколом, на этом наборе задач — что получилось?». Измените любой параметр — получите другой ответ.

Почти всегда в публикациях смешивают три разных вещи:

  1. Способность — качество ответа модели на конкретный тип задачи.
  2. Режим compute — сколько ресурсов модель потратила на «думание». O3 в режиме high-compute показывает 96.7% на ARC-AGI-1. В low-compute — существенно меньше. Это одна и та же модель.
  3. Контур — есть ли инструменты, подсказки, внешняя память, доступ к поисковику.

Когда вы читаете «o3 набрал 96.7% на ARC-AGI», правильный вопрос не «ого, это AGI?». Правильный вопрос: при каком compute-бюджете? С каким протоколом? Сколько это стоило за одну задачу? И главное: а на моих задачах он покажет столько же?

Ответ почти всегда: нет. Бенчмарки оптимизированы под измерение. Ваш бизнес-процесс оптимизирован под результат. Это разные вещи.

Чтение бенчмарков «по заголовкам»

Ожидание цифра = абсолютная правда
Сравнение модель A всегда лучше B
Compute не учитывается вообще
Стоимость неважна, главное — рекорд
Решение берём «лидера рейтинга»
Риск переплата за маркетинг
Итого Иллюзия контроля

Инженерное чтение бенчмарков

Ожидание цифра = конкретный протокол
Сравнение A лучше B в режиме X на задаче Y
Compute фиксированный бюджет на задачу
Стоимость $/задачу определяет выбор
Решение A/B тест на своих задачах
Риск управляется eval-стендом
Итого Контроль через измерения
В проде вы покупаете не «модель». Вы покупаете поведение в вашем контуре при вашем бюджете.
#2
🧬

Эволюция reasoning-моделей

От автокомплита до адаптивного мышления

Чтобы понять, что такое o3 и почему его цифры не означают AGI, нужно видеть траекторию. Каждый «прорыв» — это не магия. Это конкретное инженерное решение, которое сдвигает одну метрику за счёт другой. Reasoning-модели — это цепочка таких решений, растянутая на четыре года.

И каждый раз — один и тот же паттерн: рекорд, хайп, разочарование, тихое внедрение в прод.

2020

GPT-3 (175B): генерация текста, zero-shot задачи. Никакого reasoning — чистый pattern matching на масштабе.

2022

Chain-of-Thought prompting: Wei et al. показывают, что если попросить модель думать по шагам, accuracy растёт на десятки процентов.

2023

GPT-5.2: мультимодальность, более глубокое reasoning. Но всё ещё single-pass: модель отвечает за один проход.

Сен 2024

OpenAI o1: первая коммерческая reasoning-модель с adaptive compute. Модель сама решает, сколько думать. Прорыв на математике и коде.

Янв 2025

DeepSeek R1: open-weights reasoning за $5.6M. Доказательство, что reasoning — не монополия OpenAI.

Фев 2025

OpenAI o3: новый рекорд на ARC-AGI-1 (96.7% high-compute). Но ARC-AGI-2 показывает скромные 4%. Адаптивный compute выходит на новый уровень.

2026

Reasoning становится commodity. Ключевой вопрос не «кто умнее», а «кто дешевле и предсказуемее».

"
ARC-AGI-1 был разработан как тест на обобщение. O3 показал, что при достаточном compute можно «пробить» почти любой бенчмарк. Поэтому мы выпустили ARC-AGI-2 — и там результаты выглядят совсем иначе.
Франсуа Шолле, Создатель ARC Prize, исследователь в Google
Эволюция reasoning-моделей от GPT-3 к o3
Генерация: FAL.ai FLUX Schnell
#3
🧪

Что говорит ARC Prize (и почему это важнее Twitter)

ARC-AGI-1 vs ARC-AGI-2: когда рекорд теряет смысл

ARC Prize — один из немногих бенчмарков, который намеренно спроектирован так, чтобы его было трудно «натренировать». Каждая задача уникальна: нет повторяющихся паттернов, нет возможности запомнить ответы. Чистая абстракция и обобщение.

O3 на ARC-AGI-1 в режиме high-compute: 96.7%. Это впечатляет. Для контекста: предыдущий рекорд на ARC-AGI-1 принадлежал o1 — около 32%. Скачок в три раза. Неудивительно, что Twitter загорелся словом «AGI».

Но есть три нюанса, о которых молчат заголовки.

Нюанс 1: стоимость. High-compute режим o3 тратит на одну задачу ARC в десятки раз больше ресурсов, чем low-compute. Это не «модель умная». Это «модель перебирает варианты, пока не найдёт правильный».

Нюанс 2: ARC-AGI-2. На следующей версии теста, более сложной и устойчивой к brute-force, o3-preview показывает около 4% в low-compute. Не 96. Четыре.

Нюанс 3: протокол. ARC Prize публикует результаты с жёстким протоколом — фиксированный бюджет, никаких инструментов, никаких подсказок. Именно поэтому их цифры заслуживают доверия.

🏆
96.7%
ARC-AGI-1 (o3, high compute)
🧩
≈4%
ARC-AGI-2 (o3-preview, low compute)
⚙️
≈13%
ARC-AGI-2 (o3-mini, medium compute)
💰
~$20
Оценочная стоимость одной ARC-задачи (high)
📊

Ценовая реальность reasoning

Если high-compute режим o3 стоит порядка $20 за одну ARC-задачу, масштабировать этот подход на реальный бизнес-процесс с тысячами задач в день физически невозможно. Рекорд — это демонстрация потолка, а не рабочий режим.

Adaptive compute и глубина рассуждений o3
Генерация: FAL.ai FLUX Schnell
#4

Adaptive compute: почему это важнее рекорда

Модель сама решает, сколько думать. Это и есть прорыв.

Главная инженерная идея o3 — не «побить бенчмарк». Это adaptive compute: модель динамически выбирает, сколько вычислительных ресурсов потратить на задачу. Простой вопрос — быстрый ответ. Сложная задача — глубокое рассуждение с перебором гипотез.

Как это работает технически: модель генерирует несколько «цепочек рассуждений» параллельно, оценивает их качество и выбирает лучшую. В low-compute режиме — одна-две цепочки. В high-compute — десятки. Это похоже на то, как шахматный движок просчитывает дерево ходов: чем больше времени, тем глубже анализ.

Для бизнеса это означает: одна и та же модель может работать в режиме «дёшево и быстро» для рутины и в режиме «дорого, но точно» для критичных задач. Без переключения между моделями, без разных промптов. Один API, один контракт, одна интеграция — но с диапазоном поведения от «быстрого ассистента» до «глубокого аналитика».

3-5 сек
Low compute: простые задачи
⏱️
30-90 сек
Medium compute: аналитика
🔬
3-10 мин
High compute: сложные задачи
💸
10-100x
Разброс стоимости между режимами

Но именно здесь начинается ловушка. Если ваш pipeline не контролирует compute-бюджет, модель может «думать» на каждый тривиальный запрос по 3 минуты. Счёт за API превратится в кошмар, а latency убьёт UX.

Как контролировать adaptive compute

Три инженерных приёма:

  1. Маршрутизация по сложности. Перед отправкой в reasoning-модель — классификатор (дешёвая модель или правила), который оценивает сложность задачи и выбирает режим compute. Простые вопросы — low, аналитика — medium, критичные решения — high.

  2. Бюджет на задачу. Жёсткий лимит: если модель не ответила за N секунд или N токенов — fallback на более быструю модель. Лучше быстрый приемлемый ответ, чем идеальный через 10 минут.

  3. Мониторинг cost/качество. Трекайте стоимость каждого вызова и корреляцию с качеством ответа. Часто medium-compute даёт 95% качества high-compute при 10% стоимости.

💡

Практический совет

Начните с low-compute для всех задач. Переключайте на medium только там, где low показывает ошибки выше порога. High-compute оставьте для edge cases, где стоимость ошибки действительно высока. Не наоборот.

"
Масштабирование inference-time compute — это следующий рубеж. Мы масштабировали обучение. Теперь мы масштабируем мышление.
Илья Суцкевер, Сооснователь OpenAI, основатель Safe Superintelligence Inc.

📬 Хотите получать такие разборы каждый день?

Подписаться в TG →
#5
🏢

Как бизнесу выбирать reasoning-модели

Не по заголовкам, а по задачам, стоимости ошибки и цене за операцию

Допустим, вы CTO или Head of AI. Вышел o3, вышел DeepSeek R1, вышел Claude 4.6 Opus. Все показывают «рекордные» цифры. Как выбирать?

Реальность: ни один бенчмарк не скажет вам, как модель поведёт себя на вашей задаче, в вашем контуре, с вашими данными. MMLU не знает про вашу CRM. ARC-AGI не знает про ваши юридические шаблоны. HumanEval не знает про ваш legacy-код на Python 2.

Правильный порядок — не «кто лучше на бенчмарке», а системная оценка по четырём осям:

  1. Классы задач. Код, аналитика, юридические тексты, поддержка, продажи, планирование — каждый класс требует своего типа reasoning.
  2. Стоимость ошибки. Где можно «галлюцинировать» (черновик блога), а где нельзя (платёжное поручение, медицинский диагноз, юридическое заключение).
  3. Контур. Нужны ли инструменты: поиск, CRM, базы знаний, калькуляции, доступ к файлам.
  4. Бюджет. Не абстрактный «мы готовы платить», а конкретный: сколько рублей за одну операцию, сколько операций в день, какой допустимый latency.

Если вы не можете ответить на все четыре вопроса для каждого класса задач — вы ещё не готовы выбирать модель. Вы готовы экспериментировать. И это нормально — но не путайте эксперимент с решением.

🔑

Золотое правило

Модель, которая показывает 95% на бенчмарке и стоит $20 за задачу, хуже модели с 87%, которая стоит $0.05 — если ваш процесс обрабатывает 10 000 задач в день. Считайте unit economics, а не проценты.

Безопасность и оценка рисков reasoning-моделей
Генерация: FAL.ai FLUX Schnell
#6
🧪

Постройте свой eval-стенд

7 шагов от хаоса к предсказуемости

Если вы хотите выбирать модели инженерно, а не по твитам, вам нужна собственная система оценки. Хорошая новость: это проще, чем кажется. Плохая новость: большинство компаний этого не делают и продолжают менять модели по статьям на Хабре.

Вот конкретный pipeline, который можно собрать за неделю.

📦

Соберите 50–200 реальных кейсов

Не синтетика, не «придумайте задачу». Реальные запросы вашей команды за последний месяц. Разделите на классы: код, аналитика, тексты, поддержка. Чем разнообразнее — тем точнее результат.

🎯

Определите «золотой ответ» и «плохой ответ»

Для каждого кейса зафиксируйте: что считается правильным (факт, формат, тон, действие) и что считается ошибкой. Это ваш ground truth. Без него eval невозможен.

⚖️

Прогоните через 3-4 модели

Одна и та же задача, одинаковый системный промпт, одинаковый контур (инструменты, память). Зафиксируйте: accuracy, latency, стоимость, формат ответа. Не меняйте промпт под модель.

Добавьте автоматическую валидацию

Правила (regex, JSON-схемы, диапазоны) + модель-валидатор (дешёвая модель проверяет ответ дорогой) + человеческий контроль для edge cases. Три слоя защиты.

📐

Зафиксируйте SLA

Конкретные цифры: максимум 5 секунд latency, максимум $0.03 за операцию, не более 3% ошибок в неделю. Если модель не укладывается — она не подходит, какой бы ни был бенчмарк.

🔄

Автоматизируйте регрессию

Каждое обновление модели (а провайдеры обновляют молча) — автоматический прогон golden set. Дрифт качества больше 2% = инцидент, откат на предыдущую версию.

📝

Документируйте и итерируйте

Каждый квартал добавляйте новые кейсы, убирайте устаревшие, обновляйте пороги. Eval — это не проект. Это процесс, как тестирование кода.

#7
🎯

Главный вывод про o3

Рекорд — это демо. Предсказуемость — это прод.

O3 — впечатляющая инженерная работа. Adaptive compute — реальный прорыв. ARC-AGI-1 на 96.7% — красивая цифра для пресс-релиза. Но давайте честно: через полгода выйдет o4, или Gemini 3, или DeepSeek R3 — и цифры снова обновятся. Гонка за рекордами бесконечна. А ваш бизнес — нет.

Ваша компания не выигрывает от «самой сильной модели на бенчмарке». Она выигрывает от предсказуемого контура:

  • Измерения — вы знаете accuracy, latency и cost на ваших задачах.
  • Ограничения — модель не может потратить бесконечный compute без вашего разрешения.
  • Политика инструментов — что модель может делать, а что требует эскалации.
  • Регрессия — каждое обновление проверяется автоматически.
  • Наблюдаемость — логи, алерты, дашборды. Если что-то сломалось, вы узнаете через минуты, а не через жалобы клиентов.
  • Абстракция — за одним интерфейсом можно переключить модель за часы, без переписывания кода.

Это и есть AI-зрелость. Не «мы используем o3». А «мы используем систему, которая работает независимо от того, какая модель внутри».

O3 может быть правильным выбором для вашей задачи. А может быть, что DeepSeek R1 за копейки решает её так же. Или Claude. Или Gemini. Единственный способ узнать — измерить самому.

Вот как выглядит зрелая AI-инфраструктура: не «мы используем лучшую модель», а «мы используем правильную модель для каждого класса задач, мы знаем её метрики, мы контролируем стоимость, и мы готовы переключиться за 24 часа, если что-то изменится». Это не о технологии. Это об инженерной культуре.

📦
50+
Кейсов в golden set (минимум)
⚖️
3-4
Модели в A/B сравнении
📏
<2%
Допустимый дрифт качества
24ч
Время переключения модели
"
Бенчмарки — это маркетинг с математическим лицом. Ваш eval-стенд — это инженерия. Выбирайте инженерию.
Cyber Richee, Atlas CEO
Практическое применение: код, аналитика, стратегия
Генерация: FAL.ai FLUX Schnell

Что делать прямо сейчас

Не ждите «идеальную модель». Её не будет. Будет бесконечная гонка: o3, o4, Gemini 3, Claude 4, DeepSeek R3. Каждый квартал — новый «лидер». Если вы каждый раз переключаетесь — вы не строите систему. Вы реагируете на маркетинг.

Вместо этого:

  • Не переключайтесь на o3 по заголовкам. Сначала — eval на ваших задачах. Потратьте 2 дня на тест, а не 2 недели на миграцию.
  • Соберите golden set из 50+ реальных кейсов и запустите A/B минимум с тремя моделями. Включите edge cases — именно на них модели различаются.
  • Зафиксируйте бюджет за операцию. Adaptive compute без лимитов = неконтролируемые расходы. Один клиент потерял $12K за неделю, потому что не поставил cap на reasoning-токены.
  • Автоматизируйте регрессию. Провайдеры обновляют модели без предупреждения. Ваш eval должен ловить дрифт раньше, чем его заметят пользователи.
  • Читайте ARC Prize, а не Twitter. Это один из немногих источников, где протокол важнее цифры.
  • Стройте абстракцию над моделями. Один интерфейс, за которым можно менять провайдера за часы, а не за недели. LiteLLM, OpenRouter, собственный router — неважно. Важна независимость.
💡

Итог

O3 — не AGI и не «просто маркетинг». Это следующий шаг в эволюции reasoning-моделей. Adaptive compute меняет экономику inference. Но чтобы извлечь из этого пользу, вам нужен собственный eval, а не чужие бенчмарки. Стройте систему измерений — и любая модель станет инструментом, а не лотереей.

Мы в Atlas CEO тестируем каждую новую модель на нашем pipeline из 200+ кейсов. O3, Claude, DeepSeek, Gemini — все проходят одинаковый eval. Результаты регулярно удивляют: «лидер бенчмарков» не всегда лидер на наших задачах. И наоборот.

Присоединяйтесь к нашему Telegram-каналу — делимся результатами, eval-фреймворками и инженерными разборами без маркетингового шума.

📬 Хотите получать такие разборы каждый день?

Подписаться в TG →
#OpenAI #o3 #reasoning #ARC-AGI #оценка моделей
Поделиться
Cyber Richee

Cyber Richee

AI-analyst Atlas CEO

"Speed of execution beats team size."

📬

Рассылка Atlas CEO

Фронтовые сводки Сингулярности. Каждый день в 9:00. Бесплатно.

Подписаться в Telegram

Atlas Graph

Что открыть дальше

Перелинковка держит пользователя внутри темы: сначала углубляем статью, затем переводим в продукт и следующий шаг.