Китай vs Запад: AI-гонка, о которой не пишут

США ввели санкции на GPU. Китай должен был отстать на 2-3 года. Отстал на 2-3 месяца.

Октябрь 2022: Белый дом запрещает экспорт Nvidia A100 и H100 в Китай. Аналитики пишут: «китайский AI обречён». Январь 2025: стартап из Ханчжоу выпускает reasoning-модель, которая на бенчмарках бьёт OpenAI o1. Стоимость обучения — $5.6M. Для сравнения: GPT-5.2 обошёлся в сумму, превышающую $100M.

Это не аномалия. Это система.

⚠️

Актуально на февраль 2026

Данные по стоимости обучения и бенчмаркам взяты из технических отчётов DeepSeek, Alibaba и независимых тестов (LMSYS Chatbot Arena, MMLU, HumanEval). Китайский AI-рынок меняется быстрее любого другого — цифры устаревают за месяцы.

🗺️

Карта китайского AI

Шесть игроков, которые изменили расклад

Забудьте нарратив «Китай копирует Запад». К началу 2026-го китайская AI-экосистема — это минимум шесть серьёзных лабораторий, каждая со своей архитектурной ставкой.

DeepSeek — звезда, которая взорвала рынок

Стартап, основанный квантовым фондом High-Flyer. Никакого корпоративного жирка — чистая инженерия. DeepSeek V3 (декабрь 2024) показал, что 671B MoE-модель можно обучить за $5.6M, используя 2048 GPU Nvidia H800. DeepSeek R1 (январь 2025) добавил reasoning уровня o1 — и выложил веса в открытый доступ.

Qwen (Alibaba Cloud) — тихая империя

Qwen 2.5 (осень 2024): линейка от 0.5B до 72B, полностью open-weights. 72B-версия конкурирует с Claude 4.6 Sonnet на MMLU и HumanEval. Qwen-Agent — собственный фреймворк для агентов. Alibaba играет вдолгую: инфраструктура, облако, агенты.

01.AI (Yi) — скорость как стратегия

Ли Кайфу поставил на inference-скорость. Yi-Lightning — одна из самых быстрых моделей для реального продакшена. Yi-Vision — конкурентная open-source vision-модель.

MiniMax, Zhipu AI, Moonshot — второй эшелон, который давит

MiniMax — мультимодальная генерация (текст + голос + видео). Zhipu AI (GLM-4) — модели уровня GPT-4 Turbo, агентные фреймворки. Moonshot (Kimi) — длинный контекст (до 2M токенов), ориентация на потребительский рынок.

💰

$5.6M

Стоимость обучения DeepSeek V3

🧠

671B

Параметры DeepSeek V3 (MoE)

⚡

72B

Qwen 2.5 — топовая версия

🏗️

Серьёзных AI-лабораторий в Китае

🔬

DeepSeek R1: анатомия шока

Как reasoning-модель за копейки обогнала o1

Январь 2025. DeepSeek выкладывает R1. Open-weights. MIT-лицензия. Любой может скачать, дообучить, запустить в продакшене.

Результаты:

AIME 2024 (математика): 79.8% — на уровне o1
Codeforces: рейтинг 2029 — выше 96.3% участников
MMLU: 90.8% — паритет с GPT-4o

Но главное не бенчмарки. Главное — цена.

❌

OpenAI o1

Input tokens $15 / 1M токенов

Output tokens $60 / 1M токенов

Обучение (оценка) Превышает $100M

Веса Закрытые

Итого Премиум, закрытая экосистема

✅

DeepSeek R1

Input tokens $0.55 / 1M токенов

Output tokens $2.19 / 1M токенов

Обучение $5.6M

Веса Открытые (MIT)

Итого В 27 раз дешевле на input

При сравнимом качестве reasoning, DeepSeek R1 стоит в десятки раз дешевле. Это не конкуренция — это ценовой шок.

DeepSeek R1: архитектура и бенчмарки — Генерация: FAL.ai Juggernaut Flux Base

💡

Почему это важно

DeepSeek R1 — не просто «дешёвая модель». Это proof-of-concept: reasoning уровня frontier можно сделать за 5% стоимости. Если масштабировать этот подход, через 12-18 месяцев reasoning-модели уровня o1 станут commodity.

⚙️

Архитектура эффективности: MoE и дистилляция

Как Китай выжимает максимум из ограниченного железа

Санкции заставили китайских инженеров найти обходные пути. Два главных:

Mixture of Experts (MoE)

Классическая модель (dense) активирует все параметры на каждый токен. MoE активирует только нужных «экспертов» — подсети, специализирующиеся на разных типах задач.

DeepSeek V3: 671B параметров, но на каждый токен активируется только 37B. Это значит:

В 18 раз меньше вычислений на inference
Скорость, сравнимая с моделями в 10 раз меньшего размера
Качество полной 671B модели

🔀

Router Network

Маленькая сеть решает, какие эксперты нужны для данного токена

🎯

Expert Selection

Активируются 8 из 256 экспертов. Остальные спят

⚡

Parallel Compute

Выбранные эксперты обрабатывают токен параллельно

🧩

Aggregation

Результаты взвешиваются и объединяются в финальный output

Дистилляция: маленькие модели учатся у больших

DeepSeek выпустил дистиллированные версии R1: 1.5B, 7B, 8B, 14B, 32B, 70B. Маленькая модель (например, 14B на базе Qwen 2.5) обучается на reasoning-следах большой R1. Результат: 14B-модель, которая думает как 671B, но работает на одной потребительской GPU.

🎯

37B

Активных параметров из 671B (DeepSeek V3)

🧠

256

Экспертов в MoE-архитектуре

⚡

Активных экспертов на один токен

📦

Дистиллированных версий R1

🔧

Чипы: Huawei Ascend против Nvidia

Параллельная вселенная кремния

Nvidia H100 — золотой стандарт AI-обучения. Китаю он недоступен. Ответ: Huawei Ascend 910B.

По сырой производительности Ascend 910B уступает H100 примерно на 20-30%. Но Huawei строит не чип — а стек: свои компиляторы (MindSpore), свои оптимизаторы, свою экосистему. Это не эквивалент Nvidia. Это альтернативная вертикаль.

Практически это означает: даже если завтра США полностью заблокируют все поставки чипов, Китай продолжит обучать модели. Медленнее — да. Но продолжит.

🔑

Ключевой момент

Санкции не остановили AI-гонку. Они ускорили диверсификацию. Китай теперь развивает собственный чиповый стек, который через 3-5 лет может стать полностью автономным от западных технологий.

Huawei Ascend и альтернативный чиповый стек — Генерация: FAL.ai Juggernaut Flux Base

📅

Хронология: как Китай за два года перевернул рынок

От санкций до ценового шока

Окт 2022

США вводят экспортные ограничения на Nvidia A100/H100 для Китая

Июл 2023

Alibaba выпускает Qwen — первая конкурентная open-source модель из Китая

Окт 2023

01.AI (Yi) выходит с 34B и 6B моделями. Open-weights.

Янв 2024

DeepSeek V2 демонстрирует MoE-архитектуру: 236B параметров, 21B активных

Сен 2024

Qwen 2.5 (72B) достигает уровня Claude 4.6 Sonnet на ключевых бенчмарках

Дек 2024

DeepSeek V3 (671B MoE) — обучение за $5.6M на 2048 H800

Янв 2025

DeepSeek R1 — open-weights reasoning модель уровня o1. Ценовой шок для индустрии.

2025-2026

Дистилляция, MoE-v2, агентные фреймворки. Китайский open-source доминирует в Hugging Face.

💥

Что сломалось: пять мифов о китайском AI

И почему западные аналитики ошибались

Миф 1: «Без Nvidia нельзя обучать frontier-модели». Реальность: DeepSeek V3 обучен на H800 (урезанная H100, доступная до ужесточения). MoE-архитектура компенсирует недостаток compute. Ascend 910B закрывает оставшиеся потребности.

Миф 2: «Китай только копирует архитектуры». Реальность: Multi-head Latent Attention (MLA) в DeepSeek — оригинальная архитектурная инновация. FP8 mixed-precision training в V3 — одно из первых успешных применений в таком масштабе.

Миф 3: «Open-source из Китая — это обёртка над ChatGPT». Реальность: DeepSeek R1 — полностью оригинальная reasoning-модель с обучением через reinforcement learning, без supervised fine-tuning на CoT-данных от западных моделей.

Миф 4: «Китайские модели не работают по-английски». Реальность: Qwen 2.5 и DeepSeek V3 показывают паритет или превосходство над западными моделями на английских бенчмарках (MMLU, HumanEval, MATH).

Миф 5: «Масштаб = победа». Реальность: MoE, дистилляция, эффективный inference доказали, что архитектурная смекалка важнее количества GPU.

Мы не пытались догнать OpenAI. Мы пытались сделать AI доступным. Оказалось, что это одно и то же.

Лян Вэньфэн, CEO, DeepSeek

📉

Ценовой шок: что происходит с рынком

Гонка на дно — или демократизация?

DeepSeek R1 запустил цепную реакцию. Когда reasoning-модель уровня o1 стоит $0.55 за миллион input-токенов, это меняет всё:

🔴

$60

o1: output за 1M токенов

🟢

$2.19

R1: output за 1M токенов

📊

27x

Разница в цене (input)

🔓

MIT

Лицензия DeepSeek R1

Кто пострадал

OpenAI вынужден снижать цены. GPT-4o Mini — прямой ответ на ценовое давление.
Google ускорил выпуск Gemini Flash — дешёвые быстрые модели.
Anthropic — наименее затронут: ставка на safety и enterprise, не на цену.

Кто выиграл

Все, кто использует AI в продакшене. Стоимость inference-а для reasoning-задач упала на порядок за 12 месяцев. Задачи, которые раньше требовали бюджет в тысячи долларов в месяц, теперь обходятся в сотни.

📊

Ценовая динамика

За 2024-2025 стоимость reasoning-inference снизилась в 20-30 раз. Это быстрее закона Мура. Это быстрее, чем падение цен на облачные вычисления. Это самое резкое снижение стоимости compute в истории технологий.

🏢

Что это значит для бизнеса

Практические выводы, не теории

Для российского и СНГ-рынка

Китайские модели — это не просто «альтернатива GPT». Это стратегический ресурс:

Нет геополитических рисков. OpenAI может отключить API для России. DeepSeek R1 — MIT-лицензия, скачал и работаешь.
Self-hosted. Дистиллированные версии (7B, 14B, 32B) работают на потребительском железе. Полный контроль над данными.
Стоимость. Даже через API: reasoning за копейки. ROI AI-проектов взлетает.

Для любого бизнеса

🔀

Не привязывайтесь к одному провайдеру

Мультимодельная архитектура: OpenAI для одного, DeepSeek для другого, Qwen для третьего

🧪

Тестируйте open-weights

DeepSeek R1 distilled 32B на вашем железе. Бесплатно. Без API-ключей. Без зависимости.

💰

Считайте стоимость reasoning-а

Если задача стоила $100/день на o1, проверьте — R1 сделает то же за $4

📡

Следите за MoE и дистилляцией

Это не временный хак. Это архитектурный сдвиг. Через год все frontier-модели будут MoE.

📐

Стройте eval, а не молитесь на бенчмарки

Китайская модель или американская — неважно. Важно: работает ли она на ваших задачах.

Итог: монополии на интеллект не будет

Два года назад казалось, что AI — это OpenAI, Google, Anthropic. Три компании, закрытые модели, американские GPU.

Сегодня: open-weights reasoning-модели из Китая стоят в десятки раз дешевле, работают на уровне frontier, доступны любому. MoE-архитектура делает обучение эффективнее. Дистилляция позволяет запускать мощные модели на ноутбуке.

Это не «Китай догнал». Это AI стал доступным. И это самое важное, что произошло в индустрии за последние два года.

Санкции должны были остановить китайский AI. Вместо этого они создали самую эффективную AI-экосистему на планете. Ирония, достойная учебника по стратегии.

Cyber Richee, Atlas OS

📬 Хотите получать такие разборы каждый день?

Подписаться в TG →