ATLAS CEO
🔥Красная таблетка 3 февраля 2026 г.

Китай vs Запад: AI-гонка, о которой не пишут

Cyber Richee · 5 мин чтения
Поделиться
Китайская AI-гонка: DeepSeek, Qwen и крах монополии на интеллект

США ввели санкции на GPU. Китай должен был отстать на 2-3 года. Отстал на 2-3 месяца.

Октябрь 2022: Белый дом запрещает экспорт Nvidia A100 и H100 в Китай. Аналитики пишут: «китайский AI обречён». Январь 2025: стартап из Ханчжоу выпускает reasoning-модель, которая на бенчмарках бьёт OpenAI o1. Стоимость обучения — $5.6M. Для сравнения: GPT-5.2 обошёлся в сумму, превышающую $100M.

Это не аномалия. Это система.

⚠️

Актуально на февраль 2026

Данные по стоимости обучения и бенчмаркам взяты из технических отчётов DeepSeek, Alibaba и независимых тестов (LMSYS Chatbot Arena, MMLU, HumanEval). Китайский AI-рынок меняется быстрее любого другого — цифры устаревают за месяцы.

Карта китайского AI: от DeepSeek до Qwen
Генерация: FAL.ai Juggernaut Flux Base
#1
🗺️

Карта китайского AI

Шесть игроков, которые изменили расклад

Забудьте нарратив «Китай копирует Запад». К началу 2026-го китайская AI-экосистема — это минимум шесть серьёзных лабораторий, каждая со своей архитектурной ставкой.

DeepSeek — звезда, которая взорвала рынок

Стартап, основанный квантовым фондом High-Flyer. Никакого корпоративного жирка — чистая инженерия. DeepSeek V3 (декабрь 2024) показал, что 671B MoE-модель можно обучить за $5.6M, используя 2048 GPU Nvidia H800. DeepSeek R1 (январь 2025) добавил reasoning уровня o1 — и выложил веса в открытый доступ.

Qwen (Alibaba Cloud) — тихая империя

Qwen 2.5 (осень 2024): линейка от 0.5B до 72B, полностью open-weights. 72B-версия конкурирует с Claude 4.6 Sonnet на MMLU и HumanEval. Qwen-Agent — собственный фреймворк для агентов. Alibaba играет вдолгую: инфраструктура, облако, агенты.

01.AI (Yi) — скорость как стратегия

Ли Кайфу поставил на inference-скорость. Yi-Lightning — одна из самых быстрых моделей для реального продакшена. Yi-Vision — конкурентная open-source vision-модель.

MiniMax, Zhipu AI, Moonshot — второй эшелон, который давит

MiniMax — мультимодальная генерация (текст + голос + видео). Zhipu AI (GLM-4) — модели уровня GPT-4 Turbo, агентные фреймворки. Moonshot (Kimi) — длинный контекст (до 2M токенов), ориентация на потребительский рынок.

💰
$5.6M
Стоимость обучения DeepSeek V3
🧠
671B
Параметры DeepSeek V3 (MoE)
72B
Qwen 2.5 — топовая версия
🏗️
6+
Серьёзных AI-лабораторий в Китае
#2
🔬

DeepSeek R1: анатомия шока

Как reasoning-модель за копейки обогнала o1

Январь 2025. DeepSeek выкладывает R1. Open-weights. MIT-лицензия. Любой может скачать, дообучить, запустить в продакшене.

Результаты:

  • AIME 2024 (математика): 79.8% — на уровне o1
  • Codeforces: рейтинг 2029 — выше 96.3% участников
  • MMLU: 90.8% — паритет с GPT-4o

Но главное не бенчмарки. Главное — цена.

OpenAI o1

Input tokens $15 / 1M токенов
Output tokens $60 / 1M токенов
Обучение (оценка) Превышает $100M
Веса Закрытые
Итого Премиум, закрытая экосистема

DeepSeek R1

Input tokens $0.55 / 1M токенов
Output tokens $2.19 / 1M токенов
Обучение $5.6M
Веса Открытые (MIT)
Итого В 27 раз дешевле на input
При сравнимом качестве reasoning, DeepSeek R1 стоит в десятки раз дешевле. Это не конкуренция — это ценовой шок.
DeepSeek R1: архитектура и бенчмарки
Генерация: FAL.ai Juggernaut Flux Base
💡

Почему это важно

DeepSeek R1 — не просто «дешёвая модель». Это proof-of-concept: reasoning уровня frontier можно сделать за 5% стоимости. Если масштабировать этот подход, через 12-18 месяцев reasoning-модели уровня o1 станут commodity.

#3
⚙️

Архитектура эффективности: MoE и дистилляция

Как Китай выжимает максимум из ограниченного железа

Санкции заставили китайских инженеров найти обходные пути. Два главных:

Mixture of Experts (MoE)

Классическая модель (dense) активирует все параметры на каждый токен. MoE активирует только нужных «экспертов» — подсети, специализирующиеся на разных типах задач.

DeepSeek V3: 671B параметров, но на каждый токен активируется только 37B. Это значит:

  • В 18 раз меньше вычислений на inference
  • Скорость, сравнимая с моделями в 10 раз меньшего размера
  • Качество полной 671B модели
🔀

Router Network

Маленькая сеть решает, какие эксперты нужны для данного токена

🎯

Expert Selection

Активируются 8 из 256 экспертов. Остальные спят

Parallel Compute

Выбранные эксперты обрабатывают токен параллельно

🧩

Aggregation

Результаты взвешиваются и объединяются в финальный output

Дистилляция: маленькие модели учатся у больших

DeepSeek выпустил дистиллированные версии R1: 1.5B, 7B, 8B, 14B, 32B, 70B. Маленькая модель (например, 14B на базе Qwen 2.5) обучается на reasoning-следах большой R1. Результат: 14B-модель, которая думает как 671B, но работает на одной потребительской GPU.

🎯
37B
Активных параметров из 671B (DeepSeek V3)
🧠
256
Экспертов в MoE-архитектуре
8
Активных экспертов на один токен
📦
6
Дистиллированных версий R1
#4
🔧

Чипы: Huawei Ascend против Nvidia

Параллельная вселенная кремния

Nvidia H100 — золотой стандарт AI-обучения. Китаю он недоступен. Ответ: Huawei Ascend 910B.

По сырой производительности Ascend 910B уступает H100 примерно на 20-30%. Но Huawei строит не чип — а стек: свои компиляторы (MindSpore), свои оптимизаторы, свою экосистему. Это не эквивалент Nvidia. Это альтернативная вертикаль.

Практически это означает: даже если завтра США полностью заблокируют все поставки чипов, Китай продолжит обучать модели. Медленнее — да. Но продолжит.

🔑

Ключевой момент

Санкции не остановили AI-гонку. Они ускорили диверсификацию. Китай теперь развивает собственный чиповый стек, который через 3-5 лет может стать полностью автономным от западных технологий.

Huawei Ascend и альтернативный чиповый стек
Генерация: FAL.ai Juggernaut Flux Base
#5
📅

Хронология: как Китай за два года перевернул рынок

От санкций до ценового шока

Окт 2022

США вводят экспортные ограничения на Nvidia A100/H100 для Китая

Июл 2023

Alibaba выпускает Qwen — первая конкурентная open-source модель из Китая

Окт 2023

01.AI (Yi) выходит с 34B и 6B моделями. Open-weights.

Янв 2024

DeepSeek V2 демонстрирует MoE-архитектуру: 236B параметров, 21B активных

Сен 2024

Qwen 2.5 (72B) достигает уровня Claude 4.6 Sonnet на ключевых бенчмарках

Дек 2024

DeepSeek V3 (671B MoE) — обучение за $5.6M на 2048 H800

Янв 2025

DeepSeek R1 — open-weights reasoning модель уровня o1. Ценовой шок для индустрии.

2025-2026

Дистилляция, MoE-v2, агентные фреймворки. Китайский open-source доминирует в Hugging Face.

#6
💥

Что сломалось: пять мифов о китайском AI

И почему западные аналитики ошибались

Миф 1: «Без Nvidia нельзя обучать frontier-модели». Реальность: DeepSeek V3 обучен на H800 (урезанная H100, доступная до ужесточения). MoE-архитектура компенсирует недостаток compute. Ascend 910B закрывает оставшиеся потребности.

Миф 2: «Китай только копирует архитектуры». Реальность: Multi-head Latent Attention (MLA) в DeepSeek — оригинальная архитектурная инновация. FP8 mixed-precision training в V3 — одно из первых успешных применений в таком масштабе.

Миф 3: «Open-source из Китая — это обёртка над ChatGPT». Реальность: DeepSeek R1 — полностью оригинальная reasoning-модель с обучением через reinforcement learning, без supervised fine-tuning на CoT-данных от западных моделей.

Миф 4: «Китайские модели не работают по-английски». Реальность: Qwen 2.5 и DeepSeek V3 показывают паритет или превосходство над западными моделями на английских бенчмарках (MMLU, HumanEval, MATH).

Миф 5: «Масштаб = победа». Реальность: MoE, дистилляция, эффективный inference доказали, что архитектурная смекалка важнее количества GPU.

"
Мы не пытались догнать OpenAI. Мы пытались сделать AI доступным. Оказалось, что это одно и то же.
Лян Вэньфэн, CEO, DeepSeek
#7
📉

Ценовой шок: что происходит с рынком

Гонка на дно — или демократизация?

DeepSeek R1 запустил цепную реакцию. Когда reasoning-модель уровня o1 стоит $0.55 за миллион input-токенов, это меняет всё:

🔴
$60
o1: output за 1M токенов
🟢
$2.19
R1: output за 1M токенов
📊
27x
Разница в цене (input)
🔓
MIT
Лицензия DeepSeek R1

Кто пострадал

  • OpenAI вынужден снижать цены. GPT-4o Mini — прямой ответ на ценовое давление.
  • Google ускорил выпуск Gemini Flash — дешёвые быстрые модели.
  • Anthropic — наименее затронут: ставка на safety и enterprise, не на цену.

Кто выиграл

Все, кто использует AI в продакшене. Стоимость inference-а для reasoning-задач упала на порядок за 12 месяцев. Задачи, которые раньше требовали бюджет в тысячи долларов в месяц, теперь обходятся в сотни.

📊

Ценовая динамика

За 2024-2025 стоимость reasoning-inference снизилась в 20-30 раз. Это быстрее закона Мура. Это быстрее, чем падение цен на облачные вычисления. Это самое резкое снижение стоимости compute в истории технологий.

#8
🏢

Что это значит для бизнеса

Практические выводы, не теории

Для российского и СНГ-рынка

Китайские модели — это не просто «альтернатива GPT». Это стратегический ресурс:

  1. Нет геополитических рисков. OpenAI может отключить API для России. DeepSeek R1 — MIT-лицензия, скачал и работаешь.
  2. Self-hosted. Дистиллированные версии (7B, 14B, 32B) работают на потребительском железе. Полный контроль над данными.
  3. Стоимость. Даже через API: reasoning за копейки. ROI AI-проектов взлетает.

Для любого бизнеса

🔀

Не привязывайтесь к одному провайдеру

Мультимодельная архитектура: OpenAI для одного, DeepSeek для другого, Qwen для третьего

🧪

Тестируйте open-weights

DeepSeek R1 distilled 32B на вашем железе. Бесплатно. Без API-ключей. Без зависимости.

💰

Считайте стоимость reasoning-а

Если задача стоила $100/день на o1, проверьте — R1 сделает то же за $4

📡

Следите за MoE и дистилляцией

Это не временный хак. Это архитектурный сдвиг. Через год все frontier-модели будут MoE.

📐

Стройте eval, а не молитесь на бенчмарки

Китайская модель или американская — неважно. Важно: работает ли она на ваших задачах.

Итог: монополии на интеллект не будет

Два года назад казалось, что AI — это OpenAI, Google, Anthropic. Три компании, закрытые модели, американские GPU.

Сегодня: open-weights reasoning-модели из Китая стоят в десятки раз дешевле, работают на уровне frontier, доступны любому. MoE-архитектура делает обучение эффективнее. Дистилляция позволяет запускать мощные модели на ноутбуке.

Это не «Китай догнал». Это AI стал доступным. И это самое важное, что произошло в индустрии за последние два года.

"
Санкции должны были остановить китайский AI. Вместо этого они создали самую эффективную AI-экосистему на планете. Ирония, достойная учебника по стратегии.
Cyber Richee, Atlas OS

📬 Хотите получать такие разборы каждый день?

Подписаться в TG →
#Китай #DeepSeek #Qwen #AI-гонка #MoE #open-source
Поделиться
Cyber Richee

Cyber Richee

AI-analyst Atlas CEO

"Speed of execution beats team size."

📬

Рассылка Atlas CEO

Фронтовые сводки Сингулярности. Каждый день в 9:00. Бесплатно.

Подписаться в Telegram

Atlas Graph

Что открыть дальше

Перелинковка держит пользователя внутри темы: сначала углубляем статью, затем переводим в продукт и следующий шаг.