Корея как идеальная ИИ-держава

Южная Корея становится главным бенефициаром ИИ-бума — продавая миру оборудование, необходимое при стремительном развитии технологий искусственного интеллекта.

Новая интрига. Догонит ли Samsung по прибыли Nvidia. Последняя отчётность поразительная. У Samsung в I квартале 2026 года $38 млрд операционной прибыли, из них 94% дало полупроводниковое подразделение Device Solutions Division. По одному из прогнозов в 2027 году прибыль корейской компании достигнет $330 млрд (примерный уровень Nvidia). Но есть нюансы. До 2027 года память может подешеветь, спрос на ИИ-железо может охладиться. Впрочем, феноменальный успех корейской экономики и так налицо.

Ещё один феноменальный успех Южной Кореи — производитель полупроводниковой памяти SK hynix. Компании повезло оказаться в самом узком месте мировой цепочки ИИ. Секрет фирмы: HBM (High Bandwidth Memory). SK объясняет суть HBM как укладку чипов памяти с вертикальными соединениями для ускорения обмена данными. SK hynix оказалась впереди Samsung именно в HBM. Она была основным поставщиком HBM для Nvidia, а в 2024 году первой начала массовое производство 12-слойной HBM3E, на 50% более ёмкой, чем прежние 8-слойные чипы. Финансовый результат получился фантастическим. За 2025 год SK hynix получила чистую прибыль $29 млрд при $65 млрд выручки.

Doosan Energy — третий феномен того, как Южная Корея оседлала бум ИИ.

Как и GE Vernova, Doosan выиграл от того, что дата-центрам нужна гарантированная мощность: газовые турбины, паровые турбины, генераторы, сервис. GE Vernova в апреле 2026 года подняла прогнозы именно на фоне спроса со стороны дата-центров и сетевой инфраструктуры; у неё бэклог вырос до $163 млрд, а к 2027 году компания ждёт $200 млрд.

Doosan в марте 2026 года объявила контракт на семь 380-МВт газовых турбин для дата-центра в США. С учётом предыдущих заказов у неё уже 12 газовых турбин для американского клиента, поставки должны идти с мая 2029 года — по одной турбине и генератору в месяц. Рынок газовых турбин очень узкий, там исторически доминировали GE Vernova, Siemens Energy, Mitsubishi Power. Doosan вошёл в этот клуб.

Doosan — ключевой поставщик тяжёлого оборудования для корейской атомной программы: реакторные компоненты, парогенераторы, турбины. Чехия выбрала корейский вариант для двух новых блоков Dukovany; контракт по двум APR-1000 оценивается примерно в $18,6 млрд, старт строительства намечен на 2029 год. Сама Doosan в феврале 2026 года объявила контракт примерно на 320 млрд вон на паровую турбину и систему управления для чехов.

Помимо Doosan, Samsung и SK hynix, у Южной Кореи есть и другие мощные ИИ-достижения. Это набор прикладных побед:

1. Naver — корейская ставка на «суверенный AI»
Naver — самый близкий аналог связки «Google + cloud + национальная LLM». У неё есть HyperCLOVA X, собственные AI-сервисы в поиске, рекламе и e-commerce, а также дата-центр GAK Sejong. В 2026 году Naver получила 400 млрд вон льготного финансирования на расширение AI-инфраструктуры и GPU-серверов. Корея пытается не полностью зависеть от американских и китайских облаков.

2. LG AI Research — EXAONE как сильная корпоративная LLM-линия
LG AI Research выпустила EXAONE 4.0 — гибридную модель с режимами reasoning / non-reasoning, версиями 32B и 1.2B, поддержкой корейского, английского и испанского. Важный плюс — открытые веса для исследовательского и прикладного использования. Отдельная интересная ветка — EXAONE Path 2.0 для цифровой патологии и онкологии: попытка сделать не чат-бота, а медицинскую foundation model.

3. Upstage — сильный AI-стартап в LLM и документообороте
Upstage делает модели Solar Pro и корпоративные инструменты для обработки документов. В 2025 году компания выпустила Solar Pro 2, а в марте 2026 года — Solar Pro 3, заявив рост в агентных задачах, reasoning и корейском языке. Это не гигант уровня Naver, но важный пример того, что в Корее есть независимые AI-лаборатории, а не только chaebol.

4. Kakao — массовый потребительский AI через KakaoTalk
Kakao интересна не столько фундаментальной моделью, сколько каналом распространения: KakaoTalk — повседневная инфраструктура для корейцев. Компания развивает Kanana, агентные функции и интеграцию с сервисами вроде поиска, карт, подарков, бронирований и медиа; OpenAI в 2025 году объявляла партнёрство с Kakao для AI-продуктов в Корее. Это может стать сильным B2C-направлением, хотя пока оно выглядит менее доказанным, чем Naver или LG.

5. Rebellions, FuriosaAI, DeepX — корейские AI-чипы против полной зависимости от Nvidia
Rebellions после слияния с Sapeon стала главным корейским претендентом в AI inference. В марте 2026 года она привлекла $400 млн, оценка — около $2,34 млрд, общий объём привлечённого капитала — $850 млн; отдельно государство одобрило инвестицию 250 млрд вон в Rebellions. FuriosaAI известна как независимый разработчик NPU, который привлёк внимание Meta и OpenAI; DeepX работает с Hyundai над low-power чипами для роботов и edge-AI.

6. Hyundai Motor Group — «physical AI»: автомобили, роботы, фабрики
Hyundai — один из самых сильных промышленных AI-сюжетов Кореи. В 2026 году Hyundai и государство договорились об инвестициях примерно 9 трлн вон, включая AI-дата-центр с 50 000 GPU, роботизированное производство и другие проекты. Nvidia также описывала корейскую программу как ставку на «physical and agentic AI», где Hyundai строит AI factory для автономного вождения и робототехники.

7. Медицинский AI: Lunit, VUNO, Coreline Soft
Lunit — один из самых коммерчески заметных корейских AI-игроков: рак, маммография, онкологические биомаркеры. В 2025 году Lunit показала рекордную выручку 83,1 млрд вон, причём 92% продаж пришлись на зарубежные рынки; в 2026 году компания сообщала о 330+ площадках и более 1 млн ежегодных скринингов в breast imaging. VUNO силён в медицинских AI-устройствах и DeepCARS для прогноза остановки сердца, но тут есть и риск: в мае 2026 года компания не получила FDA 510(k) по DeepCARS и заявила о планах повторной подачи.

8. Роботы и «обучение рук»: RLWRLD и корейская ставка на embodied AI
Свежий пример — RLWRLD, стартап, который собирает данные о движениях опытных работников, чтобы обучать «мозги» для гуманоидных роботов. AP пишет, что это часть корейской ставки на physical AI: роботы для фабрик, логистики и сервисной экономики, где страна пытается компенсировать старение населения и использовать свою производственную базу.

9. Государственная AI-инфраструктура и регулирование
Корея действует как «AI-государство»: цель — войти в топ-3 AI-держав, бюджет на AI в 2026 году должен вырасти до 10 трлн вон, а Nvidia договорилась о поставке более 260 000 Blackwell-чипов корейскому правительству и крупным компаниям. С января 2026 года вступил в силу AI Basic Act — рамочный закон об AI, доверии, безопасности и национальном управлении.

Манифест Палантира: миф и правда

Почему это называют технофашизмом и что это на самом деле?

«Манифест Палантира» — это не один старый программный документ, а свежая 22-пунктная выжимка из книги главы Palantir Алекса Карпа и Николаса Замиски The Technological Republic: Hard Power, Soft Belief, and the Future of the West. Книга вышла в 2025 году, а весной 2026 года Palantir разогнал её тезисы в соцсетях — отсюда и слово «манифест». Издатель описывает книгу как критику «самоуспокоенности Запада» и призыв к IT-индустрии заняться не приложениями и рекламными алгоритмами, а государством, обороной и гонкой ИИ-вооружений.

Суть простая: Силиконовая долина должна служить государству, армиям и спецслужбам Запада, а ИИ должен стать новым инструментом «жёсткой силы». В 22 пунктах есть тезисы о «моральном долге» инженеров перед США, о том, что «жёсткая сила» в XXI веке будет строиться на софте, что ИИ-оружие всё равно будет создано, что США стоит обсуждать возвращение воинской повинности, а Германия и Япония, по мнению авторов, слишком «обезврежены» после войны.

Почему это называют «технофашизмом»:

  1. Культ силы через технологию. В логике Карпа демократии побеждают не потому, что они морально правы, а потому что у них есть superior software, армия, разведка, автономные системы и ИИ-оружие. Это уже не гуманистическая риторика «технологии помогают людям», а мобилизационная риторика «технологии помогают государству бить врага». Reuters прямо пишет, что спрос на Palantir растёт из-за применения ИИ в современной войне, а Maven анализирует данные поля боя и помогает с идентификацией целей.
  2. Сращивание частной корпорации и силового государства. Palantir — не абстрактный философский кружок. Это поставщик софта для обороны, разведки, госструктур и коммерческих клиентов; в I квартале 2026 года выручка от американских госзаказчиков составила $687 млн. Поэтому критики видят конфликт интересов: компания продвигает идеологию, при которой её продукты становятся всё нужнее государству.
  3. Антиплюралистический тон. Самый токсичный пункт — рассуждение, что одни культуры дали миру «чудеса», а другие оказались «регрессивными и вредными», плюс критика «пустого плюрализма». Это звучит как переход от либеральной идеи равного достоинства людей к иерархии культур и цивилизаций. Именно этот кусок резко зацепил критиков.
  4. Милитаризм как норма. Манифест не просто допускает оборонные технологии, а делает их центральной гражданской обязанностью инженеров. Там есть мысль: если морпеху нужна лучшая винтовка — надо её сделать, и с софтом то же самое. Для критиков это опасный сдвиг: программист превращается в участника военно-разведывательной машины, а отказ работать на неё выставляется почти моральной слабостью.
  5. ИИ как инфраструктура принуждения. «Технофашизм» здесь означает не обязательно классический фашизм с партией, фюрером и маршем. Это скорее страх перед режимом, где решения о наблюдении, границах, полиции, войне, целях и «рисковых» людях принимаются через закрытые ИИ-системы, созданные частными подрядчиками. University of Ottawa прямо представил тему как «Technofascism: Palantir’s Manifesto», а один из экспертов назвал это видением мира, где ИИ работает как операционная система для армии и ICE1.

Но важная оговорка: ярлык «технофашизм» — полемический. В манифесте нет прямого призыва отменить выборы, ввести диктатуру или уничтожить оппозицию. Карп и Palantir подают это как защиту западной демократии от внешних противников. Их собственная формула: демократии не выживут одной моральной риторикой, им нужна «жёсткая сила», построенная на софте.

Поэтому точнее сказать так: это не нацистский манифест, а манифест техно-националистического милитаризма. Его называют «технофашизмом», потому что в нём сходятся несколько неприятных линий: культ силы, презрение к «слабому» плюрализму, цивилизационная иерархия, государственно-корпоративная связка и вера, что ИИ должен стать оружием Запада. Для Palantir это выглядит как высокая миссия. Для критиков — как самореклама поставщика цифровой дубинки.

  1. ICE — это U.S. Immigration and Customs Enforcement, по-русски обычно: Иммиграционная и таможенная полиция США или Служба иммиграционного и таможенного контроля США.
    ↩︎

Марк Андриссен верит в человека при ИИ

Дарио Амодей считает, что «50% всех технологических рабочих мест, начальные позиции юристов, консультантов и финансовых специалистов будут полностью уничтожены в течение 1–5 лет».

Но есть и обратная точка зрения. Венчурный инвестор Марк Андриссен (a16z) придерживается крайне оптимистичного взгляда на влияние технологий на рынок труда, называя теорию о массовом вытеснении людей «полностью ошибочной».

По его мнению, идея о том, что машины заберут работу у людей, основана на «экономике с нулевой суммой» и так называемом lump of labor fallacy (заблуждении о неизменном объеме труда). Он противопоставляет этому классический экономический анализ, согласно которому технология повышает предельную производительность каждого отдельного работника.

Вместо замещения человека, ИИ может рассматриваться как средство, позволяющее людям стать «лучшей версией самих себя». Технология берет на себя рутинную работу, позволяя сосредоточиться на высокоуровневых и ценных задачах. Примером служит эволюция от карандаша к печатной машинке, а затем к текстовому процессору и электронным таблицам.

Технологии не только не уничтожают работу, но и создают новые сферы занятости, которых раньше не существовало. В качестве примера приводится профессия менеджера социальных сетей, которая стала возможной только благодаря развитию интернета.

Андриссен уверен, что массовые сокращения в техсекторе связаны не с ИИ, а с экономическими факторами и ошибками управления. Рост процентных ставок заставил компании полностью пересмотреть финансовые планы. Исправляется ошибка избыточного найма. Директора компаний используют ИИ как «серебряную пулю-оправдание» для сокращений.

Инвестор называет ИИ самой гипердемократичной технологией в истории. Основная экономическая выгода от ИИ (около 99%) достанется не компаниям-разработчикам, а пользователям (потребительский излишек), которые станут эффективнее и продуктивнее в своей жизни и бизнесе.

Таким образом, с точки зрения Андриссена, технология — это не угроза занятости, а двигатель роста благосостояния и продуктивности отдельного человека.

Дарио Амодей о том, как ИИ убьёт клерков

Видео.

Ведущая:

Вот вопрос: может ли рост искусственного интеллекта привести к потере работы у обычных американцев, которые пытаются свести концы с концами? Наш следующий гость, генеральный директор одной из самых мощных ИИ-компаний в мире, говорит, что мы движемся к катастрофическому кризису занятости, о котором никто не говорит. Мы обсудим это с Дарио, генеральным директором Anthropic. Дарио, спасибо, что присоединились к нам. У вас сегодня утром важное предупреждение. О каком масштабе потерь рабочих мест мы говорим и кто находится в зоне риска?»

Дарио Амодеи:

Я работаю в сфере ИИ уже 10 лет. И, наверное, больше всего я заметил то, насколько быстро он развивается. Два года назад он был на уровне умного старшеклассника. Сейчас он, вероятно, уже на уровне умного студента колледжа и идет дальше этого. С одной стороны, я думаю, произойдет много очень хорошего. Раньше я был биологом. Мне кажется, у ИИ как раз есть те навыки, которые нужны, чтобы лечить такие серьезные болезни, как рак и болезнь Альцгеймера, чтобы обеспечивать более дешевую энергию. Много положительных вещей. Но именно эти же навыки — умение резюмировать документ, проводить мозговой штурм, составлять финансовый отчет — заставляют меня всерьез беспокоиться, что рабочие места начального уровня в финансах, консалтинге, технологиях и многих других сферах, то есть начальная офисная работа, сначала будут усиливаться ИИ, а затем довольно скоро заменяться ИИ-системами. И вполне возможно — будущее предсказывать трудно, — но вполне возможно, что мы действительно столкнемся с серьезным кризисом занятости, когда поток таких ранних офисных позиций начнет сжиматься и иссякать».

Ведущая:

Какой здесь горизонт по времени?

Дарио Амодеи:

Да, это очень трудно предсказать, учитывая, насколько быстро развивается ИИ. Но я бы не удивился, если бы где-то в пределах от одного до пяти лет мы начали видеть здесь крупные последствия. Я слышал, как многие говорят об этом в частном порядке. Руководители ИИ-компаний говорят об этом в частном порядке. Руководители других компаний тоже говорят об этом в частном порядке. Мне показалось, что до обычных людей сигнал о том, что это происходит, не доходит. Не доходит и до наших законодателей, до членов Конгресса. И я почувствовал, что должен сказать об этом публично, под запись».

Я действительно думаю, что это можно предотвратить. В США в этой области работают шесть или семь компаний. Я лишь управляю одной из них. Даже если бы наша компания сегодня остановила всю работу, все остальные продолжили бы. Даже если бы остановились все шесть компаний, Китай бы нас обогнал. Так что остановить этот автобус мы не можем. Но, думаю, у нас может быть шанс направить его. Нам нужно, чтобы члены Конгресса, законодатели и общество начали думать об этом уже сейчас. Один из первых шагов, которые мы предпринимаем, — это просто измерение последствий. Мы выпустили то, что называем нашим экономическим индексом, и с его помощью пытаемся отслеживать скорость, с которой все это происходит. В какой-то момент нужно будет пойти дальше простого измерения: строить наши ИИ-системы так, чтобы они усиливали человека, а не заменяли его. Но и это тоже не будет долгосрочным решением. Нужно думать о том, что будет делать государство. И здесь возможен широкий спектр мер, и не мне решать, какие из них правильные. Но первый шаг — люди должны начать об этом думать и начать воспринимать это очень серьезно.

Ведущая:

Да, вы говорите о том, что ИИ, возможно, уничтожит все начальные офисные должности и поднимет безработицу до 10–20%. Давайте чуть глубже поговорим о смягчении этого сценария. Как можно смягчить худший из возможных вариантов?

Дарио Амодей:

Да, точные цифры знать трудно. У меня нет хрустального шара, я не могу предсказать будущее. Но вот что я скажу: в прошлом уже были подобные технологические изменения. Разница ИИ в том, что он шире по охвату, глубже по воздействию и движется быстрее, чем прежние технологии. Что касается мер смягчения, то одна из них — просто обучать людей пользоваться ИИ. Всегда будут люди, которые используют ИИ, и помощь работникам в более быстрой адаптации, я думаю, — важный шаг. Второй шаг — возможно, государству стоит найти способ выровнять экономические условия. И, возможно, — это может быть спорное предложение, — что-то вроде налогообложения ИИ-компаний, таких как наша.

Ведущая:

Интересно слышать такой посыл от человека, который сам руководит ИИ-компанией. В каком-то смысле это общественное предупреждение о будущих рисках. Дарио, спасибо, что были с нами.

Как работает ИИ. Математический принцип

Я уже рассказывал, как объяснял другу, сидящему в колонии строгого режима, что такое ИИ, так как он уже более трёх дет лишён свободы и просто не знает, как поменялся мир за это время.

Вторая серия о том, как ИИ работает технически.

Если объяснить совсем по сути, современный ИИ вроде ChatGPT — это не «мыслящая личность» и не база готовых ответов, а очень большая математическая функция, обученная угадывать, какой следующий кусок текста наиболее вероятен после предыдущих.

1. С чего всё начинается: текст превращают в числа

Компьютер не понимает слова как человек. Для него всё должно быть числами. Поэтому фраза вроде «Как работает ИИ?» сначала разбивается на маленькие кусочки — токены. Токеном может быть слово, часть слова, знак препинания или даже пробел в особом виде. Например, «работает» может быть одним токеном, а может быть разбито на несколько частей — зависит от словаря модели.

Каждому токену соответствует номер. То есть текст сначала превращается в последовательность целых чисел. Уже это делает язык удобным для машинной обработки.

Но одного номера мало. Число «15273» само по себе не говорит, что это слово похоже на «модель» или связано с темой математики. Поэтому каждый токен переводится в вектор — длинный список чисел. Например, не просто «15273», а условно массив из 4 096 или 8 192 чисел. Это называется «эмбеддинг». Именно в таких векторах модель хранит «смысловые координаты». Слова с похожим употреблением оказываются рядом в этом многомерном пространстве.

2. Главная математика: линейная алгебра и вероятности

Внутри языковой модели почти всё держится на трёх вещах:

  1. умножение матриц;
  2. сложение и нелинейные преобразования;
  3. расчёт вероятностей.

Если очень грубо, модель берёт входные векторы и много раз прогоняет их через огромные таблицы чисел — матрицы весов. Вес — это просто параметр, число, которое модель подстроила во время обучения. Таких параметров могут быть миллиарды и сотни миллиардов.

Что делает модель на каждом шаге? Она пересчитывает представление текста, пытаясь уловить связи: к чему относится местоимение, где начало и конец мысли, какой стиль у текста, что логично продолжить дальше. Это и есть математика «понимания» в инженерном смысле: не осознание, а преобразование числовых представлений так, чтобы из них можно было хорошо предсказывать продолжение.

3. Почему все говорят про «трансформер» и attention

Большинство современных больших языковых моделей устроены по архитектуре Transformer. Её ключевая идея — attention, то есть механизм «внимания».

Когда модель читает текущий текст, она не обрабатывает каждое слово в полной изоляции. Она вычисляет, на какие предыдущие токены надо смотреть сильнее, а на какие слабее. Например, в предложении «Мария положила книгу на стол, потому что она была тяжёлая» модель пытается понять, к чему относится «она» — к книге или к столу. Для этого attention сравнивает токены друг с другом.

Технически это делается тоже через математику: из каждого токена вычисляются три вектора — Query, Key и Value. Потом считаются скалярные произведения между Query одного токена и Key других токенов. Получаются числа важности. После нормализации модель решает, сколько информации взять от каждого предыдущего элемента.

Иначе говоря, attention — это способ взвешенно смешивать контекст.

4. Как модель обучают

Обучение выглядит очень прозаично: модели дают огромные массивы текста и скрывают следующий токен. Её задача — предсказать его. Если предсказание плохое, веса немного меняют. Если хорошее — изменение меньше.

Формально модель выдаёт распределение вероятностей по словарю токенов. Например:

  • «и» — 12 %
  • «это» — 9 %
  • «модель» — 18 %
  • «работает» — 4 %

Правильный токен известен из обучающего текста. Считается ошибка, обычно через функцию потерь вроде cross-entropy. Затем по этой ошибке считается градиент — то есть как надо изменить каждый вес, чтобы в будущем ошибка стала меньше. Это делается методом обратного распространения ошибки и вариантами градиентного спуска.

Так модель проходит через гигантское количество примеров и постепенно подгоняет миллиарды параметров.

5. Где тут процессоры и почему нужны GPU

Обычный центральный процессор, CPU, хорош для самых разных задач, но плохо подходит для огромного числа одинаковых операций над матрицами. А обучение ИИ — это именно бесконечные массовые операции: умножения, сложения, нормализация, вычисление градиентов.

Поэтому используют GPU — графические процессоры. Исторически они создавались для графики, но оказались идеальны для параллельной математики. Если CPU силён в сложной логике и последовательных шагах, то GPU силён в том, чтобы одновременно выполнять тысячи похожих операций.

Для обучения крупных моделей используют не один GPU, а целые кластеры. Память тоже критична: веса модели, промежуточные активации, данные для обратного прохода — всё это занимает огромные объёмы. Поэтому важны не только вычисления, но и пропускная способность памяти, скорость обмена между ускорителями, сетевые соединения между серверами.

6. Почему всё в итоге сводится к числам

Кажется магией, что из одних чисел получается осмысленный текст. Но дело в масштабе. Если модель увидела огромное количество примеров, она начинает статистически улавливать закономерности:

  • после одних слов чаще идут другие;
  • определённые конструкции характерны для научного текста;
  • в вопросе о математике часто встречаются слова «матрица», «вектор», «вероятность»;
  • если раньше в разговоре упоминали Италию, то «Венеция» становится более вероятной, чем «Новосибирск».

То есть ИИ не «знает» всё в человеческом смысле, а строит очень сложную поверхность вероятностей над пространством текста.

7. Как происходит выдача ответа

Когда пользователь пишет запрос, модель снова превращает его в токены, прогоняет через свои слои и получает вероятности следующего токена. Затем выбирается один токен. Потом он добавляется к уже написанному тексту, и процесс повторяется.

Ответ рождается по одному токену за шаг.

Выбор бывает разным. Можно брать самый вероятный токен — это делает ответ более сухим и предсказуемым. Можно использовать «температуру» и сэмплирование: тогда из нескольких правдоподобных вариантов выбирается один случайным, но контролируемым образом. Чем выше температура, тем больше разнообразия и риск странностей. Чем ниже — тем больше шаблонности.

8. Почему ИИ ошибается и «галлюцинирует»

Потому что его цель — не «говорить правду», а строить правдоподобное продолжение. Если в данных было мало хороших примеров, если вопрос двусмысленный, если нужна точная свежая информация, модель может сгенерировать убедительный, но неверный текст.

Именно поэтому ИИ силён в языке, стиле, структуре, обобщении, программировании по шаблонам, но требует проверки там, где важны точные факты.

9. Самая короткая суть

ИИ такого типа — это гигантская система чисел, которая:

  1. переводит текст в токены и векторы;
  2. многократно преобразует их через матрицы;
  3. с помощью attention учитывает контекст;
  4. оценивает вероятности следующего токена;
  5. выдаёт ответ шаг за шагом.

Снаружи это похоже на разговор. Внутри — это колоссальная линейная алгебра, теория вероятностей, оптимизация и очень много вычислений на GPU.

На этом объяснение «на пальцах» закончено. Ниже более научное объяснение с формулами и числами.

Если смотреть уже не на общую идею, а на внутреннюю механику, то языковая модель — это композиция очень больших функций вида

fθ(x)=y,f_\theta(x)=y,

где xx — входные токены, yy — распределения вероятностей следующих токенов, а θ\theta — параметры модели. Параметров может быть 10910^9, 101010^{10} и больше: 7 млрд, 13 млрд, 70 млрд, 175 млрд и так далее. Каждый параметр — это просто число, но в сумме они образуют огромную вычислительную схему.

Токены, словарь, векторы

Пусть словарь модели содержит V=100000V=100\,000. Тогда любой текст после токенизации превращается в последовательность целых чисел:

[1542, 87, 9911, 42,][1542,\ 87,\ 9911,\ 42,\dots]

Дальше каждый токен заменяется на вектор размерности ddd. Типичные порядки: d=768d=768, 20482048, 40964096, 81928192. Если d=4096d=4096, то один токен становится точкой в пространстве из 4096 координат:

eiR4096e_i \in \mathbb{R}^{4096}

Матрица эмбеддингов имеет размер

ERV×dE \in \mathbb{R}^{V \times d}

Например, при V=100000V=100\,000 и d=4096d=4096 это уже 409,6 млн чисел только на входной словарь.

Позиция тоже кодируется числами

Порядок слов сам по себе не следует из набора токенов, поэтому к эмбеддингам добавляют позиционную информацию:

X=E(tokens)+PX = E(tokens) + P

где PP — позиционные векторы. Иначе последовательности «кот укусил пса» и «пса укусил кот» выглядели бы почти одинаково.

Если длина контекста L=8192L=8192, а размерность d=4096d=4096, то вход в один слой — это матрица

XR8192×4096X \in \mathbb{R}^{8192 \times 4096}

то есть более 33 млн чисел только в представлении текущего контекста.

Внимание как математика связи токенов

Внутри слоя трансформера вычисляются три матрицы:

Q=XWQ,K=XWK,V=XWVQ=XW_Q,\quad K=XW_K,\quad V=XW_V

где WQ,WK,WVW_Q, W_K, W_V​ — обучаемые веса. Затем строится матрица сходства:

S=QKTdkS=\frac{QK^T}{\sqrt{d_k}}

Если длина контекста LL, то SS имеет размер L×LL \times L. При L=8192L=8192 это уже

81922=671088648192^2 = 67\,108\,864

элементов — только для одной головы внимания.

После этого применяется softmax:

A=softmax(S)A=\text{softmax}(S)

и итог внимания получается так:

Attention(Q,K,V)=AV\text{Attention}(Q,K,V)=AV

Смысл в том, что каждый токен получает взвешенную смесь других токенов. Если голов внимания h=32h=32, то всё это делается параллельно 32 раза, а затем результаты склеиваются.

Многослойность

Один блок трансформера обычно содержит:

  1. multi-head attention,
  2. остаточные связи,
  3. layer normalization,
  4. feed-forward network.

Упрощённо:H1=X+MHA(X)H_1 = X + \text{MHA}(X)H2=H1+FFN(H1)H_2 = H_1 + \text{FFN}(H_1)

FFN — это обычно два линейных преобразования с расширением размерности. Например, при d=4096d=4096 внутренний слой может быть 4d=163844d=16384 или около того:

FFN(x)=W2σ(W1x)\text{FFN}(x)=W_2 \sigma(W_1 x)

Если модель имеет 32, 48 или 80 таких блоков, вычисления проходят через них последовательно. Поэтому глубина тоже измеряется десятками слоёв, а не двумя-тремя.

Откуда берётся следующий токен

После всех слоёв модель получает вектор скрытого состояния hh для последней позиции и переводит его в логиты:

z=Wouthz = W_{out} h

где zRVz \in \mathbb{R}^{V}. Если V=100000V=100\,000, то модель выдаёт 100 тысяч чисел — «сырых оценок» для всех токенов словаря. Затем снова softmax:

pi=ezij=1Vezjp_i=\frac{e^{z_i}}{\sum_{j=1}^{V} e^{z_j}}

На выходе — распределение вероятностей. Например:p(«модель»)=0.31,p(«система»)=0.22,p(«алгоритм»)=0.11p(\text{«модель»})=0.31,\quad p(\text{«система»})=0.22,\quad p(\text{«алгоритм»})=0.11p(«модель»)=0.31,p(«система»)=0.22,p(«алгоритм»)=0.11

Дальше выбирается один токен: либо максимум, либо случайная выборка из распределения.

Температура и выборка

При сэмплировании логиты часто делят на температуру TTT:pi=ezi/Tjezj/Tp_i=\frac{e^{z_i/T}}{\sum_j e^{z_j/T}}pi​=∑j​ezj​/Tezi​/T​

Если T=0.2T=0.2T=0.2, распределение становится «острее»: модель почти всегда выбирает самые вероятные варианты.
Если T=1.0T=1.0T=1.0, текст разнообразнее.
Если T=1.5T=1.5T=1.5, растёт креативность, но и вероятность абсурда тоже.

Иногда дополнительно используют top-k или top-p. Например, top-k = 40 означает: оставить только 40 самых вероятных токенов, остальные обнулить.

Обучение: ошибка и её уменьшение

На обучении известен правильный следующий токен. Потеря обычно считается через cross-entropy:L=iyilogpi\mathcal{L} = -\sum_i y_i \log p_i

Поскольку правильный токен один, формула часто упрощается до

L=logptrue\mathcal{L} = -\log p_{\text{true}}

Если модель дала правильному токену вероятность 0,9, то потеря:

log(0.9)0.105-\log(0.9)\approx 0.105

Если 0,01, то:log(0.01)4.605-\log(0.01)\approx 4.605

То есть ошибка резко растёт, когда модель уверенно ошибается.

После этого считается градиент:

θL\nabla_\theta \mathcal{L}

и параметры обновляются, например, по схеме градиентного спуска:

θt+1=θtηθL\theta_{t+1}=\theta_t-\eta \nabla_\theta \mathcal{L}

где η\eta — шаг обучения. На практике используют Adam и его варианты, где обновление сложнее и включает экспоненциальные средние градиентов.

Сколько это стоит вычислительно

Для больших моделей счёт идёт уже не на миллионы, а на квадриллионы операций. Один шаг обучения требует прямого прохода, обратного прохода и обновления весов. Грубое инженерное правило: обучение модели с NN параметрами на DDD токенах требует порядка

6ND6ND

операций с плавающей точкой.

Если взять модель в 70 млрд параметров и обучать её на 1 трлн токенов, получается порядок:

6×70109×1012=4.210236 \times 70\cdot 10^9 \times 10^{12} = 4.2 \cdot 10^{23}

операций. Это уже астрономический объём вычислений.

Память и типы чисел

Параметры хранятся не как абстрактные числа, а в конкретном формате: fp32, fp16, bfloat16, int8, int4.

Если один параметр занимает 2 байта (fp16)(fp16)(fp16), то модель на 7 млрд параметров требует минимум:

7109×214 ГБ7\cdot 10^9 \times 2 \approx 14\ \text{ГБ}

только на веса.

Для 70 млрд параметров:

70109×2140 ГБ70\cdot 10^9 \times 2 \approx 140\ \text{ГБ}

И это ещё без активаций, градиентов, состояний оптимизатора. Поэтому на обучении память может быть в несколько раз выше, чем «вес модели». Отсюда и кластеры из множества GPU.

Почему именно GPU

Главная операция — умножение больших матриц. Например, матрица 8192×40968192 \times 4096 умножается на 4096×40964096 \times 4096. Это десятки и сотни миллиардов операций даже внутри одного слоя. GPU хороши именно потому, что умеют параллельно выполнять огромное число одинаковых арифметических действий. CPU для такой нагрузки слишком «узок».

Вся магия ИИ в итоге сводится к повторению одного и того же паттерна: взять гигантские массивы чисел, перемножить, нормализовать, посчитать вероятности, сравнить с правильным ответом и немного поправить веса. Миллиарды раз.

Итого в одном абзаце

Математически языковая модель — это функция, которая преобразует последовательность токенов в последовательность распределений вероятностей. Технически она состоит из матриц весов размером в миллиарды параметров, операций вида QKTQK^TQKT, softmax, нелинейностей, градиентов и многократных обновлений θ\thetaθ. Физически всё это работает на ускорителях, которые за секунды выполняют колоссальные объёмы линейной алгебры. А текст, который видит пользователь, — лишь финальная интерпретация огромного каскада вычислений над числами.

Могу сразу сделать ещё один кусок в таком же стиле: отдельно про «почему ИИ врёт», отдельно про «что такое нейрон, слой, вес и токен» или отдельно про «сколько электричества и железа это требует».