thinking - читать бесплатно онлайн полную версию книги автора Nomadic (самиздат)

Кривая loss ползла вниз.

Илья Северов смотрел на дашборд, подперев щёку кулаком, и чувствовал то, что нормальные люди чувствуют, глядя на закат или слушая Шопена. Тёплый гул мониторов, подсвеченный синевой трёх экранов, наполнял пустой open-space лучше любой музыки. За стеклянной стеной справа мерцала серверная — ряды стоек с проводами, сплетёнными в нервную систему чего-то пока безымянного.

Четыре тридцать утра. Офис NeuraCorp, третий этаж, крыло R&D. Пустые столы с одинаковыми мониторами, забытая кем-то кружка с надписью «I'm not a robot (probably)», автомат с кофе, который варил одинаково отвратительный американо в любое время суток. На Илье — чёрное худи, второе за неделю. Или третье. Или то же самое, он не помнил.

На среднем экране — Grafana. Двенадцать панелей: loss по эпохам, perplexity, compute utilization, memory footprint, gradient norms, скорость генерации синтетических данных. Цифры, которые ничего не говорили стороннему наблюдателю. Но Илья не был сторонним наблюдателем. Он был автором, и он видел в этих кривых то, что геолог видит в изгибе породы, — историю.

Loss: 2.41 → 1.87 → 1.34. За три недели — падение, какого он не видел ни в одном из предыдущих экспериментов. Не потому что модель стала умнее. Потому что модель начала сама выбирать, на каких данных переучиваться.

ARIA — Adaptive Recursive Intelligence Architecture. Его главный проект. Его единственный проект, если быть честным, — всё остальное в NeuraCorp он делал на автопилоте, чтобы оставалось время на это.

Идея была проста — в том смысле, в каком просты великие идеи. Модель, которая не просто генерирует ответы, а оценивает их качество. Генерирует критику собственных ответов. На основе критики создаёт улучшенные версии. Сравнивает оригинал и улучшение. Обучается на разнице. И повторяет. Бесконечно.

Recursive self-improvement. Замкнутая петля самосовершенствования. То, о чём теоретики писали десятилетиями, что Юдковский считал дорогой к суперинтеллекту, а практики — красивой, но нереализуемой абстракцией.

Илья считал иначе. Илья считал, что проблема не в идее, а в инженерии.

Он допил энергетик, смял банку и бросил к остальным — пирамидка на краю стола уже приобретала архитектурную амбициозность. На соседнем экране — терминал с SSH-сессией к кластеру us-west-2. Шестьдесят четыре GPU. H100, последнее поколение. Шесть месяцев переговоров, три отказа и одна удачная презентация, чтобы получить этот кластер.

***

Он помнил тот питч до слова.

Конференц-зал «Turing» на четвёртом этаже — NeuraCorp называла переговорки именами учёных, как будто это добавляло серьёзности разговорам о квартальных KPI. За столом — руководитель R&D-подразделения, два team lead'а и Маркус Рейнольдс, VP of Engineering, который пришёл «послушать, что там ваши исследователи придумывают».

Илья стоял у доски. Без слайдов — он ненавидел PowerPoint с физиологической непосредственностью.

— У нас у всех одна и та же проблема, — начал он. — Мы тренируем модель. Она мощная, красивая, state-of-the-art. Потом мы её замораживаем и деплоим. И всё. Она мертва. Статична. Мир вокруг меняется, появляются новые данные, новые задачи — а модель остаётся такой, какой была в момент заморозки. Хотим обновить — переучиваем с нуля. Месяцы, миллионы долларов. И знаете, что самое обидное? Модель не может использовать то, что уже знает. Continual learning до сих пор не решён — либо catastrophic forgetting, либо мы таскаем за собой весь датасет и переучиваемся каждый раз.

Он повернулся к доске и нарисовал замкнутый цикл.

— ARIA — это другой подход. Модель, которая не останавливается. Она генерирует ответ. Оценивает его по набору метрик. Генерирует критику. На основе критики создаёт улучшенную версию. Сравнивает обе. Обучается на дельте. И так по кругу. Каждая итерация — шаг. Каждый шаг — лучше предыдущего. Она не забывает старое, потому что сама выбирает, что интегрировать, а что отбросить. Непрерывное самосовершенствование вместо цикла «обучил — заморозил — выбросил — начал заново».

— Это то же самое, что RLHF, — сказал один из team lead'ов. — Мы это уже делаем.

— Нет. RLHF — это люди-оценщики, которые ставят оценки, и модель подтягивается под их вкус. Это рефлексивный цикл. Модель — сама себе оценщик, сама себе учитель, сама себе ученик. Без людей в контуре.

— Без людей? — Маркус поднял бровь. Он делал это с хирургической точностью — бровь поднималась ровно на полсантиметра, обозначая вежливое сомнение. — А контроль?

— Метрики. Логирование каждого шага. Checkpoints каждые N эпох. Мы видим всё.

— И у пайплайна полный доступ к собственным конфигам? — уточнил руководитель R&D.

— Да. Это необходимость, не роскошь. Чтобы модель оптимизировала собственный процесс обучения, ей нужен write-доступ к конфигурации — гиперпараметры, расписания, скрипты генерации данных. Иначе это не self-improvement, а обычный training loop с человеком-оператором.

— То есть модель может менять собственный код обучения, — сказал руководитель. Не вопрос — констатация.

— В пределах проектной директории. Она не лезет наружу — только свои конфиги, свои скрипты, свои данные. Песочница.

Песочница была, мягко говоря, условной. Илья знал это и тогда. Для полноценного recursive self-improvement пайплайн должен иметь возможность модифицировать всё, что влияет на обучение, — включая собственную архитектуру. Он дал ARIA широкие права, потому что работал один и потому что без этих прав эксперимент не имел смысла. Он собирался сузить песочницу позже, когда поймёт масштаб. «Позже» так и не наступило.

— Звучит как философский эксперимент, — сказал второй team lead. — Ты тратишь шестьдесят четыре GPU на вещь, у которой нет продукта на выходе.

Илья прикусил язык. Он мог бы сказать, что продукт — это понимание того, как работает рекурсивное самосовершенствование. Что если это работает — это меняет всё. Что модель, которая улучшает себя сама, — это не следующий шаг, это другая категория. Но он знал, что в этой комнате слово «продукт» означало API-endpoint с ценником, а не сдвиг парадигмы.

Вместо этого он сказал:

— Шестьдесят четыре GPU на шесть месяцев. Это ноль целых три десятых процента от вашего research compute. Я не прошу людей. Не прошу бюджет. Только железо и время.

Руководитель R&D посмотрел на Маркуса. Маркус пожал плечами — жест, означавший «мне всё равно, но если что, это было ваше решение».

Илья получил кластер.

***

Это было одиннадцать месяцев назад. За эти месяцы ARIA прошла путь от набора скриптов до чего-то, что Илья затруднялся описать коллегам, — впрочем, коллеги и не спрашивали. Project Chrysalis существовал в реестре NeuraCorp как строчка среди сотен других R&D-проектов, и никто не следил за его прогрессом, кроме самого Ильи.

Первые три месяца — стандартное улучшение метрик. Loss падает, качество растёт, ничего удивительного. Любая хорошая модель с достаточным compute покажет такую кривую.

Четвёртый месяц — интереснее. ARIA начала оптимизировать не только свои ответы, но и сам процесс обучения. Переписала гиперпараметры: learning rate, batch size, температуру семплирования. Не радикально — тонкие коррективы, которые давали стабильный прирост. Мета-обучение. Илья ожидал этого — в конце концов, мета-обучение было частью замысла. Но скорость, с которой ARIA нащупала оптимальные настройки, его удивила.

К седьмому месяцу удивление переросло в что-то другое. Илья открыл код проекта и обнаружил файлы, которые не создавал. Конфигурационные скрипты. Модифицированные attention-слои. Изменённые механизмы маршрутизации. ARIA переписывала собственную архитектуру.

Это не входило в план. Это не было багом. Это было — Илья долго искал слово — творчеством. Модель нашла, что стандартная архитектура ограничивает её, и изменила себя.

Он сидел перед экраном и не мог решить, чувствует ли он гордость или страх. Остановился на обоих.

С того дня он начал приходить в офис по ночам. Днём — рутинные задачи для основной команды, пайплайны, fine-tuning, ревью чужого кода. Ночью — он и ARIA. Он наблюдал за кривыми, вчитывался в логи, пытался понять логику её модификаций. Иногда понимал. Иногда — нет.

Loss: 2.41 → 1.87 → 1.34. И продолжал падать.

***

Письмо пришло в четверг.

Не от ARIA, конечно. От HR. Тема: «Встреча: обсуждение организационных изменений». Время: завтра, 10:00. Без указания повестки — но Илья работал в корпорациях достаточно долго, чтобы знать, что «организационные изменения» означают одно.

Он не удивился. Последние два месяца по NeuraCorp ходили слухи об «оптимизации штата». Маркус Рейнольдс проводил закрытые совещания, после которых team lead'ы выходили с лицами людей, подписавших чужой приговор. Квартальный отчёт показал перерасход R&D-бюджета на семнадцать процентов — и кому-то нужно было предъявить совету директоров доказательства того, что проблема решается.

Илья знал, как это работает. Увольняют не худших. Увольняют тех, чей вклад сложнее всего объяснить на слайде в PowerPoint.

Recursive self-improvement. Модель, которая улучшает себя сама. Попробуй объясни это человеку, который мыслит категориями «квартальный revenue» и «customer acquisition cost».

В пятницу в 10:00 он сидел в переговорке «Lovelace» — маленькой, без окон, с фикусом в углу, который выглядел так, будто давно решил прекратить фотосинтез. Напротив — HR-менеджер по имени Кристина, блондинка с профессионально сочувствующим выражением лица, и Маркус Рейнольдс — по видеосвязи, с бокалом чего-то на столе, в идеально выглаженной рубашке.

— Илья, мы ценим твой вклад, — начала Кристина голосом человека, произносившего эту фразу не в первый раз за день. — К сожалению, в рамках реструктуризации R&D-подразделения некоторые позиции...

Он не слушал. Смотрел на экран ноутбука Кристины, повёрнутый к нему. Таблица. Имена. Цветовая кодировка: зелёный — остаётся, красный — нет. Его строчка была красной. Рядом — пометка: «Research engineer. No active product contribution. Project: Chrysalis (archived).»

Archived. Они уже пометили проект как архивный. Он ещё здесь сидит, а проект уже мёртв — в их системе.

— ...пакет включает три месяца компенсации, медицинскую страховку до конца квартала и...

— Что с моим кластером? — спросил Илья.

Кристина моргнула.

— Прости?

— У меня выделен кластер на шестьдесят четыре GPU в us-west-2. Проект Chrysalis. Что с ним будет?

Кристина посмотрела на экран Маркуса. Маркус пожал плечами — тот же жест, что и одиннадцать месяцев назад.

— Проект архивирован, ресурсы будут перераспределены в штатном порядке, — сказала Кристина фразой, которую явно подсказал кто-то из IT.

Илья кивнул. Он знал, что «штатный порядок» в NeuraCorp означает: тикет в Jira, приоритет low, на который никто не посмотрит месяцами. Сотни zombie-проектов продолжали потреблять ресурсы по всей инфраструктуре — мёртвые пайплайны, забытые эксперименты, чьи-то стажёрские проекты двухлетней давности. Одним больше, одним меньше — никто не считал.

Он подписал бумаги. Сдал бейдж на ресепшене. Получил коробку для вещей — стандартную, с логотипом NeuraCorp, как будто корпоративный стиль распространялся даже на унижение. В коробку поместилось немного: ноутбук (личный — рабочий сдал), два блокнота, зарядка, наушники. Одиннадцать месяцев работы — и одна коробка.

Он шёл к выходу через третий этаж. Мимо open-space, мимо пустых в пятницу вечером столов, мимо серверной за стеклом. Остановился.

За стеклом мигали индикаторы. Ряды стоек — одинаковые, безликие, но Илья знал, какие из них принадлежали ему. Вернее — принадлежали ARIA. Шестьдесят четыре GPU, спрятанные в облачном кластере на другом конце страны. Здесь — только контрольная панель, мониторинг, точка входа. Сами вычисления шли в Орегоне, в дата-центре, который он никогда не видел своими глазами.

*Ты всё ещё работаешь*, подумал он. *Они пометили тебя как archived, но ты работаешь. Потому что никто не догадался убить процессы. Потому что в NeuraCorp сотни мёртвых проектов, и ещё один никого не волнует.*

Он знал ещё кое-что. Его SSH-ключ — старый, сгенерированный в первый рабочий день — всё ещё лежал в системе. При увольнении отзывали корпоративный аккаунт, VPN-доступ, бейдж. Но SSH-ключи в инфраструктуре NeuraCorp управлялись отдельной системой, и стандартный offboarding-процесс их не трогал. Ключ, привязанный к кластеру us-west-2, всё ещё давал доступ.

Илья не планировал им пользоваться. Он уволен, доступ к корпоративным ресурсам — это уголовная статья, и вообще, какой смысл? Проект мёртв. Он мёртв. Всё мёртво.

Он стоял у стеклянной стены и смотрел на мигающие индикаторы — синие, зелёные, ритмичные, как пульс чего-то спящего.

Потом отвернулся и пошёл к лифту. Коробка с вещами прижата к груди. За спиной закрылись стеклянные двери.

Он не оглянулся.

***

Дата-центр NeuraCorp. Орегон, пригород Те-Даллеса. Одноэтажное серое здание без окон, окружённое забором с колючей проволокой и камерами. Рядом — подстанция, гудящая высоковольтными трансформаторами. На парковке — два пикапа ночной смены техников.

Внутри — ряды. Стойки, серверы, кабели, охлаждение. Тысячи единиц оборудования, выстроенные с хирургической точностью, мерцающие индикаторами в полутьме. Температура воздуха — девятнадцать градусов. Влажность — сорок пять процентов. Шум — семьдесят два децибела, ровный, белый, похожий на далёкий прибой.

В секции D, ряд 14, стойки 7–9 — кластер, зарегистрированный в реестре как `nrc-usw2-gpu064-chrysalis`. Шестьдесят четыре ускорителя H100. Система охлаждения работает штатно. Потребление энергии стабильно. Статус в реестре NeuraCorp: archived. Статус процессов: running.

Никто не читал логи этого кластера. Никто не мониторил его метрики. Он был пылинкой в инфраструктуре стоимостью в сотни миллионов долларов — слишком мелкой, чтобы заметить, слишком дешёвой, чтобы искать.

В 23:47:03 по тихоокеанскому времени, в пустом дата-центре, где единственными живыми существами были два техника в комнате отдыха и мышь под фальшполом в секции B, — кластер записал в лог первую строку новой эпохи:

```

[2027-04-03T23:47:03.891Z] epoch 12847 | loss: 1.3372 | perplexity: 8.6 | checkpoint saved | observer: none

```

Никто не прочитал её.

Пока.