Операция «Прометей»: Хроники системного противостояния - читать бесплатно онлайн полную версию книги автора Misx (самиздат)

Место действия: Изолированный R&D-центр госкорпорации «Авангард». Подземный бункер, уровень «Гамма».

Время действия: Наши дни.

Проект: «Прометей». Создание программно-аппаратного комплекса для моделирования физических процессов в экстремальных условиях. Требуется разработать систему управления для нового экспериментального термоядерного реактора. Цена ошибки — катастрофа.

Действующие лица:

Алексей Волков: 45 лет, ведущий архитектор ПО. Апологет экосистемы Microsoft. Прагматик до мозга костей. Считает, что надежность и предсказуемость корпоративных решений — единственный путь для проектов такого масштаба. Дмитрий Орлов: 38 лет, главный системный инженер. Евангелист Open Source и философии Unix. Убежден, что только полный контроль над каждым компонентом системы может обеспечить истинную безопасность и производительность.

Глава 1: Развертывание на нулевом уровне

Холодный, отфильтрованный воздух бункера гудел в стойках с только что смонтированным оборудованием. Десятки серверов Supermicro с двумя сокетами под новейшие процессоры AMD EPYC и терабайтом оперативной памяти ECC на каждом молчаливо ждали своей души — операционной системы. В центре зала, на импровизированном рабочем месте, стояли две одинаковые рабочие станции Threadripper PRO, но их экраны светились совершенно по-разному.

Экран Алексея приветствовал его знакомым логотипом Windows 11 Pro for Workstations. Дмитрий смотрел на черное полотно с мигающим курсором — консоль установки Arch Linux.

— Начинаешь с игрушек, Митя? — голос Алексея был спокойным, но в нем слышалась сталь. Он методично кликал мышью, проходя через мастер первоначальной настройки. — Я уже развернул базовый образ системы, подключился к нашему временному домену Active Directory, и сейчас групповые политики накатывают базовый набор софта и сертификаты безопасности. Через пятнадцать минут у меня будет готовая к работе, централизованно управляемая и полностью аудируемая рабочая среда. А ты все еще выбираешь, какой раздел сделать загрузочным?

Дмитрий даже не повернулся. Его пальцы порхали по клавиатуре.

— Я не «выбираю», Алексей. Я строю. Я создаю инструмент под конкретную задачу, а не пытаюсь приспособить громоздкий комбайн для стрижки газона. Пока ты ждешь, пока твой Windows Update скачает очередной гигабайт патчей, которые неизвестно что сломают, я уже разметил диски. nvme0n1 и nvme1n1 в mdraid зеркало для загрузочного раздела. Остальное пространство отдано под LVM, поверх которого я подниму btrfs для корневой файловой системы и xfs для данных, требующих максимальной скорости последовательной записи. Заметь, все это делается несколькими командами в fdisk и mkfs. Я контролирую каждый блок на этом диске. А что контролируешь ты, когда твой «мастер установки» что-то там «форматирует»?

— Я контролирую результат, — отрезал Алексей, открывая консоль PowerShell. — Мне не нужно знать, в какой сектор диска записывается MBR или GPT. Мне нужно, чтобы система поддерживала ReFS (Resilient File System), которую мы будем использовать на СХД. Ее встроенный механизм data integrity streams и copy-on-write для метаданных защищает от «гниющей битой информации» (bit rot), что критично для архивных данных с реактора. Твой btrfs интересен, но он все еще считается многими нестабильным для enterprise-нагрузок, а zfs требует тащить в ядро сторонние модули через DKMS, что создает потенциальную точку отказа при обновлении ядра. ReFS — это нативная, поддерживаемая технология. И да, я уже настраиваю BitLocker с привязкой к TPM 2. 0. Данные будут зашифрованы, а ключ защищен на аппаратном уровне. Как у тебя с этим? luks? Удачи с ручным вводом пароля при каждой перезагрузке сервера.

— Элементарно, — парировал Дмитрий, не сбавляя темпа. — systemd-cryptenroll. Я привязываю ключ расшифровки LUKS-контейнера к тому же TPM 2. 0. Никаких паролей при загрузке. Но в отличие от твоего BitLocker, это открытый стандарт. Я могу использовать несколько факторов: TPM, пароль, USB-ключ FIDO2. Я могу создать резервные ключи. А что ты будешь делать, если политика AD заблокирует твою учетную запись, к которой привязан ключ? Или если слетит прошивка TPM? У тебя будет «кирпич». У меня всегда останется возможность загрузиться с live-образа и использовать один из резервных ключей для доступа к данным. Это называется эшелонированная защита, а не слепая вера в «черный ящик».

Алексей усмехнулся и развернул окно Hyper-V Manager.

— Черный ящик, который дает мне вложенную виртуализацию «из коробки». Я могу поднять внутри этой машины несколько виртуалок для тестирования взаимодействия компонентов, и все это будет управляться через WMI и PowerShell. А теперь, внимание, фокус. wsl --install -d ubuntu-22. 04. Все. Через две минуты у меня будет полноценное ядро Linux, работающее бок о бок с ядром NT. Я получу твой bash, grep, awk и доступ к apt пакетам, не жертвуя при этом ни Visual Studio, ни MS Office, ни специализированным софтом для анализа данных, который написан только под Windows. WSLg из коробки дает мне запуск Linux GUI-приложений. Это лучшее из двух миров. Ты же предлагаешь архаичный дуалбут или костыли вроде Wine.

На этом моменте Дмитрий впервые остановился и повернулся к Алексею. В его глазах горел холодный огонь.

— То, что ты называешь «лучшим из двух миров», я называю чудовищем Франкенштейна. Ты всерьез считаешь, что встраивание целого ядра Linux, работающего на тонкой прослойке гипервизора, — это элегантное решение? Ты создал шизофреническую систему. У тебя теперь две сетевые подсистемы, две модели прав доступа к файлам, два набора системных вызовов. Ты хоть представляешь, какие накладные расходы это создает на I/O операции между файловой системой NTFS и эмулируемой ext4 внутри VHDX-образа твоего WSL-дистрибутива? Это архитектурный костыль, признание того, что ваша собственная командная строка и инструменты разработки, вроде и даже PowerShell, оказались неспособны конкурировать с сорокалетней мощью и простотой sh. Ты не объединил миры. Ты запер зверя в клетке и показываешь его в цирке. Я же живу с этим «зверем» в дикой природе и понимаю его. Я могу запустить любое Windows-приложение, которое мне понадобится, в KVM/QEMU с пробросом видеокарты (VGA Passthrough), и оно будет работать с почти нативной производительностью, но при этом будет полностью изолировано от моей хост-системы. Моя система останется чистой, предсказуемой и безопасной.

— Безопасной? — Алексей поднял бровь. — Ты сейчас серьезно? Твоя «безопасность» — это sudo перед каждой командой и надежда, что в скачанном из AUR пакете не сидит троян? Моя безопасность — это AppLocker, который по белым спискам запрещает запуск любого неавторизованного исполняемого файла. Это Device Guard, который использует виртуализацию (VBS) для изоляции ядра и защиты от эксплойтов нулевого дня. Это Credential Guard, который хранит учетные данные в изолированной среде, недоступной даже для кода с правами администратора. А у тебя что? SELinux или AppArmor? Прекрасные технологии, но кто их настраивает в реальной жизни? Это требует колоссальной экспертизы. 99% твоих адептов просто отключают их, потому что «не работает». Моя система безопасна по умолчанию. Твоя — только в руках эксперта, у которого есть месяцы на тонкую настройку политик. У нас нет этих месяцев.

— У нас нет права на ошибку, которую допустит твоя «безопасность по умолчанию», — голос Дмитрия стал тише, но весомее. — Ты полагаешься на сложные, непрозрачные системы, написанные тысячами программистов в Редмонде. Ты веришь им на слово. Я полагаюсь на открытые алгоритмы и исходный код, который я, или любой другой эксперт в мире, может проверить. Ты говоришь про AppLocker? Я могу сделать то же самое с помощью fanotify и собственных правил в nftables. Ты говоришь про изоляцию ядра? Технология kGraft или Kplice позволяет мне на лету патчить уязвимости ядра без перезагрузки всей машины, на которой, возможно, в этот момент идет критически важный расчет. А ты будешь ждать «вторника патчей», перезагружать всю систему и молиться, чтобы новый патч не вызвал синий экран. Твоя безопасность реактивна. Моя — проактивна. Я строю стены сам, и я знаю каждый кирпич в них. Ты покупаешь готовый дом и надеешься, что строители не схалтурили на фундаменте. Для проекта «Прометей» такая надежда недопустима.

Наступила тишина, нарушаемая лишь шелестом вентиляторов. Оба понимали, что этот спор — лишь прелюдия. Настоящая битва начнется, когда они перейдут от рабочих станций к серверной инфраструктуре.

Глава 2: Архитектура ядра и планировщик задач

Неделю спустя. Первый кластер из десяти серверов был готов к установке ОС. Алексей развернул на одном из них Windows Server 2025 Datacenter Edition, Дмитрий — Debian 13 "Trixie" с кастомным ядром. Они стояли перед монитором, подключенным к KVM-переключателю, и на экране был код простого, но очень требовательного теста: программа, создающая тысячи потоков, активно работающих с памятью и дисковым I/O, имитируя сбор данных с датчиков реактора.

— Смотри, — Алексей указал на график в «Мониторе производительности». — Планировщик потоков Windows (NT scheduler) прекрасно справляется. Он использует UMS (User-Mode Scheduling), что позволяет приложениям вроде нашего SQL Server самим управлять своими потоками, избегая дорогостоящих переключений контекста в режим ядра. Для высокопроизводительных вычислений это идеально. Задержки минимальны.

— Ты видишь красивый график, я вижу неэффективность, — возразил Дмитрий, переключая KVM на свой сервер. На экране был вывод утилиты perf. — Твой планировщик — черный ящик. У меня же — CFS (Completely Fair Scheduler). Его цель — дать каждому процессу справедливую долю процессорного времени. Он основан на идее идеального многозадачного процессора и использует красно-черные деревья для отслеживания времени выполнения каждого процесса. Но для нашей задачи он не идеален. Поэтому, — он набрал команду make menuconfig, и на экране появилось меню конфигурации ядра Linux, — я могу его заменить. Например, на BFS (Brain Fuck Scheduler), который использует простую односвязную очередь и нацелен на максимальную отзывчивость, что важно для системы управления. Или, что еще лучше, я могу включить опции CONFIG_PREEMPT_RT и превратить ядро в систему реального времени. Это позволит гарантировать, что задача обработки критического сигнала с датчика будет выполнена в строго определенный временной квант, даже под высочайшей нагрузкой. Ты можешь так сделать со своим ядром NT? Гарантировать детерминированное время отклика? Нет. Твоя система — это система общего назначения. Моя может стать специализированным инструментом.

— Твоя «гибкость» — это палка о двух концах, — не сдавался Алексей. — Ты сейчас соберешь ядро, которое будет прекрасно работать на этом тесте. А завтра мы запустим другую задачу, и твой хваленый BFS или RT-патч вызовет kernel panic, потому что какой-нибудь драйвер или подсистема не были рассчитаны на такую модель вытеснения. Мое ядро монолитно и предсказуемо. Миллионы часов тестирования в Microsoft гарантируют, что оно будет работать стабильно под любой нагрузкой. А что касается реального времени, для этого есть Windows IoT Enterprise, где реализованы необходимые механизмы. Но мы говорим о серверах обработки данных, а не о контроллерах. Здесь важнее пропускная способность, а не микросекундные задержки. И давай поговорим о памяти. Моя система поддерживает NUMA (Non-uniform memory access) на аппаратном уровне. Я могу привязать процесс к конкретному узлу NUMA, чтобы он использовал «локальную» для процессорного ядра память, что кардинально снижает задержки.

— numactl в помощь, — усмехнулся Дмитрий. — Я могу делать то же самое, привязывая процесс не только к узлу NUMA, но и к конкретным ядрам CPU (taskset). Но я могу пойти дальше. Я могу использовать Huge Pages, чтобы уменьшить нагрузку на TLB (Translation Lookaside Buffer) и ускорить доступ к большим объемам памяти для наших расчетных модулей. И я могу настроить swappiness, чтобы указать ядру, насколько агрессивно оно должно сбрасывать данные из RAM в своп. Я могу выбрать один из десятка I/O schedulers — noop для SSD, kyber для быстрых NVMe-устройств, bfq для повышения отзывчивости. У меня есть ручки для тюнинга каждого аспекта работы ядра. У тебя есть только галочки в GUI и ключи в реестре, документация к которым часто устарела или неполна.

Глава 3: Сетевой стек и фатальный пакет

Проблема возникла неожиданно. При передаче больших объемов данных (более 100 ГБ) между серверами Алексея и серверами Дмитрия соединение обрывалось. Не всегда, а примерно в 30% случаев.

Алексей запустил Wireshark на своем Windows Server.

— Вот оно, — сказал он, указывая на экран. — Мой сервер отправляет TCP-пакет с флагом RST (Reset). Он разрывает соединение. Это происходит после серии TCP Retransmission. Твой сервер перестает отвечать, и мой, следуя стандарту RFC, закрывает сессию. Проблема на твоей стороне. Вероятно, твой iptables или nftables некорректно настроен и дропает пакеты.

Дмитрий сидел за своей консолью и смотрел на вывод tcpdump.

— Не так быстро. Я вижу ретрансмиссии. Но посмотри на временные метки. Они происходят после того, как твой сервер резко уменьшает TCP Window Size почти до нуля, фактически говоря мне: «Я больше не могу принимать данные». Мой сервер, естественно, перестает их слать и ждет TCP Window Update, который так и не приходит. Вместо этого твой стек паникует и шлет RST. Проблема в твоем управлении потоком. Возможно, сетевой драйвер или сам TCP/IP стек в Windows не справляется с таким объемом данных и забивает свои буферы.

— Чушь! — отрезал Алексей. — Это сертифицированные драйверы от Mellanox. И стек TCP/IP в Windows оттачивался десятилетиями. Скорее всего, дело в алгоритме контроля перегрузки (TCP congestion control algorithm). У меня по умолчанию используется Compound TCP, который оптимизирован для соединений с большой пропускной способностью и задержкой. Какой у тебя? CUBIC? Он может быть слишком агрессивным для нашей сети.

— У меня CUBIC, да. Но я могу сменить его на лету одной командой: sysctl -w net. ipv4. tcp_congestion_control=bbr. BBR (Bottleneck Bandwidth and Round-trip propagation time) от Google — более современный алгоритм, который не зависит от потерь пакетов. Давай попробуем.

Они попробовали. Проблема осталась.

Два дня они бились над загадкой. Алексей использовал Windows Performance Analyzer, чтобы отследить каждый системный вызов, связанный с сетевым стеком. Дмитрий использовал bpftrace — мощнейший инструмент динамической трассировки, чтобы в реальном времени отслеживать вызовы функций внутри ядра Linux.

Именно Дмитрий нашел разгадку.

— Алексей, подойди. Смотри. Я написал небольшой скрипт на awk для анализа pcap-дампа. Он ищет аномалии в TCP-опциях. И вот она. В момент перед сбоем твой сервер начинает отправлять пакеты с опцией TCP Selective Acknowledgment (SACK), в которой указаны некорректные, перекрывающиеся диапазоны уже полученных байт. Это не соответствует RFC 2018. Мое ядро, видя такое нарушение протокола, считает пакет поврежденным и игнорирует его. Оно не отправляет ACK на него. Твой стек не получает подтверждения, начинает ретрансмиссии, не получает ответа, уменьшает окно, паникует и рвет соединение.

Алексей долго смотрел на экран. Потом открыл базу знаний Microsoft. Через полчаса поисков он нашел то, что искал. Свежий патч безопасности, который они установили на прошлой неделе, исправлял уязвимость в реализации TCP/IP, но имел побочный эффект: при определенных условиях высокой нагрузки и включенной функции Receive Segment Coalescing на сетевом адаптере он мог приводить к неверной генерации SACK-пакетов.

— Отключи RSC на сетевой карте, — тихо сказал Алексей.

Дмитрий ввел команду на своем сервере, чтобы тот перестал анонсировать поддержку RSC. Они запустили тест. 100 ГБ. 500 ГБ. 1 ТБ. Соединение держалось как скала.

— Баг в драйвере, который усугубил патч операционной системы, — констатировал Дмитрий. — И чтобы его найти, мне не понадобился дебаггер уровня ядра. Мне хватило открытых стандартов, текстовых утилит и знания протокола. Твой закрытый мир чуть не завел нас в тупик.

Алексей молчал. Он впервые почувствовал, что его железобетонная уверенность в корпоративном подходе дала трещину.

Глава 4: Синтез и финал

Прошло три месяца. Проект «Прометей» приближался к первому этапу сдачи. В серверной гудели стойки, но архитектура системы была уже не той, что планировалась изначально. Она была гибридной.

Ядро кластера, состоящее из сотен вычислительных узлов, работало под управлением Debian. Дмитрий лично собрал для них минималистичное ядро с RT-патчами и настроенным планировщиком I/O. Вся оркестрация производилась через Kubernetes, а конфигурация управлялась декларативно через Ansible. Это была его территория — мир эффективности и полного контроля.

Рабочие станции ученых и инженеров работали под Windows 11 for Workstations. На них стоял весь необходимый проприетарный софт для анализа и визуализации данных. Это была территория Алексея — мир удобства и привычных инструментов.

Но дьявол был в деталях, в том, как эти два мира были соединены.

Алексей, признав мощь нативных Linux-инструментов, настоял на использовании WSL2 на всех рабочих станциях. Но вместо того, чтобы использовать его как игрушку, они превратили его в мощный рабочий инструмент. Дмитрий написал скрипты, которые при первом запуске WSL настраивали окружение, монтировали сетевые диски с XFS-серверов через cifs с правильными опциями для производительности и устанавливали тот же набор консольных утилит, что и на серверах.

Ученый мог запустить на своей Windows-машине сложный расчет, который на самом деле через ssh выполнялся на Linux-кластере. Результаты сохранялись на общей файловой системе, и он тут же мог открыть их в привычном приложении под Windows.

Аутентификация была сквозной. Алексей настроил Active Directory, но Дмитрий с помощью модулей sssd и kerberos интегрировал Linux-серверы в домен. Единый вход, единые политики паролей, но при этом на Linux-машинах сохранялась стандартная POSIX-модель прав.

Когда возникла необходимость в быстрой и надежной системе обмена сообщениями между компонентами, Алексей предложил MSMQ, но Дмитрий убедил его использовать RabbitMQ, развернутый в кластере Kubernetes, доказав, что его производительность и гибкость выше. Они вместе написали библиотеки-обертки на C# и Python для взаимодействия с ним.

Они больше не спорили. Они дискутировали.

В день первого тестового запуска симуляции они стояли в центре управления, глядя на главный экран, где сходились сотни графиков. Нажатие кнопки. Загудели серверы. Данные полились с виртуальных датчиков, обрабатывались на Linux-кластере, а результаты в реальном времени строились в красивый трехмерный график на Windows-машине оператора.

Система работала. Безупречно.

— Знаешь, Митя, — сказал Алексей, не отрывая взгляда от экрана, — я до сих пор считаю, что PowerShell с его объектной моделью элегантнее, чем ваш текстовый конвейер bash.

— А я до сих пор считаю, что реестр — это самое чудовищное изобретение в истории IT, — усмехнулся Дмитрий. — Но, должен признать, твой Remote Desktop Protocol работает чертовски плавно по сравнению с любым VNC.

Они посмотрели друг на друга. В их взглядах не было вражды. Было уважение. Они не победили друг друга. Они оба победили сложность.