ГЛАВА 1

Весной 1995 года в конференц-зале в немецком Эрлангене провозгласили смерть mp3. В последний раз группа экспертов, предположительно независимых, решила, что эта технология гораздо хуже, чем её вечный соперник — mp2. Изобретатели mp3 поняли, что это конец.

Государственное финансирование у них заканчивалось, корпоративные спонсоры ушли и, спустя четыре года продвижения продаж, надо было крепко держаться за каждого клиента. Внимание зала обратилось на Карлхайнца Бранденбурга — главного изобретателя, «мозга» и лидера команды разработчиков mp3. Будучи ещё студентом последнего курса, Бранденбург, начав работать над этой технологией, наметил главный путь. Последние восемь лет он пытался коммерциализировать свои идеи. Он был интеллигентным и целеустремлённым, умел заразить любого своими представлениями о будущем музыки. Он распоряжался пятнадцатью инженерами и бюджетом на исследования в миллион долларов. Но, судя по заявлениям, которые здесь прозвучали, свою команду он привёл в могилу.

Бранденбург не обладал внушительной начальственной внешностью. Он был очень высок, но сутулился. Жестикуляция странная. При разговоре, покачивался с пятки на носок, слегка поматывая головой с темными, нестрижеными волосами. Частая нервная улыбка обнажала неровные мелкие зубы. За очками в тонкой проволочной оправе — узкие тёмные глаза, из неряшливой бороды торчат седые клочья, как бакенбарды.

Говорил он тихим голосом, грамматически безупречно выстраивая длиннейшие предложения, прерываемые лишь легким порывистым вдохом. Он был очень вежливым и добрым, изо всех сил старался, чтобы людям с ним было легко и просто, и именно из-за этого всё выглядело ещё более странным. В разговоре он затрагивал почти исключительно практические вопросы и, очевидно, чувствуя, что собеседник скучает, старался приправить свою речь несмешными шутками, которые к тому же не умел правильно подавать. В общем, его личность объединяла две мощнейшие и совершенно убийственные черты: скептицизм учёного и жёсткий, что называется, типично немецкий консерватизм.

При всём этом он был очень умён, обладал просто непревзойдённым талантом математика: таким, что все его современники были просто букашками рядом с ним, а это, между прочим, были те люди, которые далеко продвинулись в сложнейших академических дисциплинах. Скромность этим людям не особенно присуща, но когда они говорили о Бранденбурге, вся их надменность слетала разом — тихим голосом они признавали его талант. «Он очень хорошо знает математику», — говорил один. «Он на самом деле очень умный», — подтверждал другой. «Он решил задачу, над которой я бился безуспешно», — признался третий, а для инженера это самое страшное признание[4].

В споре Бранденбург замолкал на секунду, прищуривался, а потом уничтожал аргументацию противника своей — научной, идеально выверенной. Выражая несогласие, он говорил всё тише и тише, а его ответ обладал железной защитой со всех сторон — он никогда ничего не утверждал, не имея точнейших данных. Тогда, в том конференц-зале, он выразил комитету своё несогласие, и mp3 — не прошло.

Поражение всегда горько, особенно такое: Бранденбург потратил 13 лет жизни на то, чтобы решить одну важнейшую задачу, точку преткновения всей проблемы цифрового аудио. Корпус исследований, который комиссия отвергла, складывался десятилетиями — инженеры строили теории о чем-то вроде mp3 еще с конца 70-х. Теперь, наконец, из этого мутного научного болота всплыло нечто совершенно прекрасное — готовый продукт, венчающий разработки, над которыми бились три поколения. Только «пиджаки» в конференц-зале на это плевать хотели.

На этот путь Бранденбурга наставил его научный руководитель, у которого он писал диссертацию — лысый громогласный компьютерный инженер по имени Дитер Зайтцер. В свою очередь, Зайтцер сам был обязан этой темой своему научному руководителю, маниакальному исследователю по имени Эберхард Цвикер, отцу сложной научной дисциплины под названием «психоакустика», изучающей восприятие звука человеком. Зайтцер был не только протеже и подопытным Цвикера, но, что гораздо важнее, смертельным оппонентом. На протяжении десяти лет они каждый будний день после обеда играли в настольный теннис, и в течение этого часа Цвикер проверял на своём ученике пределы человеческого восприятия, то и дело попадая ему шариком по голове[5].

Главное открытие Цвикера, сделанное в результате проводимых десятки лет исследований, состоит в том, что человеческое ухо работает совсем не так, как микрофон. Напротив, ухо — адаптивный орган, на который естественный отбор возложил две задачи: 1) слышать и понимать речь, 2) заранее давать тревожный сигнал, о приближении огромной плотоядной кошки.

То есть ухо должно быть таким, чтобы только соответствовать этим задачам, и лучше ему быть ни к чему. Поэтому у уxa сохранились некоторые анатомические особенности, и вот как раз исследования Цвикера выявили их удивительную широту. Например, каждый человек различает два одновременных тона с интервалом в полутон или больше, а Цвикер обнаружил, что если чуть приблизить высоту тонов друг к другу, то ухо можно обмануть: оно услышит один тон. Особенно это проявляется, если нижний тон звучит громче. Также любой слушатель различает два щелчка с временным интервалом в полсекунды, но если укоротить это время на пару миллисекунд, то ухо снова обманывается и объединяет эти два щелчка в один. И здесь вновь эффект ещё более заметен, если один щелчок громче. В общем, вывод из этих иллюзий «психоакустической маскировки» таков: та реальность, которую слышит человек — по большей части фикция.

Со временем Зайтцер начал опережать своего наставника. Цвикер — анатом, его прозрения относятся к аналоговой эпохе. Зайтцер, напротив — компьютерный инженер, человек грядущей цифровой эры. У него родилась догадка о том, что, используя исследования и выводы Цвикера о несовершенстве слуха, можно делать высококачественные музыкальные записи, занимающие небольшой объём. Это прозрение открыло перед ним новые перспективы. Когда в 1982 году был представлен формат компакт-диска, инженеры превозносили его как самое главное достижение в звукозаписи. Зайтцер — практически единственный, кто счёл компакт-диск нелепым упражнением в излишестве. Рекламные тексты обещали «Идеальный звук навсегда»[6], но Зайтцер видел лишь залежи ненужной информации, большая часть которой не воспринимается человеческим ухом. Он понял, что большую часть данных, записанных на компакт-диске, можно попросту выбросить — собственно, человеческое ухо именно так и делает.

В том же году Зайтцер попытался запатентовать «Цифровой музыкальный аппарат». Идея была красивой: вместо того, чтобы печатать на заводе миллионы дисков, паковать их в пластмассовые коробочки и развозить в магазины, всю музыку загружают на сервер, к которому люди получают доступ через телефонную линию (в Германии как раз начали устанавливать новые цифровые телефонные линии), и где с помощью компьютерной клавиатуры можно выбрать любую музыку, которая становится доступной в любое время. Всё это — по подписке. Такой сервис избавляет от неудобств, связанных с физическими носителями: стереозвук доставляется прямо в телефонную трубку. Заявку на патент отклонили. Первые телефонные цифровые линии были крайне примитивны, и данные с компакт-диска никак не могли «пролезть» в их узкий канал. Чтобы воплотить идею Зайтцера, музыкальные файлы требовалось уменьшить в 12 раз[7], а в то время технологии сжатия такое даже близко не позволяли.

Несколько лет Зайтцер бился с патентным экспертом, доказывая, насколько важны открытия Цвикера, но без практических доказательств всё это оказалось совершенно безнадёжным. В конце концов, заявку свою Зайтцер отозвал, но от идеи не отказался. Цвикер уже определил недостатки восприятия уха, так что оставалось измерить их математическим способом. У Зайтцера это так и не получилось, как и у других исследователей. Но он наставил на этот путь и воодушевил своего юного протеже: студент, будущий инженер-электрик, Карлхайнц Бранденбург показался ему одним из самых умных людей, с кем он когда-либо общался.

Бранденбург заподозрил, что десять лет настольного тенниса со странным специалистом по слуху просто лишили Зайтцера рассудка. В цифровую эпоху информация хранится в битах: ноль и единица. Цель сжатия — использовать как можно меньше бит. Одна секунда стереозвука на компакт-диске требовала более 1,4 миллиона бит, но Зайтцер хотел уместить ее в 128 тысяч.

Бранденбург счёл эту цель абсурдной: это как собрать автомобиль за 200 долларов. Но, тем не менее, она показалась ему достойной его амбиций. Следующие три года он работал над этой задачей, пока, наконец, в начале 1986 года не набрёл на направление, которое никто не изучал. Назвав свою идею «анализ синтезом», он следующие несколько недель почти не спал — писал математические инструкции определения этих драгоценных бит. Начал он с нарезки аудио. С помощью «сэмплера» он нарезал входящий звук на тоненькие «щепочки» длительностью в одну секунду. Затем «банком фильтров» рассортировывал их по частотам (банк фильтров делал со звуком то же, что призма со светом). В результате появилась сетка времени и частоты, состоящая из микроскопических фрагментов звука, рассортированных в узкие высотные «ленты» — аудиовариант пикселей. Затем Бранденбург обучил компьютер упрощать эти «аудиопиксели», используя четыре трюка из психоакустического арсенала Цвикера.

Первый. Цвикер доказал, что человеческое ухо лучше всего воспринимает определённый высотный диапазон, который примерно совпадает с человеческим голосом. За этими пределами — особенно выше — слух уже воспринимает хуже. То есть для записи краёв спектра можно использовать меньше бит.

Второй. Цвикер продемонстрировал, как близкие по высоте тоны уничтожают друг друга. Конкретно: нижний тон подавляет верхний, так что когда вы оцифровываете музыку с пересекающимися инструментами, например, виолончелью и скрипкой, играющими одновременно, то скрипку можно записать меньшим количеством бит.

Третий. Согласно опытам Цвикера, слух не воспринимает звук после громкого щелчка. Так что если вы оцифровываете музыку с, например, ударами по тарелке в каждом такте, то в первые миллисекунды после удара можно оставить меньше бит.

Четвёртый и самый странный. Ухо не воспринимает также и звук до громкого удара. Дело в том, что уху требуется несколько миллисекунд, чтобы обработать услышанный звук, и удар этот процесс прерывает. То есть, если снова говорить о тарелке, то нескольким миллисекундам до удара требуется меньше бит.

Основываясь на десятилетиях эмпирического исследования слуха, Бранденбург «объяснил» битам, куда им вставать. Но это был только первый шаг. Настоящее же серьёзное достижение Бранденбурга в том, что он понял, что это — итерационный процесс. Другими словами, можно взять то, что получилось в результате сжатия по его алгоритму, снова прогнать через тот же алгоритм и повторять так столько раз, сколько угодно, доведя файл до такого крошечного размера, который вам нужен. Качество звука при каждом таком прогоне, разумеется, ухудшается: это как копия копии или четвёртая перезапись на кассету. То есть если повторить процесс миллион раз, то у вас останется только один бит.

Но если найти нужный баланс, возможно и сжать, и сохранить качество, оставив лишь те биты, которые услышит человеческое ухо.

Конечно, не любой музыке требуется столь сложный инструментарий. У скрипичного концерта много психоакустической избыточности, а у скрипичного соло — нет. Если нет ударов тарелки, накладывающейся виолончели или верхнего регистра, то нечего упрощать: есть только чистый тон, и никуда не денешься. Но в таком случае Бранденбург мог перебросить результат своего сжатия в другой метод сжатия, совершенно отличный от его способа.

Этот метод, получивший название «кодировка Хаффмана», в 50-е разработал учёный-компьютерщик Дэвид Хаффман в институте MIT. Работая на заре информационной эпохи, Хаффман заметил, что желая сэкономить биты, надо искать паттерны, образцы, потому что они по определению повторяются. То есть не надо записывать все паттерны битами, можно сделать это один раз и потом, когда необходимо, возвращаться к этой записи. С точки зрения теории информации, это — прямо как скрипичное соло: вибрирующая струна, извлекающая предсказуемые повторяющиеся звуковые паттерны в воздухе.

Эти два метода дополнили друг друга идеально: алгоритм Бранденбурга хорош для сложных, накладывающихся друг на друга шумов, кодировка Хаффмана — для чистых простых тонов. Так объединились десятки лет исследований в области акустики и анатомии с базовыми принципами теории информации и высшей математикой.

К середине 1986 года Бранденбург даже написал простенькую компьютерную программу, демонстрировавшую его метод в работе. Это знаковое достижение в его карьере: проверенный метод сохранения аудиоданных даже при самом скудном «бюджете» битов. Бранденбургу был 31 год. Первый патент он получил ещё до защиты диссертации. Бранденбург (что довольно необычно для выпускника) очень интересовался актуальным потенциалом рынка. С такими мозгами ему было обеспечено место преподавателя на испытательном сроке, но научная деятельность его не интересовала. Он ещё в детстве зачитывался биографиями великих изобретателей и усвоил, что уметь самому что-то делать руками очень важно.

Бранденбург был изобретателем, как Белл и Эдисон, и эти его амбиции поощрялись. Дитер Зайтцер, сбежав от Цвикера, большую часть карьеры сделал в IBM, собирая патенты и развивая коммерческое чутьё. Своих выпускников он тоже направлял по этому пути. Как только он увидел прогресс Бранденбурга в исследованиях психоакустики, он выгнал его из университета в Институт интегральных схем общества Фраунгофера — недавно открытый баварский технологический инкубатор, где сам был наблюдателем.

Этот институт — подразделение Общества Фраунгофера, мощной, финансируемой государством организации с десятками кампусов по всей стране — немецкий ответ Лабораториям Белла. «Фраунгофер» распределял деньги налогоплательщиков по перспективным направлениям исследований в широком спектре академических дисциплин, а когда эти исследования давали какие-то конкретные результаты, он устанавливал коммерческие отношения с крупными компаниями-производителями. За долю от будущих доходов от идей Бранденбурга, Фраунгофер предлагал современные суперкомпьютеры, высококачественное акустическое оборудование, профессиональную экспертизу в области интеллектуальной собственности и квалифицированную рабочую силу.

Последнее было важно. Метод Бранденбурга был сложным и требовал одновременно проводить несколько математических операций. Вычислительные технологии 1980-х годов с подобными задачами едва справлялись, и алгоритмическая эффективность играла ключевую роль. Бранденбургу требовался виртуоз, эдакая суперзвезда под кофеином, которая переведёт математический аппарат уровня выпускника вуза в безупречный компьютерный код. Такой нашелся во Фраунгофере: 26-летнии программист по имени Бернхард Грилл.

Грилл был ростом ниже Бранденбурга и вел себя спокойнее. Лицо — широкое, приветливое, волосы — рыжеватые и длинные. Голос — громче, чем у Бранденбурга, и более страстный, но беседы с ним протекают естественнее. Ну, и шутки он тоже шутил, да. Несмешные, конечно, но уж всяко лучше бранден-бурговских.

Нетипичный инженер, в мире аудио Грилл выделялся. Его легко вообразить представителем другой профессии. У него в натуре было что-то расслабленное, шаткое — живи он в Америке, наверняка носил бы гавайские рубашки и сандалии. Может бьггь, дело в воспитании и среде.

У Бранденбурга отец тоже был профессором, да и почти все исследователи во Фраунгофере происходили из верхушки среднего класса, а отец Грилла работал на заводе. Для Бранденбурга университетское образование — это некая данность, нечто само собой разумеющееся, просто по праву рождения, но для Грилла это было очень серьёзным достижением.

Он по-своему бунтовал против этого типично немецкого положения дел. Он страстно любил музыку, в детстве начал учиться играть на трубе, а к подростковому возрасту занимался по шесть часов в день. В двадцать с небольшим он немного поиграл в профессиональном коллективе: свинговом бэнде из 9 человек. Когда стало ясно, какие финансовые перспективы у такой карьеры, он вернулся к инженерной профессии и, в конце концов, стал изучать компьютеры. Но музыка жила в его сердце — за годы он собрал гигантскую эклектичную коллекцию записей всяких мутных, неизвестных стилей. Ещё у него было хобби: паять колонки.

К Бранденбургу и Гриллу присоединились ещё четверо исследователей из Фраунгофера. Это Хайнц Герхойзер, руководивший институтской группой изучения аудио; Харальд Попп, специалист по «железу»; Эрнст Эберляйн, эксперт в обработке сигнала; Юрген Херре, выпускник, чьи математические таланты почти равнялись талантам Бранденбурга. Впоследствии они назвали себя «первой шестёркой».

Они начали работать в 1987 году, занявшись созданием коммерческого продукта на основе патента Бранденбурга. Группа определила два направления разработок. Первый: алгоритм сжатия Бранденбурга можно использовать для «потока» (стриминга) музыки — доставки её слушателю с сервера, что предвидел Зайтцер. Второй: алгоритм Бранденбурга для «хранения» музыки, то есть создания музыкальных файлов, которые хранятся на персональном компьютере пользователя. В любом случае размер имел значение, и ключевым тут было создание коэффициента сжатия 12 к 1.

Создавалось это очень долго. Компьютерная техника ещё пребывала в ясельном возрасте, большую часть аппаратуры команде приходилось создавать собственными руками. Лаборатория представляла собой море проводов, низкочастотных динамиков, устройств обработки сигнала, проигрывателей компакт-дисков, конвертеров. Алгоритм Бранденбурга надо было внедрять в программу чипа, а процесс этот занимал несколько дней. Как только чип был готов, с его помощью сжимали десятисекундный фрагмент с компакт-диска, потом команда сравнивала звучание. Когда разница была слышна (а поначалу её вообще было невозможно не услышать), они уточняли алгоритм и сжимали заново.

Начинали с верхов, с малой флейты, потом шли вниз, прорабатывая всю гамму. Грилл, с детства одержимый акустикой, сразу понял, что эта технология сжатия очень далека от того качества, которое можно продавать. Алгоритм Бранденбурга создавал целый ряд непредсказуемых помех. Иногда звук получался «мутным», как из-под воды, иногда шипел, как статические помехи в средневолновом радио.

Иногда запись «удваивалась», как будто её наложили дважды. Хуже всего было «пре-эхо» — странный феномен, когда призрак музыкальной фразы появляется за несколько миллисекунд до самой фразы. Математический расчёт Бранденбурга был элегантен и даже очень красив, но он не вполне соответствовал «неправильному» восприятию органов слуха. Чтобы смоделировать человеческое слуховое восприятие, команде учёных требовались люди для тестов, и эти подопытные кролики должны быть обучены различать все ошибки на уровне Грилла. Как только будет создана такая экспертиза, можно проводить тысячи тысяч испытаний: контролируемых, случайных, на «двойном слепом» методе.

В это требующее огромного количества времени дело Грилл погрузился с энтузиазмом. Он обладал, что называется, золотыми ушами: различал микротоны и такие высокие частоты, которые слышат только маленькие дети и собаки. У него был слух, как нюх у парфюмера, и это обострённое чувство позволяло ему выявлять и оценивать определённые чувственные феномены — на самом деле, реалии, другим просто недоступные.

Перед Гриллом стояла задача подобрать материал для теста, и он прочесал всю свою колоссальную коллекцию, отобрав все мыслимые стили музыки: фанк, джаз, рок, ритм-н-блюз, метал, классику, вообще всё, кроме рэпа. Рэп он не любил. Грилл хотел обработать всё алгоритмом Бранденбурга, дабы быть уверенным в том, что он работает в любом случае.

Используя щедрый исследовательский бюджет Фраун гофера, Грилл принялся собирать всякие необычные шумы. Он нашел записи голосов, быстро болтающих, с тяжелым акцентом. Нашел птичьи крики и шум толпы, клацанье кастаньет и расстроенные клавесины. Свой излюбленный экземпляр коллекции он добыт во время поездки в головной офис компании Boeing в Сиэтле — там, в сувенирном магазинчике он нашел сборник аудиосэмплов рёва реактивных двигателей. Также по просьбе Грилла Фраунгофер закупил несколько пар наушников Stax, по тысяче долларов за каждую. Это японского производства «электроакустические ушные динамики» размером с кирпич, которым ещё требовался отдельный усилитель. Штука очень дорогая и крайне непрактичная, но Грилл считал, что она — самое тонкое устройство в истории аудиотехники. Любое звуковое несовершенство в этих наушниках обнаруживалось с предельной ясностью, так что можно было выявлять проблемы и решать их.

Алгоритм сжатия, подобно сокращающемуся лучу света, мог нацеливаться на разные размеры конечного файла[8]. Сжатые вполовину, файлы звучали пристойно. В четверть — ок, нормально. В марте 1988 года Бранденбург «изолировал» запись соло фортепиано, а потом запрограммировал такой большой коэффициент сжатия, на который только мог решиться: то есть вот этот безумный 1/12 от CD, придуманный Зайтцером. Файл получился полным ошибок. Бранденбург потом говорил, что пианист звучал «как пьяный». Но, несмотря на это, такой вот опыт непростого прослушивания придал ему уверенности — он впервые понял, как можно достичь цели, поставленной Зайтцером.

С развитием мощностей процессоров, дело пошло быстрее. Год алгоритм Бранденбурга применяли к широкому спектру записанной музыки. Вехой для команды стала «Увертюра 1812 года» Чайковского, следующей — Трейси Чапман, а потом ещё одной — песня Глории Эстефан (Грилл был двинут на «латино»). В конце 1988 года команда совершила первую сделку: доставила mp3-кодировщик первому в истории пользователю mp3 — крошечной миссионерской радиостанции на далёком марианском острове Сайпан.

Однако, один вид аудиозаписей всё ещё не поддавался хорошей оцифровке — то, что Грилл, не слишком хорошо знавший английский, называл «одиноким голосом», имея в виду, конечно, один голос без аккомпанемента. Изолированную человеческую речь невозможно было психоакустически замаскировать. Хаффмановский принцип распознавания тоже не годился, потому что в человеческой речи главное — динамика: взрывные звуки, шипящие, сильный приступ. Алгоритм сжатия Бранденбурга справлялся с симфониями, гитарными соло, артиллерийским орудием, даже с «Оуе mi canto», а с выпуском новостей — всё ещё нет.

Зашедший в тупик Бранденбург начал изолировать сэмплы «одиноких» голосов. Первый — запись трудных диалектов немецкого языка, которые морочили голову инженерам годами. Второй — кусочек вокала Сьюзен Веги, первые такты хита «Tom's Diner». Песню часто играли по радио, так что вы, наверное, помните акапелльное вступление к нему:

Тут-ту-туу-ду

Тут-ту-туу-ду

Тут-ту-туу-ду

Тут-ту-туу-ду.

У Веги очень красивый голос, но в оцифрованном виде он поначалу звучал так, как будто крысы грызут плёнку.

В 1989 году Бранденбург защитил диссертацию, став «доктором философии». Потом он, захватив свои голосовые сэмплы, отправился на работу в лаборатории Белла AT&T в Мюррей-Хилл (штат Нью-Джерси). Там он работал с Джеймсом Джонстоном, специалистом по кодированию голоса. Джонстон и Бранденбург оказались как Ньютон и Лейбниц[9] — независимо друг от друга и практически одновременно они оба нашли одинаковый математический подход к моделированию психоакустики.

Какое-то время они пытались «метить территорию», но потом всё-таки решили объединить усилия. Весь 1989 год в Эрлангене и Мюррей-Хилл параллельно проходили тестовые прослушивания, но американские «кролики» оказались менее терпеливыми, чем немецкие. Прослушав тот крысами обгрызенный четырёхсекундный сэмпл «Tom's Diner» несколько сот раз, добровольные участники эксперимента взбунтовались, и Бранденбургу пришлось прервать эксперимент. Тут, в Нью-Джерси, он слушал Сьюзен Вегу, а в Берлине в это самое время рухнула Стена.

Джонстона Бранденбург впечатлил. Он всю жизнь общался с учёными-исследователями, привык к блистательным умникам, но до Бранденбурга он не встречал никого, кто работал бы с такой самоотдачей.

Объединившись, они достигли очень серьёзных результатов, таких, что вскоре жрущие плёнку крысы исчезли.

В начале 1990 года Бранденбург вернулся в Германию с почти что готовым продуктом. Многие сжатые сэмплы теперь показывали практически идеальную «прозрачность»: даже такие разборчивые и придирчивые слушатели, как Грилл, на высококлассной аппаратуре не отличали звучание этих файлов от звучания компакт-дисков. Результат впечатлил AT&T: они признали технологию своей и выделили крошечный бюджет. Французский концерн бытовой техники Thomson также начал выделять средства и обеспечивать техническую поддержку. Обе компании стали искать в психоакустике свою поляну, поскольку эта академическая дисциплина, на которую так долго никто не обращал никакого внимания, вдруг стала очень актуальной. Над одной и той же проблемой работали группы исследователей из Европы, Японии и США, и другие крупные корпорации уже также искали там своё место. Многие употребили своё влияние на поддержку самых сильных конкурентов Фраунгофера. Тут функции посредника решил взять на себя MPEG (Moving Picture Experts Group — Экспертная группа по движущемуся изображению), а это такой комитет стандартизации, который и по сей день решает, какой технологии быть на потребительском рынке[10] — и провёл в июне 1990 года в Стокгольме формализованный конкурс тестовых прослушиваний с целью выбрать лучшую из конкурирующих разработок.

В начале 90-х MPEG готовилась к десятилетию раздора, определяя технологические стандарты ближайшего будущего вроде телевидения высокой чёткости и цифровых видеодисков. Поскольку в Группу входили эксперты в области кино, то она поначалу обращала внимание только на качество видео. Лишь позже они поняли, что со звуком тоже надо что-то решать — после того, как Бранденбург заметил, что время немого кино давно миновало (он, кстати, именно в таком духе шутил всё время.)

Одобрение MPEG гарантировало поток лицензионных отчислений, но Бранденбург понимал, что добиться его будет трудно. Для стокгольмского теста-соревнования[11] отобрали десять аудио-примеров: некое соло Орнетта Коулмена, песню Трейси Чапман «Fast Саг», некое соло на трубе, глокеншпиль, запись фейерверка, два отдельных соло баса, десятисекундный сэмпл кастаньет, кусочек выпуска новостей и «Tom's Diner» Сьюзен Веги (последнее предложил Фраунгофер). Судили нейтральные участники, выбранные из шведских студентов последних курсов. Комитет склонялся к молодёжи потому, что требовались неиспорченные уши, которые ещё слышат высокие частоты.

В тестах MPEG участвовало 14 разных групп — вариант школьной «научной ярмарки», но с высокими ставками. Накануне соревнования конкурирующие группы провели неформальные показы. Бранденбург был уверен, что победит его группа. Ему казалось, что цвикеровское исследование-веха, всё еще не переведённое с немецкого, дало ему колоссальную фору.

На следующий день зал, полный светлоголовых скандинавских созданий с прекрасными девственными ушами, слушал 14 разных способов «рипа» песни «Fast Саг». Качество звука слушатели оценивали по пятибалльной шкале. MPEG свела результаты в таблицу — вышла ничья. На финише — Франугофер и конкурирующая фирма под названием MUSICAM. все остальные — далеко в хвосте. Столь сильный результат Фраунгофера стал полной неожиданностью: они считались тёмной лошадкой, эдакая группка вчерашних студентов, ввязавшихся в поединок с известными корпорациями. Типичный победитель этого состязания — как раз MUSICAM, хорошо финансируемый консорциум исследователей четырёх европейских университетов, к тому же крепко связанный с нидерландской корпорацией Philips, запатентовавшей компакт-диск. В штате у MUSICAM также было несколько исследователей из Германии, и Бранденбург начал подозревать, что тут не простое совпадение: они ведь тоже могли прочесть работу Цвикера на немецком. Ничью в соревновании MPEG никак не ожидала и ничего не предприняла, чтобы её не было. Метод Фраунгофера давал лучшее качество аудио при меньшем количестве данных, зато изобретение MUSICAM требовало меньших мощностей для обработки данных. Бранденбург почувствовал, что сила на его стороне — поскольку скорость обработки данных росла с каждым новым поколением чипов: она удваивалась примерно каждые два года или вроде того. А вот улучшить полосу пропускания гораздо сложнее — для этого надо перерыть все улицы города и поменять тысячи километров кабеля.

Бранденбург считал, что MPEG именно на это должна обратить внимание и сохранить пропускную способность, а не циклы обработки, и он всё повторял этот довод Группе, хотя чувствовал, что на его слова почти не обращают внимания.

После Стокгольма команда ждала решения MPEG несколько месяцев. В октябре 1990 года Германия объединилась, а Грилл занялся применением алгоритма Бранденбурга к своей новой любимейшей песне — «Wind of Change» группы Scorpions. В ноябре Эберхард Цвикер, исследователь аудио и фанат настольного тенниса, в возрасте 66 лет ушел в мир иной. В январе 1991 года команда Франугофера выдала свой первый коммерческий продукт — 25-фунтовое устройство для вещания. Первый покупатель — автобусные стоянки объединённого Берлина. Наконец, MPEG предложила Фраунгоферу компромисс: Группа ожидает большое количество заказов, а команду Фраунгофера включат в пул исполнителей, но для этого они должны сначала согласиться на некоторые правила, установленные MUSICAM[12].

Конкретно, команда должна принять её технологию абсолютно муторного «фильтр-банка полифазной квадратуры». Трудно придумать более уродские четыре слова. Конечно, нужен был некий фильтр, расщепляющий звук на частоты, подобно тому, что делает призма со светом, но у команды Фраунгофера уже был свой, и работал он очень хорошо. Если добавить ещё один, то алгоритм усложнится, а качество звука никак не улучшится. Но, что гораздо хуже, Philips владела патентом на код, и это означало, что придётся отдать экономическую составляющую фраунгоферовского проекта главным конкурентам. После длительных жарких внутренних споров Бранденбург пошёл на этот компромисс — он просто не видел никакого будущего без поддержки MPEG. Но все остальные члены команды почувствовали, что с них содрали три шкуры.

В апреле 1991 года MPEG опубликовала результаты конкурса. Из 14 методов выбрали только три. Первый назвали Moving Picture Experts Group аудиослой-1 (метод сжатия для цифровых кассет, которые устарели уже к моменту рассылки пресс-релиза). Далее, MPEG огласила остальные методы, избрав принцип названия, который могла придумать лишь группа инженеров: MPEG аудиослой-2, более известный как mp2 (от MUSICAM) и бранденбурговский, названный MPEG аудиослой-3, сегодня известный как mp3[13].

MPEG хотела создать поле для сотрудничества, но в результате спровоцировала войну форматов. У mp3 — техническое преимущество, за mp2 — признанное имя и более серьёзная корпоративная поддержка. MUSICAM, по большому счёту — это доверенное лицо фирмы Philips, уже получающей огромные деньги от лицензий на CD-технологию, и теперь, в 1990 году когда компакт-диски начали превышать по продажам виниловые пластинки, Philips ищет способ контролировать рынок того, что придёт им на смену.

История знает множество примеров, начиная от «Войны токов» (ac/dc, постоянного и переменного тока) конца XIX века до VHS/Betacam 1980-х, того, что побеждает не всегда лучший, чаще — самый порочный. От Эдисона до Sony выигрывали те, кто не только развивает и продвигает свой стандарт, но при этом также подрывает силы конкурента. Собственно, поэтому соперничество форматов называют «войной».

Команда Фрауенгофера, состоявшая из молодых и наивных учёных, к такой войне была не готова. Через несколько лет, после пяти соревнований на равных, их убрали. Комитет стандартизации выбрал mp2: для цифрового FM-радио, интерактивных CD-ROM, видео-компакт-дисков (предшественник DVD), цифровых аудиокассет и для распространяемого в эфире саунд-трека HDTV МрЗ они ничего не оставили.

В дискуссиях с другими инженерами им часто приходилось слышать, что mp3 «слишком сложный». Имелось в виду, что для того результата, который выдавал этот формат, он пожирал слишком много мощности компьютерного процессора. Но проблема была в филлипсовском «фильтр-банке»: половину сил mp3 расходовал на то, чтобы его обойти. В инженерной схеме, показывающей принцип работы mp3, ясно видно, как именно алгоритм Бранденбурга обходит фильтр — обходит, как автомобили на шоссе объезжают место аварии[14].

Команда Фраунгофера начала понимать, каким образом их обыграли. Сперва Philips навязал им свою неэффективную технологию, а потом стал указывать на неё же, как на недостаток, чтоб утопить команду на комиссии. Но что гораздо хуже — похоже, в среде аудиоинженеров начали распространяться слухи, ими же запущенные, про все эти недостатки. Это, в общем, был такой отличный корпоративный саботаж. Сперва они заставили команду Фраунгофера вырядится в крестьянские обноски, а потом у них за спиной над ними же и хихикали. Но обноски обносками, а Брандендбург был не из тех, кто тихо плачет, забившись в уголок. Ему нужна была победа. В июле 1993 года он получил директорское кресло в Фраунгофере. Хотя он обладал нулевым бизнес-опытом и начинал борьбу с позиции проигравшего, он загрузил свою команду по полной. Примерно в то же время их ограбили. Воры проникли в кампус «Эрланген» ночью, и утащили компьютерное оборудование на десятки тысяч долларов. Воры побывали в каждом отделе, включая тот, где тестировали аудио. Там заполночь всё еще сидели двое mp3-исследователей, которые в своих дорогих японских наушниках не слышали никаких звуков из внешнего мира.

Такая преданность и самоотверженность принесла плоды. К 1994 году mp3 звучали уже гораздо лучше, чем mp2. Правда, кодирование всё ещё занимало немного больше времени. Даже при жёстком сжатии 12:1 mp3 звучало достойно, чуть-чуть не на уровне стерео. Спустя 12 лет после того, как патентный эксперт объявил Зайтцеру, что это нереально, возможность передавать музыку по цифровой телефонной линии оказалась практически в двух шагах от реализации. К тому же бурно развивался рынок домашних ПК-компьютеров, и росла перспектива местных продаж устройств для mp3.

Они просто должны были попытаться ещё раз. В 1995 mp2 снова победил mp3 в соревновании стандартов, на этот раз для потребительского рынка — аудиодорожек домашних DVD-плееров. Увидев, что команда Бранденбурга проигрывает со счётом «ноль-шесть», ответственные за финансирование директора Фраунгофера начали задавать неудобные вопросы. Например, «а почему вы до сих пор не выиграли соревнование?» или «а чего это у вас заказчиков меньше сотни?», или «а может быть, мы нескольких ваших инженеров перекинем надругие проекты?», а также «напомните-ка, для чего германскиеналогоплательщики закачали миллионы немецких марок в этуидею?».

Так что весной 1995 года, когда Фраунгофер вышел на финальныйконкурс по части широковещательных европейских радиостанций, от победы зависело всё. Конечно, это небольшой рынок, но доходов хватит, чтобы сохранить команду.

Сначала казалось, что есть все поводы для оптимизма: собрания Группы проходили всё время у разных участников конкурса, и теперь выпал черёд Фраунгофера. То есть они были бы на своей родной земле, и финальное обсуждение пройдёт в конференц-зале всего в нескольких метрах по коридору от лаборатории, где семь лет назад началась работа над той самой оцифровкой флейты-пикколо.

Но за несколько месяцев до собрания Группа радиовещателей обманула Фраунгофер. Они пообещали пересмотр прошлых решений и поощрили их продолжать разработку mp3. Также они горячо поддержали присутствие Бранденбурга на собрании комитета, и сказали, что понимают, какие у его команды возникли проблемы с финансированием. Они уверили его, что надо просто немножко продержаться. В качестве аванса перед собранием специализированная аудио-подгруппа комитета даже формально рекомендовала принятие mp3.

Тем не менее, Бранденбург ничего не хотел оставлять на волю случая. Он подобрал инженерную документацию, которая чётко развенчивала миф о сложности mp3. 50 страниц включали график, показывающий, как за последние пять лет скорость обработки превзошла полосу пропускания — то есть всё, как он и предсказывал.

Собрание началось днём. Конференц-зал «Эрлангена» был мал, рабочая группа, наоборот, большая, так что Гриллу и другим членам, чьё присутствие было необязательно, пришлось ждать снаружи. Когда Бранденбург садился на своё место, он излучал оптимизм. Он раздал сброшюрованные копии своей 50-страничной презентации, затем тихо и чётко стал прорабатывать насущные вопросы. Он отметил, что mp3 даёт очень качественный звук с меньшим количеством данных. Также надо учесть, что при планировании стандартов необходимо смотреть в будущее. «Процессоры догонят алгоритм», — сказал он. Ещё он сказал, что «сложность» — это миф и всё время давал ссылку на свою презентацию с документацией. После его выступления настал черёд MUSICAM. Они тоже раздали презентацию, которая уместилась на двух страницах. Столь же коротка была и их «телега»: mp2 — это элегантно и просто, и всё. Обсуждение началось.

Бранденбург быстро осознал, что, вопреки официальным рекомендациям подгруппы, его mp3 не гарантировано ничего. Дискуссия продолжилась ещё пять часов. Обсуждение велось желчно и зло; Бранденбург снова ощутил запах какой-то закулисной политической интрижки. Грилл, чьё нетерпение всё возрастало, то и дело останавливался перед конференц-залом, но потом опять бродил по коридору с коллегами.

Наконец, слово взял представитель фирмы Philips. Аргументировал он чётко: два разных радио-стандарта внесут полную неразбериху. Вообще стандартизация для того только и нужна, чтобы существовал только один стандарт. После лёгкого пинка mp3 относительно его процессинговых требований, он завершил выступление прямым обращением к голосующим членам: «Не допустите дестабилизации системы». Те, кто в комитете принимал решения, проголосовали — видимо, в интересах стабильности — отказаться от mp3 навсегда[15].

Это был конец. Надеяться больше не на что. MPEG не пустил их на видео-диски, вещатели — на эфир. В соревновании с mp2 Фраунгофер проиграл со счётом «ноль-семь»; mp3 стал новым Betamax.

Бернхард Грилл был раздавлен. Он почти десять лет посвятил работе над этой технологией. Он стоял в переполненном зале спиной к стене и думал: надо спорить. Но он был крайне эмоционален и отдавал себе отчёт в том, что его понесёт, и он начнёт говорить грубые вещи, к тому же подпитываемые еле сдерживаемой ненавистью к этим корпоративным невеждам, которые годами обманывали его. Поэтому он не сказал ни слова, как настоящий типичный немец.

Его молчание в тот решительный момент будет мучить Грилла все последующие годы. Стервятники с бюджетом уже чуяли кровь, и было понятно, что корпоративные клиенты уйдут.

Немецкое государство радо было финансировать разработки выигрышной технологии, но теперь война форматов проиграна вчистую. Грилл был упрямый, готов был бодро шагать дальше, но он знал, какие пойдут неприятные разговоры: мёртвый проект закрылся, команда распалась, плюс эдакое снисходительное сочувствие годам труда, потраченным впустую. Совершенно сокрушён был и Карлхайнц Бранденбург. Прежние поражения он принимал спокойно, но на этот раз его ведь обнадёжили. Представитель Philips не привёл ни одного нормального аргумента, а просто поиграл своими политическими мускулами и все дела. Всё это мероприятие отдавало чистым садизмом, устроенным словно для того только, чтоб морально раздавить Бранденбурга. Даже много лет спустя, когда он говорил о том собрании, его постоянная нервная улыбка гасла, губы сжимались, а на лице появлялось отсутствующее выражение.

Тем не менее, это же область инженерии, где точные, проверенные результаты важнее человеческих чувств. После обсуждения Бранденбург собрал свою команду для недолгого ободряющего разговора и, улыбаясь через силу, поведал, что «стандартизирующие» люди просто ошиблись. Ну, ещё раз. Его бодрый настрой совершенно сбил команду с толку, но Бранденбург апеллировал к своей толстой брошюре, изобилующей инженерными данными и двойными слепыми тестами, показывавшими, что его технология — лучше. И это самое главное, если откинуть всю эту политическую возню. Как-то каким-то образом, но, в конце концов, mp3 победит. Они просто должны найти кого-то, кто выслушает их.

Загрузка...