Об ИИ без мифов. Путеводитель по истории Искусственного Интеллекта - читать бесплатно онлайн полную версию книги автора Леонид Черняк (Глава 8 Данные и AI) #9

Глава 8 Данные и AI

Нынешние тенденции в AI связывают с наступившим периодом демократизации (democratization of AI), подразумевая под этим смещение фокуса с отвлеченных исследований в строну практических приложений, ориентированных на управление бизнесом, производство, медицину и науку. В новых условиях AI привлекает к себе инвестиции, как следствие возрастает объем исследований и далее, срабатывает положительная обратная связь, приводящая к экстенсивному развитию этого направления. Обещанные прежде воздушные замки уступают место проектам с конкретными и ожидаемыми результатами, что отражено в отчете Gartner «Кривая хайпа в AI» (Gartner Hype Cycle for Artificial Intelligence, 2020). В нем проявлено скептическое отношение к некоторым тематикам, эффектным, но, как оказалось, лишенным практических перспектив. Например, внедрение разрекламированных беспилотных автомобилей откладывается на 10 лет и более, ну а когнитивные технологии (мыслящие системы) вообще сняты с дистанции на весь обозримый период. Что же касается Сильного AI (Artificial General Intelligence, AGI), то на сей предмет в отчете сказано еще более категорично: «AGI потерял какую-либо коммерческую перспективность и предприятиям рекомендуется сосредоточить свое внимание на решениях, основанных исключительно на Слабом AI. Gartner предостерегает: компаниям следует игнорировать любые заявления тех AI-вендоров, которые выступают с предложениями рыночных продуктов на основе AGI».

Не только гартнеровские, но и другие отраслевые аналитики солидарны в том, что в рамках Слабого AI реальные шансы на успех есть у двух у направлений: одно усиливает возможности зрительного восприятия и получило название компьютерного зрения (Computer Vision, CV), в второе многократно повышает способность человека при работе с текстом на естественном языке (Natural Language Processing, NLP). На их основе уже созданы и создаются инструментальные средства, обеспечивающие автоматизацию рутинных составляющих умственного труда. По классификации, приведенной в главе 1, CV и NLP относится к типу AI, усиливающему способности человека (Augmented AI, AuI), а именно, они помогают ему в извлечении полезной информации из больших объемов данных, получаемых из внешней среды. В первом случае источник данных, прежде всего, фото и видеосъемка, во втором источники текста чаще всего в интернете. Совместно они обеспечивают решение проблемы Больших данных (Big Data).

Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения – 3 сентября 2008 года, в этот день вышел специальный номер научного журнала Nature,посвященный ответам на вопрос «Как могут повлиять на будущее науки технологии работы с большими объемами данных?». Ситуация, связанная с Big Data, вылилась в проблему из-за сложившегося дисбаланса между количеством данных, получаемых средствами различных цифровых технологий в XXI веке. За короткий срок оно лавинообразно возросло, но средства извлечения из этих данных полезной информации заметно отстали. Отмеченное рассогласование возникло по очевидной причине – за все годы существования так называемых информационных технологий, которые на самом деле имеют дело с данными, а вовсе не с информацией, о самостоятельной роли данных почти никто не задумывался. Сложилась странная ситуация: есть технологии, якобы информационные, а вот что именно является предметом этих технологий, неизвестно, в одних случаях – цифры, в других – тексты, в третьих – управляющие сигналы и т. д. Можно ли представить себе еще какую-то технологию, не имеющую четкого представления о предмете обработки или переработки? Все, что необходимо было знать о данных, сводилось к представлению в двоичным или восьмеричных кодах и их количеству, выраженному в байтах, к форматам, к технологиям хранения и методам доступа. Игнорирование значения данных воспринималось как нечто само собой разумеющееся, такое положение могло бы продолжаться и далее, если бы количество данных не стало угрожающе велико, а сетевые методы доступа к данным не превратились в фактор заметного влияния на жизнь общества. На протяжении десятилетий развивались методы, обеспечивающие передачу, хранение и обработку данных, без учета связи между данными и хранящихся в них информации и знаний.

Но в последние годы ситуация резко изменилась, что отражает лозунг «It's the data, stupid», указывающий на возрастающую роль данных в современной науке, бизнесе и других отраслях человеческой деятельности. Он представляет собой парафраз «Это экономика, тупица» – знаменитого лозунга предвыборной кампании Билла Клинтона, который помог ему в 1992 году победить Джорджа Буша-старшего. Если в 2008 году вопрос о данных был только поставлен, то через пару лет проблема выплеснулась на страницы ведущих экономических изданий. В февральском номере журнала Economist за 2010 год вышла статья «Данные, везде данные» (Data, data everywhere), в ней происходящее названо индустриальной революцией данных. Британский математик и успешный предприниматель Клив Хамби (Clive Humby, 1955) одарил человечество гениальным лозунгом «Данные – это новая нефть» (Data is the new oil)». Это утверждение развил журнал Economist в опубликованном в 2017 году отчете «Теперь самый ценный ресурс в мире не нефть, а данные» (The world’s most valuable resource is no longer oil, but data). Заслуга Хамби в том, что он раньше других увидел параллель – собственно нефть всего лишь сырье, потребительскую ценность имеют ее производные – бензин, пластики и все остальное, то же самое и данные, для того, чтобы они стали источником новой стоимости, они должны быть переработаны.

Данные и информация

Итак, по аналогии с нефтью данные – это сырье, а потребляются продукты переработки данных, то есть является полезная человеку информация, она имеет потребительную стоимость. Оксфордский словарь английского языка свидетельствует – еще в XIV веке слово информация употреблял Джефри Чосер, автор «Кентерберийских рассказов». В последующем написание варьировалось, встречаются и informacion, и enformation, и другие. Потребовалось более полутысячелетия, чтобы сложилось современное написание и научное представление о том, что такое информация. Долгие годы под информацией ограниченно понимали данные, переданные по каналам связи. Каналы передачи данных определяли как средства обмена данными приема и передачи информации. Под информацией понималась полезная составляющая данных, отсюда возникло желание каким-то образом оценить количество переданной информации и качество каналов.

Шенноновская теория информации

В двадцатые годы прошлого века пионерами в исследованиях, связанных с передачей информации, стали двое: английский статистик и генетик Рональд Фишер (Ronald Fisher, 1890–1962) и американский физик и радиоинженер Ральф Хартли. (Ralph Hartley, 1888–1970). Хартли связал количество передаваемой информации с пропускной способностью канала и предложил меру переданной информации, выбрав для этой цели логарифм числа возможных символов в последовательности, ее называли хартлиевской. В 30–40-е годы были заложены теоретические основы передачи данных, из числа ученых этого поколения необходимо отдать должное американцу Гарри Найквисту (Harry Nyquist, 1889–1976) и нашему соотечественнику академику Владимиру Александровичу Котельникову (1908–2005).

Основоположником того, что прямо скажем так, не совсем удачно названо и продолжают называть теорией информации, стал Клод Шеннон. Он обобщил работы предшественников и сформулировал основные положения того, что он сам назвал математической теории связи в одноименной статье (A Mathematical Theory of Communication, 1948), заметим, не теорией информации! От работ предшественников позицию Шеннона главным образом отличает углубленное представление информационной энтропии, как меры хаотичности информации. Предельно упрощая, информационная энтропия – это то, насколько много информации вам не известно о системе.

Под информацией Шеннон понимал лишь сигналы, несущие содержание, которое распознает получатель, роль которого он не принимал во внимание. В процессе передачи данных изначальная энтропия уменьшается, поэтому сумма оставшейся энтропии и переданной информации равна начальной. Хотя Шеннон и оперирует понятием информации, точного определения он не предлагает, впрочем, оговаривая, что сообщения могут иметь какое-то значение. К тому же Шеннон, оперируя понятием энтропия, предостерегал своих последователей от чрезмерного теоретизирования при трактовке энтропии. Настороженное отношения автора к введенному им понятию была объясняется тем, что он был не вполне самостоятелен при выборе этого термина. Хорошо известен и неоднократно описан тот факт, что он находился под влиянием обладавшего огромным авторитетом и фантастической харизмой Джона фон Неймана. Так вот, это фон Нейман навал шенновскую теорию передачи данных теорией информации. А еще он внушил Шеннону необходимость введения понятия информационной энтропии следующим образом: «Во-первых, это название использовано в нескольких физических дисциплинах, значит у нее уже есть имя. Во-вторых, и что не менее важно, никто не знает, что такое энтропия в этом контексте, это даст вам преимущество в любой дискуссии». Удивительно, но через несколько лет сам Шеннон поступил подобным образом, он посоветовал Норберту Виннеру использовать термин кибернетика с аналогичной аргументаций.

В качестве единиц для измерения шенновской информации были предложены бит, нат, трит и хартли (децит, бан, дит), различающиеся основанием логарифма: двоичный бит – основание 2, натуральный нат – основание e, троичный трит – основание – 3, хартли – основание 10. Соответственно при передаче одного бита энтропия уменьшается вдвое, трита – втрое, а ната и хартли в 10 раз. Бит еще и единица изменения объема данных, 8 битов образуют байт, далее идет килобайт и т. д. Бит, как единица измерения шенноновской информации, и бит, как единица измерения данных, родственны, но не тождественны.

Данные и их содержание

Достоинство трактовки информации по Шеннону в ее формальности, а ее недостаток – в привязанности исключительно к коммуникациям без учета смысловой нагрузки сообщения. Она вполне адекватна задачам, связанным с оценкой пропускной способности каналов, потерей данных в процесс передачи и другим, относящимся к коммуникациям, где содержание сообщения не учитывается, но такой подход к инфломации не имеет никакого отношения к решению содержательных задач, например, проблемы Big Data. Даже на интуитивном уровне понятно, что возможны и другие подходы к пониманию информации, учитывающие ее содержательную строну и они были. Через три года после публикации Шеннона на 8-й Конференции Мэйси британец Дональд Маккей (Donald MacKay, 1922–1987) представил свой альтернативный подход, отличающийся учетом семантической природы информации. Он отметил, что видит проблему передачи информации не только в обеспечении физики для поддержки потока символов от передатчика приемнику, но и в передаче семантики того, что передается. А главное, он определял информацию, принимая в расчет не только передающую, но и получающую сторону, которая тоже изменяет свое информационное состояние после получения сообщения. Какая польза от передачи данных, если принимающая сторона не смогла перевести их в информацию?

Нет ничего удивительного в том, что математикам, составлявшим среди участников конференции Мэйси большинство, формально строгая позиция Шеннона, бывшего к тому же одним из организаторов конференции, представлялась более сильной. Ничто из сказанного Маккеем не поддавалось количественной оценке, в итоге шенноновское воззрение на информацию восторжествовало и надолго. После конференции, чтобы уточнить свою позицию, Маккей предложил называть информацию по Шеннону селективной «selective information» от английского select (выбор), потому что здесь сообщение образуется посредством выбора из множества элементов энтропии. Свой же подход Маккей называл структурным (structural information). В структурную информацию Маккей включает шенноновскую селективную информацию, но для связи со смыслом она должна быть дополнена теми или иными вспомогательными данными, которую он называет метакоммуникацией (metacommunication). Семантическая составляющая метакоммуникации позволяет получателю (человеку или обученной нейросети) интерпретировать селективную информацию. Формы метакоммуникации могут быть совершенно различными – от тривиальной разметки, доступной для «понимания» относительно несложным программам, до такой, которая включает предварительно известные человеку знания и использует механизмы рефлексии, свойственные человеку. Такая информация может приобретать субъективные качества. По существу метакоммуникации мало отличаются от метаданных, о них ниже.

О способностях человеческого интеллекта оперировать информацией чрезвычайно интересно рассуждал венгерско-британский философ Майкл Полани (Michael Polanyi, 1891–1976). Он пришел к выводу, что есть знания и умения, которые можно описать четкими правилами и наглядно объяснить, например, как грамотно писать, но есть и такие феномены, которые люди, владеющие ими, не способны объяснить, у них нет соответствующих слов. Самый очевидный пример – езда на велосипеде, но есть и более высокоуровневые задачи, нередко мы называем эту способность интуицией. Полани образно сформулировал свое наблюдение во фразе: «Мы знаем больше, чем можем сказать», ее называют Парадоксом Полани. Есть специальный термин tacit knowledge (скрытое знание), то есть такое знание, обладая которым, человек не может его выразить или объяснить.

Взгляды Маккея на природу информации разделял британо-американский ученый Грегори Бейтсон (Gregory Bateson,1904–1980), прежде всего он психолог-кибернетик, но у него есть работы, связанные с эпистемологией, теорией информации, антропологией и другими дисциплинами. Эдвард Фредкин (Edward Fredkin, 1934) профессор нескольких крупнейших университетов входит в число пионеров цифровой физики и цифровой философии. Он дал следующее определение: «Информация обретает смысл в процессе ее интерпретации», что явно указывает на зависимость информации от принимающей стороны.

За последние 20–30 лет представления многих ученых еще дальше отошли от шенноновских канонов. Они рассматривают информацию как системообразующий фактор, например весь живой мир основан на передаче генетической информации, ее еще называют biotic information. Информация в живом организме является частью его материальной системы, в нем чрезвычайно сложно отделить информационную составляющую от материальной. Известно, что за 5–7 лет меняются все клетки человеческого организма, но при этом человек остается самим собой за счет сохранения его информационного «скелета». Сложность информационного устройства живого делает невозможным реплицирование человека, поскольку даже однояйцевые близнецы различаются между собой, даже они не взаимно тождественны друг другу. По-видимому, одна из фундаментальных ошибок сторонников Сильного AI, допускающих создание искусственного разума, превосходящего по своим возможностям человеческий, заключается в том, что они отделяют информационную составляющую от биологической.

Примерно то же самое относится к природным социальным, культурным и лингвистическим системам. Информация, содержащаяся в них, относится не к селективной по Шеннону, а к структурной по Маккею. Изучением культурных и лингвистических систем занимается медиаэкология, этот термин media ecology и основные направления для исследований в этой области предложил канадский культуролог, философ и филолог Маршалл Маклюэн (Marshall McLuhan, 1911–1980). А роль информации в таких системах наиболее глубоко изучил американец Роберт Логан (Robert Logan 1939 г.), физик, занимающийся медиаэкологией, автор книги «Что такое информация?» (What Is Information? 2014).

Взаимосвязь между данными и информацией, пирамида DIKW и ее значение для AI

Взаимосвязь между данными и информацией намного сложнее, чем может показаться. Сами по себе данные, как набор байтов, не имеют никакого смысла, но те же данные, поставленные в контекст, превращаются в информацию. Роберт Сейнер (Robert Seiner), один из ведущих специалистов по работе с данными, издатель бюллетеня The Data Administration Newsletter (TDAN.com) дал следующее определение: «Данные плюс метаданные равняется информация» (Data plus metadata equals the information). Такое упрощенное определение информации допустимо в приложении к текстам или изображениям, в том случае, если их можно снабдить метаданными. Однако есть и иные типы данных, которые необходимо превращать в информацию без привлечения специальным образом подготовленных метаданных, для этого требуется знания и интуиция человека. Такие данные-изображения, полученные в результате различного рода экспериментальных исследований, таких как медицинские обследования, съемки земной поверхности или каких-то иных опытов. В качестве примера принимающей стороны можно привести врача-диагноста, рассматривающего рентгеновские или другие снимки, или геофизика перед которым лежат результаты полевой съемки. Изображения не имеют никакого содержательного смысла для непосвященного, но чем выше уровень квалификация специалиста, анализирующего эти изображения, чем больше, условно говоря, метаданных он может извлечь из своего сознания, тем содержательнее оказываются данные. Иногда такие скрытые метаданные называют латентными или интеллектуальными (Latent metadata, Intellectual metadata). В значительной мере целью образования является обучение специалистов к работе со скрытыми метаданными. Автору пришлось стать свидетелем работы геофизиков с результатами полевых работ. Чем больше багаж знаний, профессиональная эрудиция, те больше информации человек способен извлечь из карты, он сам является носителем метаданных.

Рассел Аккофф (Russell Ackoff, 1919–2009), специалист в области исследования операций и теории систем предложил четырехуровневую иерархическую модель (четырехзвенную модель) DIKW (data, information, knowledge, wisdom), связывающую данные, информацию, знания и здравый смысл, основанный на глубоком познании.

• Данные (data) получаются из внешнего мира в результате человеческой деятельности с использованием тех или иных устройств.

• Информация (information) создается посредством анализа отношений и взаимосвязей между фрагментами данных в результате ответа на вопросы: Кто? Что? Где? Сколько? Когда? Почему? Цель анализа – помещение данных в контекст.

• Знания (information) получаются в результате синтеза полученной информации с человеческим разумом, служат для приятия решений, ведущих к достижению заданных целей.

• Глубокое понимание (wisdom) служит основой для принятия решений.

Практически все, что называют умственным трудом, укладывается в пирамиду DIKW – работающий в этой сфере получает данные из внешнего мира, извлекает из них информацию, осмысливает ее переводит в знания и выбирает те знания, которые требуются для принятия решений.