Данные и наука о данных

Интерес к данным привел к созданию того, что назвали Data Science. И с этим термином возникают сложности перевода, в данном случае это вопрос, как быть со словом science. Есть классическое русское определение науки как области человеческой деятельности, направленной на выработку и систематизацию объективных знаний, но Data Science – это не классическая наука со всеми ее необходимыми атрибутами. Однако в английском для science есть и «система получения знаний» (system of acquiring knowledge) и «знания, полученные из практики» (knowledge attained through study or practice), то есть Data Science стоило бы перевести как получение знаний из данных. Но это звучит нескладно, поэтому остановимся просто на DS.

Авторами современной концепции DS считают двух статистиков: Уильяма Клевеланда (William Cleveland,1943) и Лео Бреймана (Leo Breiman, 1928–2005). Первый в 2001 году опубликовал статью «Data science: план действий для расширения области действия статистики» (Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics), в которой связал статистику с data mining и извлечением информации и знаний из данных. Для такой расширенной трактовки задач, отличной от традиционной статистики он предложил название Data Science, известное ранее, но в ином контексте. А второй в том же году опубликовал работу «Статистическое моделирование: две культуры» (Statistical Modeling: The Two Cultures) в которой ему удалось ликвидировать разрыв между статистикой и компьютерной наукой.

Но у DS, как у всего остального есть предыстория и она начинается с работ американского математика Джон Тьюки (John Tukey, 1915–2000), он первым задумался о данных, как самостоятельной сущности. Тьюки больше известен как изобретатель термина бит (bit от BInary digiT), в качестве минимальной единицы измерения данных, а еще в книге «Обучение конкретной математике» (The Teaching of Concrete Mathematics) он первым использовал слово software. В дополнение биту в 1956 году Вернер Бухгольц (Werner Buchholz, 1922) предложил удобную для кодировки восьмибитовую единицу меры данных и назвал ее байтом. Бухгольц эмигрировал из Германии в 1938 году, Был членом команды в IBM, которая проектировала первые мэйнфреймы IBM 701 и IBM 7030 Stretch.

И все же основным делом жизни Тьюки был исследовательский анализ данных (Exploratory Data Analysis, EDA), служащий инструментом для изучения основных свойств данных, нахождения в них общих закономерностей, распределений и аномалий. Этот тип анализа отличается от, например, более известного и широко используемого метода статистической проверки гипотез тем, что не предполагает наличия некоторой априорной гипотезы, нуждающейся в подтверждении, – в EDA формулирование гипотезы, анализ и ее доказательство выполняются параллельно. В 1962 году Тьюки написал: «После долгих лет работы в области классической статистики я стал сомневаться в том, что для получения полной картины достаточно одной статистики, мои интересы стали смещаться в сторону более полного анализа данных, включая тонкие процедуры и методы анализа и интерпретации данных».

Работы Тьюки стали предпосылкой к интеллектуальному анализу данных – направлению, открытому Ильей Иосифовичем Пятецким-Шапиро (1929–2009), советским, а позже израильским и американском математиком. В 1989, покинув СССР, Илья Иосифович провел первый семинар Извлечение знаний из баз данных (Knowledge Discovery in Databases, KDD). Его дело продолжает сын Григорий Пятецкий-Шапиро (1958), живущий в США

Название Data Science предложил Петер Наур (Peter Naur, 1928–2016) в 1974 году. Датчанин Наур более всего известен как создатель одного из первых алгоритмических языков ALGOL 60 и нотации Бэкуса-Наура (Backus—Naur form, BNF). Он определил Data Science не совсем так, мы ее понимает сейчас, в его представлении это наука, изучающая жизненный цикл цифровых данных.

Крупнейший специалист в области баз данных Джим Грей (James Gray, 1944 – признан погибшим в 2012) радикально переосмыслил роль данных. За несколько недель до своего бесследного исчезновения на борту яхты у Калифорнийского побережья (2007) он выступил с речью, в которой представил свои соображения о качественных изменениях в современной науке, связанных с возможностью собирать и анализировать большие объемы экспериментальных данных. Для характеристики нового периода в науке Грей использовал термин «четвертая парадигма» (fourth paradigm). По Грею, тремя предыдущими парадигмами были экспериментальная, теоретическая и вычислительная.

Стартовым выстрелом для нынешнего периода в истории DS стало интервью Главного экономиста Google Хала Вариана (Hal Varian) изданию McKinsey Quarterly, где он выдал многократно повторенную сентенцию: «Статистик – самая привлекательная работа (sexy job). Колоссальную важность приобретет его способность взять данные, понять их обработать, выделить нужное, визуализировать и передать другим».

У DS находится общее с кибернетикой, это тоже не традиционная наука в науковедческом представлении, а междисциплинарный подход, объединяющий методы, процессы, алгоритмы, системы и другие средства, служащие для извлечения информации из сырых данных, в том числе структурированных и не структурированных. DS объединяет Data mining (иногда переводится как Интеллектуальный анализ данных или Добыча данных), Большие данные, CV и NLP как методы, используемые для извлечения информации из изображений и текстов.

Несколько слов о data mining

Историю DM можно начать с теоремы Томаса Байеса (1763), позволяющей вычислить вероятность события с учетом ранее известных и новых данных. Можно также вспомнить основополагающие работы в области регрессионного анализа Ариена-Мари Лежандра (1805) и Карла Гаусса (1809). С тех пор и поныне статистические методы извлечения полезной информации из данных были и остаются краеугольным камнем для DM. Собственно термин data mining был предложен в середине 80-х Робертом Хехт-Нильсеном (Robert Hecht-Nielsen, 1947–2019) основателем компании HNC (Hecht-Nielsen Neurocomputer Corporation), позже она вошла в состав компании FICO, признанного крупнейшего финансового аналитика. HNC первой разрабатывала ПО для прогнозов, основанное на нейронных сетях. В нем моделировалось распознавание информации, скрытой в данных, по образу и подобию человеческого сознания. Эти разработки имели оборонное назначение, что естественно для компании, находящейся в Сан-Диего, центре ВМС США, но позже областью приложения стала финансовая индустрия, страхование, розничная торговля.

Современный интеллектуальный анализ данных имеет в основе три составляющие – собственно данные, извлекаемая из данных информация и полученные из данных знания.

Метаданные и гипертекст

Художественные тексты и особенно стихи содержат в себе скрытые метаданные. Обычно символьные данные сами по себе никакого смысла не имеют, они становятся полезным источником информации в том случае, если сопровождаются вспомогательными данными, указывающими на то, как их интерпретировать. Простейший вид явных метаданных – запись данных в предопределенную структуру, например в СУБД или в электронную таблицу, где нахождение числа или слова в определенной позиции придает ему значение и открывает возможность для поиска и анализа. Такие метаданные можно назвать структурными. Есть альтернативный способ явного представления метаданных, он по идее прост – достаточно можно снабдить данные ярлыками-метками, указывающими на смысл, который имеют следующие за ним записи. Такая разметка удобна для неструктурированных данных, в том числе и записей на естественном языке.

С момента появления самых первых компьютерных систем для работы с текстами все электронные документы содержали те или иные символы для управления печатью (CR, LF и др.). Однако их возможности оставались весьма ограниченными, методы разметки были привязаны к определенным принтерам, а с появлением новых устройств с более широкими возможностями (такими, скажем, как принтер с шаровой головкой) потребовались новые средства управления печатью. Чтобы преодолеть этого ограничение исследовательская группа корпорации IBM, возглавляемая Чарльзом Гольдфарбом, разработала язык разметки GML, «отвязавший» текст от формата печати.

Последующие исследования Гольдфарб вел самостоятельно; в конечном итоге они привели его к созданию языка Standard Generalized Markup Language (SGML). В период с 1978-го по 1985 год язык проходил сложный процесс стандартизации. В конечном итоге он был принят и American National Standards Institute (ANSI), и европейским агентством Computer Office of Official Publications. На следующем этапе SGML попал в европейский центр исследований физики элементарных частиц (CERN). Здесь первое средство для использования SGML разработал Андерс Берглунд (Anders Berglund). В CERN была разработана и технология CERNDOC на основе SGML, которая в последующем оказалась столь успешной, что была принята американской ассоциацией издателей American Association of Publishers. Одним из активных пользователей этой технологии был Тим Бернерс-Ли (1955), создавший совместно с Робертом Кайо (Robert Cailliau, 1947) Всемирную паутину WWW, поэтому нет ничего удивительного в том, что при разработке HTML он использовал свой опыт работы с SGML.

И все же SGML оказался весьма сложен, поэтому широкого распространения не получил, зато стал прототипом для двух широко известных языков. Первый – XML (eXtensible Markup Language), служащий для кодирования документов в World Wide Web, второй – Hypertext Markup Language (HTML), используемый для кодирования документов, воспроизводимых браузерами.

К разметке близок гипертекст, этот термин был предложен в 1965 году Тедом Нельсоном (Ted» Nelson, 1937 года) который определил его следующим образом: «Массив текстов или графики, объединенных сложными связями, которые с достаточной полнотой не могут быть представлены в бумажной форме. Связи могут включать карты контента, ссылки, аннотации, комментарии и другие инструменты для указания». В истории гипертекста сложилась вполне устоявшаяся хронология событий. Точкой отсчета обычно называют Ванневара Буша и его гипотетическую машину Memex (Memory Extender), далее переходят к Дагу Энгельбарту, затем к Теду Нельсону и, наконец, к Тиму Бернерсу-Ли, работашему совместно с Робертом Калио.

Несмотря на то что гипертекст с его ссылками может быть полноценно реализован только в электронной форме, предпосылки к его возникновению обнаруживаются задолго до появления компьютеров. Первым к идее гипертекста подошел Ванневар Буш, в своей эпохальной статье As We May Think, опубликованной в Atlantic Monthly. Он описал гипотетическую машину memex для работы с текстовыми источниками информации. Он писал: «Появятся новые типы энциклопедий, где фрагменты будут объединены ассоциативными связями, которые могут обрабатываться средствами memex». Задуманная Бушем машина должна была хранить книги и другие документы, обеспечивать доступ к ним и таким образом расширять творческие возможности человека.

Надо заметить, что и у Буша был предшественник, это немецкий инженер еврейского происхождения Эмануэль Гольдберг (Emanuel Goldberg, 1881–1970), создатель действующей (!) «Статистической машины». Она стала первым устройством для работы с размеченными данными, перенесенными на микрофильмы. Машина Гольдберга стала первым инструментом, позволяющим автоматизировать поиск в больших массивах данных с использованием разметки. Гольдберг родился в 1881 году в Москве в семье полковника медицинской службы российской армии (к слову, должность весьма необычная для человека со столь очевидными этническими корнями), а умер в 1970-м в Израиле.

Статья Буша послужила стимулом для Дага Энгельбарта на исследования в области систем, расширяющих интеллектуальные возможности человека. Эти работы в конечном итоге привели к созданию лаборатории Augmentation Research Center, где была построена уникальная для своего времени система NLS (oNLine System). Как ни странно, но попутно созданная компьютерная мышь оказалась самым знаменитым отпрыском этого проекта.

Data Labeling

Для CV и NLP нужны размеченные данные, в связи с этим появилась новая технологи data labeling (нанесение этикеток на данные, аннотация). На данный момент никаких средств для автоматизации этого процесса нет и в обозримом будущем не будет, поэтому эту нудную работу (handmaid data labeling) будут вручную выполнять низкоквалифицированные работники. Их можно назвать «синими воротничками» индустрии AI. Рабочие должны выполнять вручную огромный объем работы, например, аннотация одного человеческого образа требует указания от 15 до 40 точек и делается это все обычными средствами человеко-машинного интерфейса. Для разметки изображений сейчас есть и свободно распространяемые технологии (Sloth, Visual Object Tagging) и коммерческие (Diffgram Supervisely), и другие. Список средств для разметки документов, используемых при обработке текстов на естественных языках NLP, существенно длиннее.

Очевидный шанс стать супермонополистом в области data labeling есть у Китая, эта страна располагает необходимым количеством высококвалифицированных специалистов, здесь выработаны государственные программы по развитию AI, но в то же время наличествует неограниченное количество желающих на роль исполнителей низкого уровня. Они работают надомно или в стесненных условиях на так называемых «фабриках разметки» (tagging factories), получая чрезвычайно низкую заработную плату.

Типичным примером фабрики разметки служит компания Mada Code, насчитывающая более 10 000 (!) надомников, выполняющих разметку данных для задач оптического распознавания и обработки текста на естественном языке. Среди ее клиентов крупные компании и университеты. Руководитель Mada Code сказал: «Мы строительные рабочие цифрового мира, мы кладем кирпич на кирпич, но играем заметную роль в ИИ. Без нас невозможно построить небоскребы».

Необходимость ручной разметки позволяет оценить уровень зрелости нынешних работ в области AI тем, что напоминает закон, принятый в Англии на заре автомобилизма, который требовал, чтобы перед автомобилем шел человек, предупреждавший о его появлении.

Загрузка...