Порядок, в котором в эту книгу помещены главы, ни в коем случае не отражает отношения авторов к проблемам технологического обеспечения информационно-аналитической работы.
Прежде всего, обратимся к термину «технология»… Многие под этим словом понимают нечто, связанное с техникой. Тому виной является одно из узких толкований термина, при котором технология понимается как совокупность методов решения некоторой технической проблемы. Невольно воображаешь этакие шумные цеха по переработке информации, заставленные грязными, грохочущими станками, и так далее. Что ж, и так бывало — в период 1950-70-х годов любое информационное агентство располагало помещением, именовавшимся «телетайпная» (в этом зале стоял неимоверный грохот от десятков буквопечатающих аппаратов).
Обратимся к происхождению слова: оно происходит от двух греческих корней techne — искусство, мастерство, ремесло и logos — наука, изучение. Получается нечто вроде «наука ремесла», то есть прикладная наука. Подведем итог. Технология — это организованная во времени и пространстве устойчивая (инвариантная) по отношению к заданным вариациям условий реализации совокупность методов оперирования некими объектами, приводящая к достижению поставленной цели.
Как следствие, еще одно определение: Информационная технология — это организованная во времени и пространстве устойчивая по I отношению к заданным вариациям условий реализации совокупность методов оперирования данными, нацеленная на производство обладающей заданными свойствами информационной продукции.
И наконец последнее, что требуется — это определение самого информационного продукта. Информационный продукт — это результат выполнения неких операций над данными, приводящих к получению нового массива данных, доступных для дальнейшей обработки и интерпретации.
Теперь, вооружившись определениями, посмотрим на технологии информационно-аналитической работы. Получим следующую классификацию информационных технологий:
— неинструментальные технологии или технологии мыслительной деятельности: технологии запоминания информации; технологии извлечения информации; технологии межличностной коммуникации; технологии синтеза целей; технологии социализации целей и знаний (в том числе — обучение); технологии признаковой работы (рассмотрения объектов и явлений в знаковой ситуации — см. семиотика); технологии анализа информации; технологии классификации; технологии моделирования и мысленного эксперимента; технологии обобщения (синтеза) информации; технологии рефлексивного мышления и иные; инструментальные технологии: технологии переноса информации на материальные носители; технологии хранения данных на материальных носителях; технологии передачи и приема данных; технологии поиска и востребования данных; технологии инструментального моделирования; технологии инструментального анализа данных; технологии инструментального синтеза информации; технологии инструментальной поддержки индивидуальной и групповой мыслительной деятельности; технологии синтаксического преобразования информации; технологии семантического сжатия и реферирования данных; технологии обучения и иные.
Почему при переходе к рассмотрению состава класса инструментальных технологий мы начали обращаться к термину «данные»? Причина в следующем: информация — это то, что мы извлекаем из данных, размещенных на материальных носителях (будь то лазерный диск, будь то след на песке), посредством применения модели интерпретации. То есть, как только информация перенесена на материальный носитель, она отрывается от модели интерпретации — превращается в данные, которые каждый волен интерпретировать так, как ему угодно. Живет в городе Кострома философ В.С. Гринько, так он здраво придерживается мнения, что истинным автором текста является его читатель (потребитель). А многие специалисты в области управления знаниями давно пользуются парой терминов: информация и эксформация (exformation). При этом второй термин обозначает то, что было извлечено из данных в результате их интерпретации с применением некоторой другой модели (не той, которой располагал некто или нечто, запечатлевшее информацию). Возможно, что и носитель модели все тот же, да модель уже претерпела изменения.
Чтобы очертить круг проблем, связанных с ведением информационно-аналитической работы, уместно вспомнить индийскую притчу про слепых мудрецов, пытавшихся на ощупь определить, что же представляет собой слон. Будучи лишены возможности осуществлять сбор информации наиболее пригодными для этого средствами, сии достойнейшие мужи столкнулись с полным комплексом проблем, имеющих отношение к информационно-аналитической работе:
— проблема неполноты инструментария сбора данных;
— проблема наблюдаемости объекта;
— проблема ограниченности объемов хранения данных;
— проблема отсутствия методологии исследований;
— проблема согласования тезауруса;
— проблема объединения разрозненных и отрывочных сведений;
— проблема несовпадения социального опыта аналитиков;
— проблема ломки сложившихся стереотипов.
Кратко охарактеризуем ситуацию, в которой оказались информационно-аналитические подразделения различных государственных и коммерческих учреждений, благодаря происшедшей в 1970-90-х годах информационной революции. По мнению экспертов в области информационно-аналитической работы (ИАР), качество сведений, поступающих по различным каналам, резко понизилось. Произошло снижение доли сообщений, получаемых от первичных источников информации, а основной поток информации перешел в сферу межличностного общения (к этой категории могут быть отнесены и неофициальные расследования представителей средств массовой информации, нередко проводимые с тщательно завуалированными целями и содержащие непрогнозируемые искажения).
В интересах компенсации всех этих искажений и решения всего многообразия проблем, стоящих перед специалистами в области ИАР и разрабатываются технологии информационно-аналитической работы.
Итак, мы вполне готовы перейти к раскрытию содержания этой главы: нам известен комплекс существующих проблем, мы ознакомлены с базовыми методами ИАР (они рассматривались в предыдущих главах), основными принципами и методологическими основами организации ИАР, нам известно содержание термина «технология». Можно надеяться, что авторы предоставили достаточно веские аргументы в пользу именно такой компоновки книги. Теперь мы можем рассматривать технологии, комбинируя их описания из ссылок на уже рассмотренные (или вскользь упомянутые) методы.
Сфера технологического обеспечения информационно-аналитической работы является выражением тех организационных и методологических принципов, которые заложены в основу функционирования системы информационно-аналитического обеспечения в целом. Особенно показательно в этом отношении направление средств автоматизации и информатизации ИАР. Здесь может быть введена следующая классификация средств автоматизации информационной работы:
— средства сбора данных;
— средства доставки данных;
— средства хранения данных;
— средства обработки данных;
— средства формирования тезауруса;
— средства согласования тезауруса;
— средства интеграции данных;
— средства анализа данных;
— средства моделирования;
— средства интерпретации результатов;
— средства прогнозирования;
— средства синтеза целей управления;
— средства отображения данных;
— средства поддержки принятия решения;
— средства доведения управляющих воздействий.
Приведенная классификация средств автоматизации по признаку их целевого предназначения позволяет за счет разделения всей совокупности существующих средств автоматизации на классы проанализировать источники противоречий, снижающих эффективность ведения информационной работы в целом. Рассмотрение данной классификации позволяет сделать вывод о том, что при таком многообразии средств в сфере технологического обеспечения ИАР не могут не проявляться противоречия, вызванные действием закона неравномерности развития. Иными словами, отставание в уровне развития тех или иных средств, предназначенных для решения частных задач, не может быть компенсировано опережающими темпами совершенствования других средств и отрицательно сказывается на возможности успешного решения конечной задачи — задачи выработки решения и доведения управляющих воздействий.
Вне зависимости от того, синтезированы средства комплексной автоматизации информационной работы в виде целостного автоматизированного комплекса или существуют в виде сложной организационно-технической системы, реализующей на различных этапах решения конечной задачи автоматизированные и неавтоматизированные операции, негативные последствия неравномерности их развития подлежат компенсации лишь за счет согласования интегральных показателей уровня развития средств, предназначенных для решения аналитических задач. При этом в качестве показателей для оценки уровня развития таких средств могут быть использованы: пропускная способность, быстродействие, точность, коэффициент сжатия и иные. А для оценки, непроявленной в конечном результате деятельности — показатель собственной эффективности системы (отражающей «рациональность» ее внутреннего устройства). Для этого может быть введена оценка в виде коэффициента, отражающего степень согласованности показателей производительности (уровня развития) ее компонентов или же коэффициента избыточности.
Рассматривая организацию, осуществляющую ИАР, как некоторый фрагмент общества, занятый специфическим видом производства. В такой организации, как и во всяком обществе, можно ожидать проявления действия закона соответствия производственных отношений характеру и уровню развития производительных сил. В настоящее же время можно констатировать факт, что на современном этапе уровень развития производительных сил по ряду параметров уже не соответствует существующим производственным отношениям.
В ряде случаев внедрение автоматизированных информационно-аналитических систем комплексной поддержки деятельности информационно-аналитических служб способно создать предпосылки к решению комплекса проблем, проявляющихся в организационной сфере. Реализация этих предпосылок возможна при условии введения процедур учета результативности признаковой работы, внедрения систем электронного документооборота и автоматизированного синтеза ситуационных моделей, обеспечивающих оперативный доступ к моделям, первичным информационным материалам и обобщенной статистике потоков данных различной семантики (от интенсивности потоков сообщений до информационных материалов, классифицированным по принадлежности к конкретным рубрикам).
При этом ведение учета результативности при ведении информационной работы может осуществляться как на качественном, так и на количественном уровне при анализе потока заявок на модификацию/пополнение хранилища эталонных моделей — от уровня операций, связанных с пополнением тезауруса до уровня операций по модификации ситуационных моделей и эталонов функционирования объектов и источников.
Проблемы совершенствования методологической и специальной подготовки отчасти могут быть решены за счет предоставления аналитикам доступа к эталонным моделям объектов и источников, логико-структурным схемам, отражающим развитие ситуаций, и информационно-справочным материалам. Введение такой практики на межведомственном уровне способно расширить диапазон комплексных тематических исследований и создать предпосылки для создания комплексных ситуационных моделей, построенных на основе анализа разнородной информации, полученной в результате функционирования технологически неоднородных средств сбора информации.
Реализация подобных процедур возможна в рамках создания комплексной распределенной системы поддержки информационно-аналитической деятельности на базе новейших телекоммуникационных технологий. Анализ показывает, что работы в данном направлении интенсивно ведутся в системе информационно-аналитического обеспечения органов военного и государственного управления зарубежных государств, в частности — США, Великобритании и других.
Пока свежо воспоминание об организационных аспектах ИАР, обратимся к технологиям, непосредственно связанным с организацией ИАР, а именно — к технологическому циклу ИАР. По существу, технологический цикл ИАР — это уже технология, поскольку представляет собой организованную во времени совокупность операций и методов, приводящую к получению заданного результата (информационной продукции). Приведем краткое описание этой технологии с краткими поэтапными комментариями, не прерывая нумерации пунктов:
1. Установление характера проблемы, описание проблемной ситуации (методики системного анализа и т. п.);
2. Синтез главной или глобальной цели как прямого следствия проблемной ситуации в управлении (технологии синтеза и анализа иерархии целей, анализ актов коммуникации, социальные технологии);
3. Уточнение целей исследования, стиля ИАР потребителя информационной продукции);
4. Установление первичного бюджета на проведение аналитического исследования.
Этим, как правило, завершается цикл бесплатных подготовительных работ. В принципе, уже в этот момент руководителю организации-исполнителя примерно известен перечень сотрудников и информационных ресурсов, которые потребуется привлечь к проведению исследований. Уже проведен ряд консультаций, импровизированное или достаточно серьезное совещание с сотрудниками. Наступает период ожидания ответных действий заказчика, определяющего то, насколько приемлемы для него условия, выдвинутые исполнителем.
Далее, если выбор сделан (то есть, бюджет утвержден или скорректирован), начинается следующая серия:
5. Формирование инициативной группы специалистов, назначение руководителя проекта или направления, НИР (методы синтеза организационных систем, методики СТ);
6. Декомпозиция цели в соответствии с характером проблемы: например, на функции, задачи и операции (метод дерева целей и задач);
7. Выявление целей организации-потребителя информационной продукции, нуждающихся в пополнении информационных ресурсов для их достижения;
8. Синтез целей информационной работы по направлениям, определяемым целями организации-потребителя информационной продукции:
— формирование гипотезы о возможном составе комплекса источников информации;
— формирование гипотезы о составе множества информативных признаков, их потенциальной информативности и достоверности;
— формирование гипотезы о составе репрезентативной (достаточной для решения задачи) выборки, в том числе включая период наблюдения феномена, количество измерений/сообщений;
9. Установление бюджета второго этапа исследований.
Стоп… Снова остановка и ожидание ответных действий заказчика. Заказчик еще не располагает детальным проспектом предстоящей работы по сбору информации, но может оценить затраты исполнителя на поисковые мероприятия, хотя конечный результат еще за горами. Возможно, заказчик возьмется перекраивать бюджет.
Передышка закончилась. Бюджет принят и исполнителю вновь предстоит напряженная работа. От нее зависит результативность всей последующей работы — если поисковые мероприятия окажутся неэффективными, то недоделки, скорее всего, лягут тяжелым бременем на бюджет исполнителя:
10. Выделение кадровых и иных ресурсов для производства информационно-поисковых работ, постановка задачи на поиск информации;
11. Поиск источников информации с заданными свойствами;
12. Оценивание реальной информативности источников и отбор наиболее информативных;
13. Установление бюджета третьего этапа исследований.
Опять передышка. Заказчик снова решает, за что он готов заплатить. К этому времени уже известно, во что может вылиться закупка тех или иных информационных продуктов у сторонних организаций, имеются образцы, демонстрирующие качество этой продукции, разработаны «дешевая» и «дорогая» стратегии, а также есть система аргументов, выводящих заказчика на предпочтительный сценарий.
Бюджет принят. С этого момента исполнитель становится зависим от ценовой политики «смежников». Теперь бюджетные ограничения начинают напрямую сказываться на результативности этапа сбора информации; нельзя, не будучи уверенным в исходе отказаться от части источников. Вновь начинается работа:
14. Определение комплекта инструментария (средств) сбора информации и состава сил (кадрового обеспечения), необходимых для решения задачи сбора информации, постановка задачи на поиск информации;
15. Сбор и накопление данных, анализ представительности выборки;
16. Анализ непротиворечивости массива данных, полученных от одного источника;
17. Интеграция массивов данных, выявление противоречий и/или неполноты;
18. Проведение анализа на полном массиве, установление состояний объектов и систем, являющихся предметом аналитических исследований выделение тенденций и предельных показателей динамики;
19. Синтез модели объекта, системы и/или процесса;
20. Подготовка выводов и заключений о целях/конечных состояниях объектов и систем, достижимых без коррекции процесса/управляющих воздействий, синтез пространства альтернатив;
21. Установление бюджета заключительного этапа исследований.
Остановка перед выходом на финишную прямую. Уже сейчас заказчик может получить ответ на вопросы: «Что может быть, если все будет, как есть?», «Что может быть вообще?» и «Сколько будет стоить точное знание?». Возможно, что полученных сведений ему уже будет достаточно, и, если исполнитель вышел по завершении этапа «в ноль», то, возможно, ему придется «сесть на картотеку» в банке.
Но вот бюджет принят! Программисты и аналитики закупают килограммы молотого кофе («чистая арабика»), и начинается «последний бой»:
22. Определение критических точек, приложение управляющих воздействий к которым способно привести к максимальным подвижкам в направлении достижения целей управления;
23. Проведение имитационного моделирования;
24. Оценивание эффективности отдельных управляющих воздействий;
25. Синтез комплексных стратегий управления, оценивание эффективности и сравнительный анализ стратегий;
26. Подготовка отчетной документации;
27. Сдача/приемка информационной продукции.
Все, финиш! Программисты и аналитики ходят с красными кроличьими глазами и подумывают об отдыхе… Руководство вновь и вновь перекладывает по кучкам выручку, подсчитывая коэффициент трудового участия.
Комментарии излишни… единственное, что следует подчеркнуть, — это то, что всякая технология является в некотором смысле несовершенной и может быть улучшена. Те пункты в перечне, которые, по мнению авторов, нуждаются в раскрытии, мы рассмотрим далее в этой главе (несмотря на то, что с методологической точки зрения читатель уже достаточно вооружен для того, чтобы самостоятельно сформулировать перечень методов, которые могут быть использованы для решения задач того или иного этапа).
Некоторым читателям термин «модельная информация» может показаться некорректным, однако на самом деле он несет существенную смысловую нагрузку. При осуществлении любой деятельности, сопряженной с ведением анализа ситуаций и выявлением неких аналогий с историческими прецедентами, аналитик оперирует набором эталонов, апробированных ранее. Такой эталон уже представляет собой не набор первичных данных, а их обобщение — модель. Именно этот тип информации мы и называем модельной информацией.
Первичная обработка имеющихся данных и анализа модельной информации является чрезвычайно ответственным этапом работы. Если этот этап не включен в общую схему работы, то может статься, что коллектив аналитиков примет ошибочное решение, которое со всей очевидностью проявится лишь на заключительном этапе работы. Ведь базовая модель (исходная гипотеза) на поверку может оказаться: устаревшей, не соответствующей решаемым задачам как по условиям (событийному контексту) рассматриваемого феномена, так по уровню детализации (не адаптированной к характеру поступающих данных), фрагментарной, либо вообще — ошибочной. Важность этапа анализа модельной информации заключается в том, что именно на нем устанавливаются все «белые пятна» в знаниях субъекта ИАР, выделяются «зоны особого внимания» и формулируются гипотезы об объеме трудозатрат, стоимости процедур сбора дополнительных данных, формулируются цели и задачи субъекта ИАР в рамках решения поставленной задачи. Более того, на этом этапе устанавливаются действительные потребности заказчика/потребителя информационной продукции и оценивается достижимость целей работы.
Каждый субъект ИАР на момент возникновения задачи/проблемы уже располагает некоторым массивом данных и моделей их интерпретации. Вопрос состоит в том, насколько имеющиеся знания применимы для решения данной конкретной задачи, могут ли они быть применены без модификации и каковы направления модификации моделей и пополнения информационных ресурсов. Как следствие, первичная обработка имеющихся данных и анализ модельной информации может проводиться по следующему сценарию:
— синтез общей классификации задач, когда-либо решавшихся субъектом ИАР;
— установление класса новой задачи и выявление задач, сходных с данной;
— анализ опыта решения аналогичных задач и считывание массивов данных и моделей, ассоциированных с ними;
— отбор из полученного массива данных и моделей тех, которые релевантны данной задаче;
— установление отличий данной конкретной задачи от ранее решавшихся;
— установление тех блоков данных и компонентов моделей, которые не могут быть применены для решения данной задачи;
— поиск методов адаптации существующих моделей и установление направлений исследований;
— восстановление сведений об источниках информации, привлекавшихся для получения данных при решении аналогичных задач, формирование гипотезы о направлениях информационно-поисковых мероприятий;
— анализ парка инструментальных средств проведения исследований и их доступности на текущий момент времени;
— анализ потребностей в развитии парка инструментальных средств и оценка финансовых затрат на его пополнение и возможностей повторного использования вновь приобретенных средств, определение стратегии финансирования (приобретение, лизинг, аренда);
— оценка трудоемкости отдельных операций и потенциальных трудозатрат на пополнение информационных ресурсов, необходимых для решения задачи;
— оценка стоимости информационной продукции, приобретаемой у сторонних субъектов ИАР в интересах решения данной задачи;
— установление факта достижимости поставленной цели ИАР/решения задачи;
— подготовка заключения о сроках и стоимости мероприятий по пополнению информационных ресурсов, парка инструментальных средств, методологического обеспечения в интересах решения задачи;
— передача документа, содержащего заключение заказчику.
Основными методами, используемыми на этом этапе, являются методы классификации, мозговых атак, структурирования массивов данных, анализа деревьев целей и задач.
Ресурсами, привлекаемыми для решения задачи, являются существующие архивы, массивы данных на электронных и иных носителях, принадлежащих субъекту ИАР, а также ресурсы библиотек, ГСТК Интернет и иные.
Продукцией, получаемой по завершении этапа, являются следующие блоки информационных продуктов/документов:
— для субъекта ИАР: оценка трудозатрат, стоимости и направлений исследований, направления пополнения информационных ресурсов и инструментального парка, направления расходования средств и оценка прибыли;
— для потребителя информационной продукции: заключение о возможности решения поставленной перед субъектом ИАО задачи, краткое описание содержания предстоящих работ, смета и технико-экономическое обоснование.
Задачи поиска, отбора и экспресс-анализа данных являются базисными для любой отрасли ИАР, требуют творчества от сотрудников и имеют, подчас, весьма нетривиальные решения. Причин тут масса — перечислим лишь основные:
— данные могут иметь разнообразные формы представления;
— данные могут быть как обеспечены, так и не обеспечены моделями их интерпретации;
— данные могут быть распределены в массе различных по своей физической природе, временной и пространственной локализации источников;
— источники данных могут быть в различной степени доступны или наблюдаемы.
Вам доводилось видеть по телевизору церемонии открытия олимпийских игр? Допустим, да. Тогда вам приходилось видеть, как по сигналу церемониймейстера на трибунах из отдельных щитов, управляемых сидящими на трибунах людьми, складываются государственные флаги, олимпийская символика и прочие замысловатые узоры. А теперь представьте себе, что вы сидите на этой трибуне, и все, что вы можете наблюдать — это разноцветные щиты с номерами в ногах у себя и своих ближайших соседей, а вам по системе оповещения сообщают с каким номером щит вам предстоит поднять на счет «три». Так вот, задачи поиска и установления информативности источников сходны с задачей определения того, какой флаг через мгновение увидит телезритель, и того, в какой части трибуны вероятность правильного распознавания была бы выше.
Характер и состав множества источников информации определяется возможностями системы сбора информации, которой располагает конкретный субъект ИАР. Чем мощнее комплект инструментальных средств сбора, чем обширнее сеть добывания информации, тем полнее источниковая база ИАР. Для одних задач существует возможность привлечения инструментальных средств контроля, обеспечивающих сбор максимально достоверной информации о состоянии объектов исследований и среды их функционирования, возможность ранжирования источников по достоверности, точности и оперативности. Для других такая возможность отсутствует, а прогностический потенциал данных, получаемых методом непосредственного измерения параметров, не удовлетворяет требованиям, предъявляемых к результатам исследований. Таким образом, мы приходим к выводу о том, что состав источников, действительно, в сильной степени зависит от специфики задач исследования и парка инструментальных средств субъекта ИАР.
Современная аналитика располагает чрезвычайно обширной источниковой базой. В арсенале средств сбора информации присутствуют самые изощренные системы: начиная от спутниковых систем мониторинга атмосферы и земной поверхности, радио и оптико-электронной разведки и заканчивая самим, вооруженным пятью каналами ввода информации, аналитиком.
Оставим рассмотрение «экзотических» случаев: использования спутников- и самолетов-шпионов, добывания экспериментального образца методом подкупа вахтера и иные, столь же далекие от повседневной работы «чистого» аналитика. Хотя случаи работы с несимвольной информацией встречаются достаточно часто — например, могут проводиться работы по определению химического состава или конструктивных особенностей продукции непосредственно с ее образцами, а не с описаниями таковых.
Сосредоточим свое внимание на классе источников символьных данных, а еще точнее — текстовых данных. Класс текстовых данных обладает максимальным прогностическим потенциалом при минимальном интервале наблюдений — в одном кратком предложении может быть выражена информация, достаточная для описания поведения объекта или процесса на сколь угодно отдаленную перспективу. В то же время, точность этого вида данных крайне низка, они подвержены многим видам искажений. Особенно низка их устойчивость к целенаправленной модификации. Но, сколь бы плохи или хороши они ни были, такие данные часто бывают единственным, что доступно аналитику.
Чаще всего, в повседневной деятельности нам приходится сталкиваться с классом источников информации, имеющих в своей основе языковые (знаковые или символьные) средства коммуникации: книги, периодические издания различной специализации, телевидение, радио, телефон, персональные коммуникации, ресурсы глобальных, региональных и локальных телекоммуникационных сетей. Данный класс коммуникаций, если исключить персональные ощущения и специальные технологии, является основным каналом пополнения личного (персонально пережитого) и социального (полученного в результате коммуникаций) опыта и знаний. Количество только языковой информации (исключая видеоряд), которое поступает по каналам этого класса источников, в принципе, позволяет сложной системе типа «человек» адаптивно реагировать на изменение ситуации, вырабатывать цели, стратегии, синтезировать новую информацию и добывать новые знания. Более того, этой информации достаточно для управления и другими людьми, не говоря уж о технических системах, созданных человеком.
Практика показывает, что этот класс источников обладает колоссальной информационной емкостью, другое дело, что «плотность» информации (коэффициент информативности данных) существенно варьируется от издания к изданию, от выпуска к выпуску, от программы к программе. Еще сложнее дело обстоит с релевантностью информации (ее свойством соответствовать текущим информационным потребностям субъекта): данных, содержащих релевантную информацию значительно меньше. А если учесть и иные ограничения, все более и более сужающие перечень источников и сообщений, то можно сделать вывод, что относительное количество сообщений, отвечающих потребностям управления некоторой конкретной системой в заданных условиях, крайне мало. К числу таких ограничений относятся: актуальность (возможность использования информации для управления системой или процессом в их современном состоянии), своевременность (возможность использовать информацию в контуре управления с учетом быстродействия подсистемы доведения управляющих воздействий), точность, достоверность, непротиворечивость и иные. Соответственно при всем обилии информации, которая может быть в принципе извлечена из всей совокупности источников, доля информации, представляющей ценность для ИАР, направленной на достижение некоторой цели, относительно невысока.
Коль скоро мы решили, что в этом подразделе проблемы поиска, отбора и экспресс-анализа информации будут рассматриваться применительно к классу источников, использующих для представления информации языковые средства, то, в первую очередь, нам следует проанализировать состав этого класса и режимы коммуникации (коммуникационные ситуации). В типовой коммуникационной ситуации (при обмене информацией между производителем и потребителем информации в режиме реального времени) в качестве основных источников текстовой информации может выступать всего два типа систем: разумные (человек), интеллектуальные (системы искусственного интеллекта). Перечисленные системы способны самостоятельно генерировать новые тексты и информацию, то есть являются источниками и в узком, и в широком смысле, а также могут выступать в роли первичных источников текстовой информации. При наличии задержки в канале коммуникации речь идет о наличии промежуточного материального носителя информации, который обеспечивает возможность длительного хранения информации без внесения собственных искажений. Такие носители информации также могут рассматриваться в качестве источника информации, хотя сами не способны продуцировать информацию.
Чаще всего языковые средства коммуникации реализуют неоперативный режим коммуникации с использованием средств символьного представления информации (текстов). Поэтому, когда речь идет о неоперативной языковой коммуникации, в качестве источников принято рассматривать второй класс источников (материальные носители текстов). Если ввести строгие классификационные основания, то к классу источников, обеспечивающих неоперативные языковые коммуникации, следует причислять:
— источники неоперативной информации (хранилища, архивы и библиотеки, содержащие текстовые документы):
— на традиционных носителях символьных данных: бумага, фотопленка и т. д. (книги, журналы, реферативные журналы, газеты, рукописи, микропленки и иные);
— на нетрадиционных носителях символьных данных: магнитные ленты и диски, магнитооптические и оптические накопители ЭВМ, голографические накопители, электронные запоминающие устройства, сети ЭВМ различного уровня интеграции и т. д. (файлы, базы данных, хранилища данных, геоинформационные системы, глобальные, региональные и локальные сети ЭВМ и иные);
— источники оперативной информации (коммуникационные и связные системы, реализующие функцию коммуникации посредством передачи текстовых данных в символьном формате):
— воспроизводимые данные (зарегистрированные на материальных носителях, для которых существует возможность повторного воспроизведения), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.;
— невоспроизводимые данные (возможность регистрации которых на материальных носителях и повторного воспроизведения отсутствует по тем или иным причинам), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.
Источники информации, не воспроизводимой с требуемой степенью точностью, мы исключим из рассмотрения в силу их малой полезности, а также по причине того, что их поиск становится невозможным в силу отсутствия доступа к материальной копии. Впрочем, определив потенциального носителя таких данных или расположение материальной копии, возможно организовать доступ к материальной копии или носителю сведений, как, например, в случае захвата вражеского «языка», получения несанкционированного доступа к данным и иных случаях насильственного изъятия информации.
При наличии доступа к материальной копии информации (данным) всю совокупность доступных данных можно рассматривать в качестве источниковой базы проведения исследований. В этом случае, решив проблему согласования форматов представления, аналитик получает возможность применения комплекса информационных технологий к полученному массиву текстов. При этом, как мы уже указывали, аналитиком решается задача сжатия или обобщения информации, первыми этапами которой является отбор текстов, релевантных теме исследования, то есть — формирование специализированного массива текстов, которые имеют отношение к решаемой задаче.
При этом выделяются два класса источников, не рассматривавшихся в предложенной ранее классификации, а именно: класс источников неструктурированных текстовых данных и класс источников структурированных текстовых данных. При этом под текстом можно понимать и числа, как частный случай.
Наиболее доступным источниками информации на сегодня можно считать средства массовой информации и издания в диапазоне от художественной литературы и публицистики до специализированных научных изданий. Предположим, что в результате применения некоторого комплекса инструментальных средств вами получен неспециализированный массив текстовой информации на компьютерных носителях, обеспечивающий возможность применения разнообразных технологий обработки и анализа информации с применением программных и аппаратно-программных средств.
Также будем считать, что существует возможность оперативного пополнения этого массива за счет ресурсов глобальных, региональных и локальных телекоммуникационных сетей, подключения к ресурсам информационных агентств, а также получения текстов, публикуемых в электронных и обычных средствах массовой информации.
Такими возможностями на сегодня располагает большинство субъектов ИАР, обладающих возможностью подключения к ГСТК Интернет (Спринтнет, Гласнет, Релком, локальной вычислительной сети организации) и несложным комплектом технических средств, включающим в свой состав ЭВМ и периферийные устройства типа сканера, среднескоростного модема для аналоговых или цифровых каналов связи. Возможны и иные варианты комплектации, что в данном случае несущественно.
Задача состоит в том, чтобы осуществить над имеющимся массивом данных некие манипуляции, в результате которых будет получен специализированный массив каталогизированных и, возможно, аннотированных данных, необходимых для проведения дальнейших исследований.
Одним из вариантов решения задачи является использование неавтоматизированного режима поиска и отбора информации (в этом случае массив источников последовательно прочитывается на предмет поиска необходимой информации, и тексты, содержащие необходимые сведения подвергаются копированию/перемещению в некоторую область дискового пространства и/или каталогизации, при этом возможно параллельное аннотирование/комментирование текстов). Однако на достаточно больших массивах текстов такая технология представляется крайне трудоемкой и малоэффективной. Несмотря на то, что существуют технологии быстрого чтения, обеспечивающие человеку за счет оптимизации траектории перемещения точки фиксации зрения по носителю текста скорость чтения порядка 3000 знаков в минуту, эти технологии не могут сравниться с быстродействием, которое способны обеспечить компьютерные системы. Поэтому основное внимание мы сосредоточим на инструментальном обеспечении процессов поиска, отбора и экспресс анализа текстовых данных.
Тем не менее, начальный этап поиска, а именно, синтез поискового задания, требует привлечения интеллектуальных усилий аналитика.
Существует один, возможно, экстравагантный, но эффективный подход к формированию поискового словаря в условиях слабого знакомства с предметной областью исследований: он заключается в использовании… разнообразных словарей, предназначенных для любителей отгадывания кроссвордов. Учитывая, что систематические тезаурусы представляют собой достаточно редкое явление (рынок сбыта таких изданий весьма специфичен и тиражи невысоки), такие словари могут служить неплохим инструментом для подобных исследований. Зная цель исследования, по подобному словарю аналитик может отобрать ключевые слова, наиболее ярко свидетельствующие о принадлежности текста к заданной отрасли.
После того, как первая версия поискового словаря создана, дальнейшие операции могут быть возложены на ЭВМ. Произведя первичный поиск и обнаружив в массиве текстов/документов текст, содержащий ключевые слова и наилучшим образом освещающий исследуемую проблему, аналитик переходит к следующему этапу — этапу коррекции поискового словаря. Наиболее распространенным подходом в настоящее время является статистический подход, основанный на применении статистических закономерностей, открытых Дж. К. Зипфом (в этой книге мы уже упоминали закон Зипфа-Мандельброта или принцип экономии в лингвистике). В результате построения частотно-рангового распределения длин слов в данном тексте выбирается специфичный для данного языка диапазон частот встречаемости слов — именно в этом диапазоне будут содержаться те слова, которые наилучшим образом отражают тематику и содержание текста. Однако ориентация этого метода на такую единицу как слово, несколько сокращает полезность этого метода, поскольку человеку свойственно оперировать не столько словами, сколько терминами (то есть, сочетаниями слов, обеспечивающими наилучшее различение описываемых сущностей).
Так или иначе, но закономерности Зипфа широко используются в компьютерных системах анализа текстов и формирования поисковых словарей. Наибольшее распространение эти методы получили в поисковых системах ГСТК Интернет. Поэтому, если вы хотите получить наилучшие результаты при поиске информации с применением специальных поисковых серверов, вам имеет смысл вооружиться настольной компьютерной системой, на которой установлено программное обеспечение, реализующее функцию генерации поискового словаря по той же схеме (с теми же критериями), что реализуется поисковым сервером. В настоящее время поисковые системы, основанные на использовании статистических закономерностей, наиболее широко представлены на рынке и предоставляют пользователю различные возможности при осуществлении поиска. Наиболее распространен следующий набор сервисов/режимов (опций):
— поиск точного совпадения слова или словосочетания, обеспечивающий возможность обнаружения в тексте точной копии слова или словосочетания, указанного в поисковом задании;
— адаптивный поиск, обеспечивающий поиск фразы, указанной в поисковом задании, с учетом словоизменения;
— адаптивный поиск, обеспечивающий поиск отдельных компонентов фразы, указанной в поисковом задании, с учетом словоизменения, возможности использования усеченных форм и разнесения компонентов фразы по тексту на некоторое фиксированное расстояние (измеренное в словах);
— адаптивный поиск, ориентированный на применение специализированных языков управления поисковой машиной, обеспечивающий возможность управления режимом адаптации фразы, перестановок и подстановок отдельных слов и т. д.
Услуга эвристического поиска, основанного на использовании систем искусственного интеллекта, формирующих расширенный запрос на основе применения специализированных отраслевых тезаурусов и семантических сетей, несмотря на все анонсы и заявления владельцев поисковых сервисов, в ГСТК Интернет на сегодня практически не представлена. Использование таких поисковых систем является прерогативой серьезных организаций, специализирующихся в отрасли ИАР, и располагающих бюджетом, достаточным для закупки профессиональных поисковых систем или проведения собственных дорогостоящих исследований в области компьютерной лингвистики.
Если отвлечься от ГСТК Интернет и обратиться к проблеме поиска заданного текста на заранее сформированном универсальном массиве текстов, размещенных на отдельном компьютере или в сегменте локальной вычислительной сети, то тут следует обратиться к классу настольных и серверных поисковых систем. На отечественном рынке программного обеспечения системы подобного класса также представлены. Среди разработчиков программного обеспечения, реализующих передовые поисковые лингвистические технологии, следует выделить ЗАО «МедиаЛингва». Разработки этой фирмы, такие как «Следопыт», «Классификатор» и «Аннотатор», обеспечивают комплекс решений, позволяющих осуществлять оперативный поиск документов, их индексирование, классификацию и автоматическое аннотирование. Схожими возможностями обладают разработки НПИЦ «Микросистемы», в частности — программный продукт «TextAnalyst». Данная программа использует для решения задач распознавания слов нейросетевые технологии и, в основном, предназначена для решения задачи автоматического реферирования документов; функции поиска в этой системе также предусмотрены, однако в большей степени ориентированы на осуществление поиска в некотором подмножестве ранее обработанных и включенных в базу документов.
В основе функционирования таких систем лежат технологии искусственного интеллекта, на начальном этапе анализа текста использующие средства словарного и не словарного морфологического анализа текста, аппарат математической статистики, нейросетевые технологии, а на заключительном этапе, связанном с отбором, классификацией и аннотированием — аппарат семантических сетей, универсальные и отраслевые тезаурусы и словари. Рядом разработчиков предоставляются специализированные комплекты разработчика (так называемые SDK — Software Developer Kit), позволяющие при необходимости создавать собственное программное обеспечение, адаптированное к задачам, решаемым той или иной организацией.
Следует заметить, что проблемы анализа текстовой информации отнюдь не так просты, как это может показаться. В этой области существует масса проблем, связанных с различными этапами обработки текстов. На протяжении всего технологического цикла обработки, начиная от этапа морфологического разбора слова, и заканчивая этапом соотнесения термина с семантической категорией, разработчики технологий обработки текстов сталкиваются со сложностями как технологического, так и методологического порядка. А это означает, что в перечень проблемных этапов попадают:
— задачи установления факта принадлежности слова к некоторой части речи;
— задачи приведения слова к канонической форме;
— задачи выделения семантически связных цепочек слов;
— задачи выделения границ термина, установления его канонической формы и необходимой для его идентификации части;
— задачи восстановления системы ссылок и умолчаний;
— задачи соотнесения термина с грамматической и семантической категориями;
— задачи связывания тематически связных фрагментов текста. Неоднозначность распознавания и интерпретации слова и текста в целом является серьезнейшей проблемой, без разрешения которой достижение серьезных успехов в области анализа текстовой информации маловероятно. Для решения этой проблемы требуется обращение к методам, вовлекающим в использование контекст слова, высказывания и даже текста, с тем, чтобы локализовать предметную область, устранить последствия явления полисемии (многовариантного толкования смысла слов) и получить максимально точные результаты обработки. Тем не менее, данные проблемы постепенно находят свое решение, хотя компьютерная лингвистика по праву считается одной из сложнейших отраслей современной прикладной и теоретической науки. Одной из причин этого является и большая трудоемкость проведения эксперимента, необходимость не только тестирования, но и предварительного обучения создаваемых программных средств, а каждому читателю известно, как велико количество разнообразных исключений из правил, вариантов передачи одного и того же смысла.
Сегодня за рубежом (увы, не у нас) на решение этих проблем затрачиваются значительные средства. Например, для решения проблем, связанных с автоматизацией обработки и анализа текстов, в бюджете американской военной исследовательской организации DARPA на 2000 и 2001 гг. выделено 12 и 29 млн. долл., соответственно. Добавим лишь, что многие исследовательские программы финансируются еще и рядом фондов, в том числе — NSF (National Science Foundation) и другими. Грустно, но наши специалисты в этой отрасли все чаще вынуждены отправляться на поиски признания (а оно сейчас все больше выражается в денежных единицах) в университетские научные центры США, Великобритании и Германии, где существует понимание актуальности этого круга проблем. Мы же по-прежнему все работы сваливаем на самого надежного и дешевого (но и подверженного многим видам нарушающих цикл ИАР воздействий — см. далее) эксперта-аналитика.
Использование автоматизированных систем существенно сокращает время на проведение поиска, отбора и экспресс-анализа текстовых документов, и, хотя качество аннотирования (реферирования) пока не позволяет использовать подобные системы для генерации обзоров источников, а тексты, полученные с их помощью, нуждаются в правке и редактуре, но этого качества вполне достаточно для проведения экспресс-анализа данных. К числу серьезных недостатков этих систем следует отнести их неспособность восстанавливать системы внутри- и интертекстовых ссылок и умолчаний (случаи неявного упоминания слов и терминов), а, между тем, относительное количество различного рода подстановочных конструкций (например, замена слова или термина местоимением, прилагательным и т. п.) в текстах достаточно велико. Причины этого недостатка лежат на уровне аксиоматики методов и подходов, реализованных в данных системах. Так, например, Россия, Российская Федерация, наша Родина и РФ для большинства таких систем — суть разные объекты, то есть, система должна быть снабжена семантической сетью или тезаурусом, который мог бы «объяснить» программе, как поступать в таком случае.
Другим видом информационных ресурсов/источников являются источники структурированных текстовых данных, в том числе — формализованный текст, таблицы, базы и хранилища данных, предоставляющие возможности поиска и фильтрации данных в таблицах, организации виртуальных таблиц и витрин данных. Этот тип ресурсов обладает своей спецификой, поскольку для интерпретации данных, как правило, требуются двухуровневые модели интерпретации: потребитель данных должен располагать моделью организации данных (логических связей между таблицами и записями), а также моделью предметной области, в то время как для обычного текста достаточно только второго класса моделей. Более того, коммерчески распространяемые базы данных, как правило, представляют собой неоперативный источник информации, структурированный в соответствии с представлениями поставщика о потребностях клиентов. То есть, эти информационные продукты не всегда адаптированы к реальным потребностям и часто содержат устаревшую или неполную информацию. По этой причине, большинство организаций, осуществляющих функции ИАО субъектов управления в некоторой области деятельности создают свои собственные базы данных, в большей степени отражающие их информационные потребности.
В связи с этим, чрезвычайно важным фактором, определяющим успешность применения созданной базы данных, является структура описаний (совокупность атрибутов, используемых для описания объектов учета). Если структура описаний не обеспечивает тех возможностей, которые необходимы потребителю для производства работ с ресурсами базы данных, то из эффективного инструмента информационной работы база данных превращается в кладбище данных, где на покосившихся крестах и памятниках давно повыцвели надписи. Уже на уровне структуры описаний должны быть учтены особенности технологии обработки информации, структура деловых процессов, возможности дальнейшего наращивания комплекса средств автоматизации, возможность востребования данных и без применения специализированных интерфейсов (программ иных, нежели программы системы управления базами данных) и так далее. В противном случае, в какой-то момент времени, когда очередная смена технологии потребует заменить интерфейсное программное обеспечение, вам придется проводить на заслуженный отдых не только эти программы, но и все те данные, которые были накоплены за годы работы вашей организации.
Вопросу атрибуции данных мы посвятим отдельный подраздел в данной главе. При этом мы не будем затрагивать проблему синтеза классификаций, которые используются для декомпозиции некоторой системы или предметной области на классы сущностей, описываемых набором атрибутов — эти вопросы подробно рассматриваются в специализированной литературе, посвященной вопросам теории баз данных, их проектирования, организации процесса проектирования и создания[60]. При рассмотрении вопросов, связанных с атрибуцией данных, наше внимание будет сосредоточено на проблеме создания специфических баз данных — баз данных, предназначенных для хранения первичных материалов ИАР (сообщений) и описания источников информации, адаптированных к решению задач автоматизированного анализа ситуаций.
Однако, прежде, чем перейти к рассмотрению этого блока вопросов, рассмотрим специфику структурированных источников информации.
Мы уже указали на необходимость использования для работы со структурированными данными двухуровневых моделей интерпретации, а именно — модели организации данных (метаданных или метамодели). Располагая такой моделью, аналитик получает уникальную возможность получения специализированных массивов данных, отражающих состояние некоторого атрибута объекта анализа. В том числе, благодаря наличию структурной организации, может быть легко получен упорядоченный во времени массив численных значений некоторого параметра системы или процесса, или, наоборот — мгновенный срез состояния системы, образованный совокупностью измерений всех ее параметров.
В этом смысле, база данных представляет собой уникальный источник информации, использование которого в сочетании со средствами автоматизации ИАР способно многократно повысить продуктивность труда аналитика. Характерно, что большинство технических средств сбора информации, выражающих результаты в символьном виде, способно служить источниками только таких — специализированных данных. Как следствие, методологическое обеспечение систем анализа структурированных и числовых параметрических данных во многом совпадает. Даже в случае, когда в качестве параметров используются естественно-языковые термины, они могут рассматриваться как численные оценки значения атрибута, между которыми могут быть установлены те или иные отношения (порядка, величины, объема понятия и т. д.). В результате для обработки таких данных могут быть (хоть и с некоторыми изменениями) применены пакеты автоматизированной статистической обработки данных наблюдений, системы математического моделирования и иные программные средства, располагающие широкими возможностями для проведения статистических исследований, анализа временных рядов, спектрального анализа и так далее.
По существу, одной из задач информационной работы и является построение именно такого, структурированного ресурса для «внутреннего потребления» субъектом ИАР. Однако на пути к этому необходимо решить целый ряд сложных проблем, связанных с переходом от символьных данных произвольной семантики к символьным данным специальной семантики, обладающих метризованным словарем. Здесь, в частности, используются методы нечетких множеств, многозначной и нечеткой логики (работы А. Лукасевича, Л. Заде и их последователей).
Структурированные текстовые данные занимают промежуточную ступень между численными и естественно-языковыми данными. К этому виду могут быть приведены практически любые числовые данные, при этом речь идет не о преобразовании записи числа из системы цифровой записи в запись с помощью числительных натурального языка, а реальной трансляции числа в термин. Примером такого преобразования может выступать преобразование числовых данных «длина отражаемой или излучаемой объектом волны светового колебания» в текстовые данные типа «цвет объекта» и тому подобные. При этом используются не только значения величин, но и производные первого и второго порядков, результаты интегрирования, вычисления дискретной суммы и тому подобных вычислительных процедур.
Инструментом выполнения таких преобразований служат модели трансляции, задачей которых является установление взаимно однозначного соответствия между параметром (группой параметров) и термином на основе объективных критериев. В наглядной интерпретации процесс трансляции данных с частной семантикой (областью определения терминов знаковой системы) к виду данных универсальных знаковых систем может быть представлен так, как это сделано на рисунке, приведенном ниже.
Т1
Т2
Т3
Т4
Т5
Термины П1 (динамика) П2
Рисунок 4.1 — Графическое представление процесса трансляции.
Графическая интерпретация процесса трансляции иллюстрирует частный случай применения модели трансляции для преобразования данных, отображающих процесс, характеризующийся одним параметром, в совокупность терминов четырех классов: имена (имя процесса, имя параметра, имя состояния, предикат и характеристика предиката). С помощью подобной модели трансляции могут быть получена следующая совокупность высказываний: «Процесс (имя) пребывает в состоянии (Т1). Значение параметра (имя параметра) (характеристика крутизны Д1, наречие) (предикат П1, глагол)». Усложнение подобной модели трансляции может позволить формировать и более сложные высказывания, но это потребует усложнения тезауруса. Однако уже в таком виде при использовании системы координат параметр/время высказывания будут содержать существительные, наречия и глаголы.
Введение в модель трансляции иерархического тезауруса, позволяет использовать шкалу уровня абстракции, с помощью которой потребитель сообщений сможет управлять степенью детализации информации. Например, нормализованный иерархический тезаурус, состоящий из трех уровней, позволяет описывать некоторое состояние параметра (имя параметра) в терминах, определенных на трех уровнях иерархии. Термин «нормализованный» в применении к этому тезаурусу указывает на то, что между термином и состоянием может быть установлено взаимно однозначное соответствие, то есть, ни в одном высшем уровне абстракции не существует такого термина, границы области определения которого не совпадают с одной из границ области определения терминов низшего уровня. В языках естественного общения такое требование в большинстве случаев не выполняется (до тех пор, пока для решения задач практической деятельности такой термин не будет введен и не заместит общеупотребительный термин).
Модели трансляции в принципе могут быть построены для любой предметной области, для которой в языке естественного общения существует разработанная терминология, которая может быть спроецирована на пространство формальных признаков (модель фрагмента реальности). К числу предметных областей поддающихся трансляции в терминологическую систему относится, в том числе, и пространственная семантика. В частности, этот принцип используется в географии при именовании объектов, размещение которых может быть отображено на некоторой модели.
Большим преимуществом структурированных текстовых данных перед неструктурированными тестовыми данными является возможность их перевода к графическому представлению, которое, как известно, способно стимулировать мыслительную деятельность, а также позволяет в сжатом виде выразить большое количество информации. То есть, модели трансляции могут использоваться и для обратного преобразования, однако точность такого преобразования довольно низка и определяется количеством терминов, включенных в состав модели трансляции. При этом существует проблема совместимости тезауруса источника и модели трансляции.
Благодаря своим уникальным свойствам модели трансляции являются весьма полезным инструментом при работе как с текстами различной тематики, так и при работе с источниками числовых и структурированных данных.
При рассмотрении технологии поиска, отбора и экспресс-анализа мы не касались проблемы анализа информативности источников. Между тем, задачи анализа информативности источников чрезвычайно важны, поскольку напрямую связаны с вопросами эффективности ИАР.
Наиболее распространенным подходом к анализу информативности источника является подход, основанный на определении отношения числа сообщений, релевантных проблеме исследования, к общему числу сообщений, однако такой подход не всегда приемлем. Например, если некий источник функционирует в соответствии с известным графиком и в установленное время предоставляет релевантные данные, его информативность в соответствии с описанным подходом может оказаться крайне низкой. Но если учесть возможность отслеживания данных только на заданном интервале времени, то при разумной организации работ информативность окажется намного выше, нежели у многих других источников, передающих релевантные данные в непредсказуемый момент времени.
Другой аспект проблемы оценивания информативности связан с характером данных и категорией потребителя (в том числе, его ценностной ориентацией и финансовыми возможностями). Допустим, что, действуя по поручению некого штаба предвыборной кампании, ваша организация решает задачу определения предвыборной тактики гипотетического соперника заказчика, пытающегося «оседлать» малоимущие слои населения. Если в интересах решения задачи вы без разбора закупаете все множество местных газет, то наиболее вероятно, что большую часть денег вы тратите понапрасну. Ведь соперник вашего кандидата тоже ограничен в средствах, и постарается оптимизировать затраты, а значит, он не станет размещать свою предвыборную агитацию в дорогих изданиях (на них придется минимум средств из его бюджета), а будет ориентироваться на дешевые, но содержательные, либо на бесплатно распространяемые газеты, публикующие программу телепередач. Информативность таких газет в целом (в пересчете на количество статей) может оказаться невысокой, но релевантные данные будут встречаться регулярно (из номера в номер).
Можно привести похожий пример, но из сферы бизнеса: едва ли имеет смысл скупать всю региональную прессу для получения суточной сводки биржевых котировок — для того есть специальные колонки в солидных газетах (а тем более — в ГСТК Интернет и «за бесплатно»). И наоборот… Всем известно, что реклама — двигатель прогресса, что стоит она недешево, и что существуют определенные требования к числу показов рекламы для того, чтобы объект рекламы отпечатался в памяти потребителя. Пусть перед вами стоит задача установления системы целей и коэффициентов их важности для некого рекламодателя… Вот здесь вам, действительно, стоит изучить весь массив региональной прессы, дабы установить рекламную политику объекта: состав привлекаемых СМИ, стоимость размещения рекламного блока, слои населения, потребляющего продукцию данного СМИ. Возможно, вам придется сымитировать попытку размещения рекламы в СМИ и изучить предлагаемую их рекламным отделом тактику проведения рекламной кампании… то есть, бизнес-разведка в чистом виде. А на выходе — сведения о бюджете рекламной кампании, оценка приоритетов конкурента и иные полезные сведения.
Таким образом, любая организация, работающая в сфере ИАО и борющаяся за повышение качества своей информационной продукции, помимо прочих работ должна осуществлять:
— непрерывные поисковые мероприятия в интересах определения круга источников информации по своей специфике;
— проводить активный поиск и отслеживать периодически обновляемые информационные ресурсы телекоммуникационных сетей;
— располагать классификацией аудитории и вести работы по установлению типа аудитории того или иного средства массовой информации.
По существу, на момент получения очередной задачи субъект ИАР должен располагать готовой гипотезой о составе и характере источников, потенциально представляющих интерес для проведения исследований в своей «зоне ответственности». Для освоения новой области исследований полезны различные методы активизации мыслительной деятельности от «метода кроссворда» до мозговых штурмов и исследований технического плана.
Но не все так просто: существует ряд проблем, связанных с процессом оценки информативности, да и с процессом анализа и интерпретации текстовых данных в целом. Как это ни странно, но при решении этих проблем компьютерные системы способны оказать чуть ли не большую пользу, чем эксперт-аналитик. В том числе, речь идет и о проблемах эмоциональной аттестации текстов и выявлении скрытых противоречий и недомолвок во внешне нейтральных и непротиворечивых текстах, а также о проблеме поддержания целостности и стабильности модели мира аналитика.
Одним из наиболее распространенных путей добывания информации в сфере средств массовой информации является использование каналов межличностных коммуникаций (хотя, «метод потолка и пальца» в СМИ еще никто не отменял). Система межличностных связей бывает крайне сложной, и на пути к потребителю информация проходит через сложную цепочку связей, выполняющую роль активного фильтра.
Работа с сообщениями вторичных источников имеет свою специфику, заключающуюся в том, что относительная простота получения доступа к ним сочетается с крайней сложностью интерпретации данных, получаемых от них. Характерной особенностью современной информационной обстановки является экспоненциальный рост числа вторичных источников информации по отношению к первичным. В создавшихся условиях аналитические службы уже не могут пренебрегать такой важной характеристикой канала распространения информации, как ценностная ориентация вторичного источника или их совокупности. Это приводит к тому, что все больший вес приобретает задача оценивания и «аттестации» источников. Важность этой задачи легко проиллюстрировать с помощью представленного на рисунке примера отображения исходного сообщения первичного источника А0 в сообщения А1 и А2 вторичных.
В предложенном примере исходное сообщение А0, изначально представленное множеством информационных составляющих а0, а1, а7, проходя по цепочке информационного взаимодействия, теряет часть составляющих, трансформируясь в А1 и А2. В данном случае эти потери вызваны различиями в ценностной ориентации индивидов В и С, а множества В и С отражают характеристики их фильтров ценностной ориентации.
Исходное сообщение А
Ценн. ориент. индивида В
Вторичное сообщение А&В
Ценн. ориент. индивида С
Вторичное сообщение A&B&C
A0 = {a0,a1,a2,a3,a4,a5,a6,a7 B = {0,0,1,1,1,0,1,0
A1 = {0,0,a2,a3,a4,0,a6,0 C = {1,1,1,1,0,0,1,0
A2 = {0,0,a2,a3,0,0,a6,0
Рисунок 4.2 — Случай пассивной фильтрации сообщения.
Рассматриваемый здесь случай демонстрирует двоичный вариант пассивной мультипликативной фильтрации сообщения. При этом коэффициенты фильтра принимают значения 0 или 1, исключая или пропуская без изменений ту или иную составляющую исходного сообщения. На практике такой случай встречается довольно часто и может условно именоваться «случай умалчивания». Однако такая блокировка части сообщения не всегда убедительно выглядит для потребителя сообщения — на практике значения элементов упорядоченного множества коэффициентов передачи (назовем их условно множителями), составляющего характеристику ценностной ориентации могут колебаться в диапазоне действительных чисел (данное утверждение условно, так как зависит от формальных договоренностей).
Реальная возможность оценивания характеристики совокупной ценностной ориентации всей передающей цепочки, как правило, отсутствует. В редких случаях, используя провокационную стратегию (тестирование) можно определить реакцию компонентов цепочки на отдельные входные сообщения, однако действие социальных и психологических факторов при общении способно обесценить результат такой работы.
Психологические установки собеседников, различия в их социальном статусе, целевой и ценностной ориентации нередко служат причиной того, что в процессе общения собеседники, образуя своебразную систему, оказывают друг на друга взаимное влияние, что также приводит к искажению сообщения. Варианты искажений в таких мини-системах могут быть резко полярными — от сокрытия до многократного преувеличения или инверсии отдельных смысловых составляющих сообщения. Особенно часто этот феномен наблюдается при попытках сглаживания конфликтных ситуаций.
Особый интерес представляют результаты анализа искажений при наличии нескольких версий сообщения, поступивших из различных источников, поскольку они позволяют сформировать представление о ценностной ориентации вторичных источников и осуществить их категорирование по признаку сонаправленности векторов их целей с целями некоторых политических, финансовых и иных группировок. Вопрос мотивации вторичного источника в данном случае не рассматривается, поскольку применительно к индивидууму, мотивация тех или иных его поступков может быть крайне разнообразна, а для объединений и группировок, как правило, легко выводится из основной целевой функции и совокупной ценностной ориентации.
Казалось бы, все эти характеристики можно выявить лишь в результате кропотливой работы по анализу смыслового содержания сообщений. Да, это так, но… некоторые данные, косвенно характеризующие сообщение и его источник, могут быть получены и на этапе формального и экспресс-анализа сообщений, причем, даже без погружения на семантический уровень. Зачастую даже анализ поверхностных грамматических структур способен дать очень много полезной информации.
Мы уже писали, что организация, активно работающая в сфере ИАО, в интересах создания корпоративного ресурса данных, релевантных основной тематике исследований вынуждены разрабатывать и эксплуатировать собственные базы и хранилища данных, а также специализированный инструментарий ИАР. Соответственно, если строить работу по уму, сообщения должны подвергаться каталогизации, аннотированию и атрибуции (указанию атрибутов сообщения). Состав атрибутов сообщения может варьироваться в зависимости от характера решаемых задач.
С этой точки зрения целесообразно рассмотреть перечень потенциально представляющих интерес аспектов сеансов информационного взаимодействия при получении сообщений и их фрагментов по различным каналам информационных взаимодействий. Но, прежде, чем перейти к рассмотрению задачи атрибуции сообщений, следует определиться с тем, что представляет собой аналитический режим потребления сообщений. Только после этого можно говорить о том, насколько полезны для работы аналитика те или иные атрибуты сообщения.
Рассматривая технологии поиска, отбора и экспресс-анализа данных, мы вскользь упомянули о том, что аналитик подвержен действию множества помех, сказывающихся на качестве проводимой им работы. Это действительно так: аналитик, помимо его воли, может быть переведен в режим, не приспособленный для рациональной оценки ситуации. Аналитический режим потребления информации — это особый режим мыслительной деятельности человека, отнюдь не всегда реализуемый им. Более того, аналитический режим потребления информации — это режим требующий от человека значительных мыслительных усилий и сопровождающийся стрессовыми нагрузками.
Мыслительная деятельность вообще нелегко дается человеку — достаточно вспомнить экзаменационную пору, когда есть хочется, как волку, голова гудит, как колокол, а добродушная шутка однокашника может стать причиной серьезной ссоры. Дело в том, что эмоции и логика — две грани, два метода познания мира. Эмоции можно отнести к восприятию системы как целого, а логику — к восприятию системы как совокупности элементов. Как следствие, логикой нам удается смирить эмоции, а неконтролируемые эмоции нередко «захлестывают» логику. Именно на этапе осмысления полученного блока информации для аналитика (человека познающего) эмоции могут выступать в качестве препятствия на пути к правильной интерпретации полученных данных. Когда же мы нечто сообщаем сторонним слушателям, то, как правило, выдаем уже результат размышлений и переживаний, и поэтому легко смешиваем логику и эмоции в тех пропорциях, которые сочтем нужными для достижения желаемого эффекта.
В случае, когда человек не имеет времени на логическое осмысление непосредственно наблюдаемой ситуации или поступившей информации, он приблизительно в 50 % случаев выступает в роли ретранслятора эмоций (собственных ли, чужих ли — безразлично, если обратиться к Социальным Технологиям, то причина становится понятна). Такой эффект часто можно наблюдать в прямых репортажах корреспондентов, передающих не содержание ситуации, а эмоциональную атмосферу, однако в СМИ так реагируют не только в силу специфики устройства психики, но и в силу профессиональной традиции. Действительно, что еще остается делать, когда точные причины и логика событий неизвестны, а единственно достоверные сведения либо слишком общи, либо слишком кратки? Более того, эмоции более мобильны и не требуют от субъекта серьезной мыслительной работы.
Взять, к примеру, события 11 сентября 2001 года: более суток большинство каналов телевидения и средств массовой информации посвящали этим событиям максимум экранного времени и основные ресурсы материальных носителей информации (газетные полосы, дисковые накопители и каналы ГСТК Интернет и т. п.), однако информации для установления населением реальной ситуации было недостаточно. В течение первых суток большинство граждан получило лишь достоверные и непротиворечивые сведения о самом факте состоявшегося террористического акта. За одни сутки население США и других стран было дезориентировано, сформировалась специфическая эмоциональная атмосфера — спустя неделю в Великобритании были отмечены неединичные случаи психических расстройств, вызванных просмотром трансляции с места событий (английские психиатры назвали это «манхеттенским синдромом»). Обилие сырых, построенных на недостоверной информации версий играло на руку террористам, на сцену выступили представители «оккультных наук», намеренно или ненамеренно дискредитировавшие своими заявлениями работу спецслужб. На этом фоне заявления руководителей спецслужб, осуществлявших систематический и целенаправленный сбор и анализ информации, вне зависимости от степени их достоверности воспринимались с подозрением. Мотивы недоверия были очевидны и скрывались на уровне обыденного сознания, сформированного в ходе просмотра различных горячих новостей, журналистских расследований, сериалов и боевиков: а) не может представитель спецслужбы, запятнавшей свое имя участием во множестве «грязных» дел, говорить правду; б) если так долго распутывается «простейшее» уголовное преступление, то столь масштабное преступление не может быть раскрыто в краткие сроки; в) США находятся в узле мировых противоречий и у них слишком много недоброжелателей; г) спецслужбы давно вышли из под контроля правительства, коррумпированы и недееспособны.
К чему это отступление? Поясним: существует масса причин, по которым даже та информация, которая является и достоверной и непротиворечивой, может быть не воспринята аналитиком — в числе этих причин одно из первых мест занимает эмоциональный строй информации и состояние аналитика. Эти факторы сказываются на состоянии «ментальных» моделей интерпретации информации, которыми пользуется аналитик. Однако, эта — эмоциональная — компонента текстовых сообщений очень часто исключается из рассмотрения при анализе информации либо выделяется в отдельный блок задач анализа. В результате чего при работе с такими сообщениями блокировка модели мира аналитика становится невозможной, что, как будет показано далее, является обязательным требованием к аналитическому режиму потребления информации. Однако, прежде чем продвинуться дальше в наших рассуждениях, следует дать ряд определений. И в первую очередь — определение термина «модель мира».
Модель мира субъекта познания — есть активно использующаяся им для выработки управленческих решений совокупность приобретенных в результате накопления и анализа индивидуального и социального опыта представлений о сущностях и процессах реального мира. Модель мира субъекта познания представляет собой целостную динамичную систему представлений, в которой в зависимости от ситуационного контекста субъект способен выделить множество формально изолированных модельных фрагментов.
С точки зрения информационно-аналитической работы наибольший интерес представляют собой следующие фрагменты модели мира субъекта:
— модель фрагмента реальности, являющегося предметом мыслительной деятельности;
— модель познающего субъекта, мыслимая им самими (познающий субъект совпадает с объектом познания);
— модель инструментария сбора данных, мыслимая познающим субъектом;
— модель источника сообщения.
В процессе аналитического восприятия массива исходных данных познающий субъект в различные моменты времени осознанно фиксирует или модифицирует различные фрагменты своей модели мира. При этом наряду с переработкой данных, непосредственно затрагивающих интересы субъекта в области практической деятельности, познающим субъектом должны подвергаться анализу и те фрагменты данных, которые непосредственно не связаны с решаемой управленческой задачей. Например, те приемы, которые используются источником сообщения для усиления воздействия на получателя сообщения.
Оперируя сформулированными понятиями, можно дать своеобразное определение информационно-аналитической работы.
Информационно-аналитическая работа (ИАР) — это специфический вид мыслительной деятельности человека, связанный с извлечением из некоторого массива входных данных информации (нового знания об объекте исследования) на основе использования некоторой относительно устойчивой субъективной модели мира. Специфика этого вида мыслительной деятельности заключается в недопущении субъектом ИАР (аналитиком) неконтролируемой, спонтанной модификации собственной модели мира в результате воздействия потока входных данных.
Итак, процесс восприятия сообщений представляет собой систему процедур, осуществляемых потребителем сообщения над отдельными высказываниями и их составляющими, раскрывающими субъективную модель реальности, отраженную в сообщении его автором. Каждое высказывание, входящее в состав сообщения, подвергается анализу с привлечением тех сведений, которыми получатель сообщения располагал на момент времени, непосредственно предшествовавший восприятию. В случае обнаружения логической неполноты или противоречий в приведенной аргументации, при диалогической форме обмена информацией получатель может направить запрос на повторное воспроизведение сообщения, или же потребовать пояснений. При восприятии сообщений, представленных в символьном виде, при обнаружении логической неполноты или противоречий в аргументации, потребитель может самостоятельно вернуться к тому высказыванию, начиная с которого, по мнению получателя, целостность аргументации была нарушена. То есть, в некоторых случаях для восполнения недостатка знаний потребитель сообщения может воспользоваться процедурами привлечения дополнительной (или не воспринятой ранее) информации. Для этого могут быть использованы процедуры повторного считывания информации, построения запроса к источнику сообщения или иным источникам информации.
С точки зрения анализа познавательных процессов особый интерес представляет собой процедура повторного считывания сообщения. Автомату, не способному к обучению, повторное считывание не способно дать какого бы то ни было положительного эффекта, но для обучающегося автомата повторное считывание уже приобретает смысл. Положительный эффект при повторном считывании достигается за счет пополнения или уточнения тезауруса, установления системы отношений между сущностями, упоминаемыми в сообщении, в результате им может быть получена информация об области значений ранее неизвестных терминов и иные сведения, способствующие восприятию сообщения и/или выявлению специфики локального тезауруса и модели мира источника.
Однако эти процедуры могут быть реализованы лишь при наличии мощного тезауруса, в котором возможен поиск, в том числе и ассоциативный. Это означает, что тезаурус в обучаемой системе должен строиться на основе семантического принципа упорядочивания. Принцип алфавитного упорядочения, используемого в классических словарях здесь неприменим — способ упорядочения должен определяться системой отношений в используемой источником сообщения модели мира. В настоящее время вновь стал популярен класс семантических словарей, строящихся именно по такому принципу[61] — использование таких словарей при синтезе автоматизированных систем обработки текстов способно дать положительные результаты, однако этого недостаточно: отношения между терминами должны выражать их эмоциональную окраску, направленность действия и иные характеристики. При этом направленность действия должна определяться не столько по отношениям, проявленным в сообщении (по формальным признакам, проявленным в синтактике, т. е. грамматическим категориям), сколько в абсолютном их истолковании (по постулированным в тезаурусе семантическим отношениям).
В качестве примера результатов некорректной аналитической обработки по формальным критериям можно привести результаты анализа высказывания «Лагерь боевиков подвергся бомбардировке». Данное сообщение, будучи истолковано в соответствии с формальными правилами интерпретации будет означать следующее: «Лагерь боевиков подверг себя (подверг-ся — обращение действия на себя) бомбардировке». Последнее утверждение не может быть признано корректным, однако по формальным признакам — вполне приемлемо. Корректность высказывания проверяется на модели мира субъекта, и в результате дополняется неким пропущенным в сообщении субъектом, восстановление которого возможно лишь с привлечением социального опыта получателя сообщения.
Если рассматривать конструктивные элементы естественного языка (слова, частицы, знаки препинания и маркеры, выделяющие текстовые макроструктуры, типа абзаца) с позиций семиотики, то в общем множестве этих элементов могут быть выделены специфические подмножества, элементы которых несут специфическую нагрузку как на синтактическом, так и на семантическом (смысловом) уровне. При этом по всем канонам на синтактическом уровне следует рассматривать интерфейсные свойства этих элементов, которыми обусловлены их грамматические функции (например, количество и тип связываемых компонентов для переходных глаголов, падежные цепочки и т. д.), но, в то же время, интерфейсные свойства элементов проявляются и на семантическом уровне. Более того, для ряда элементов строгое разграничение синтактики и семантики осуществить крайне сложно — эти элементы образуют своеобразное подмножество естественного языка. Именно эти элементы в свое время были выделены в логическое подмножество языка: сюда могут быть отнесены такие конструкции «если — то», «до|после», «ниже|выше», «и|или» (класс этих терминов охватывает причинно-следственные и пространственные отношения, отношения предшествования|следования, включения|вложенности, порядка и иные). Многие элементы служат для выражения отношений иного класса — близкого к прагматической компоненте сообщения — это отношения превосходства, предпочтения и иные, обладающие выраженной эмоциональной окраской.
Для корректной интерпретации сообщений требуется наличие служебных эталонных моделей, способных учитывать специфику каждого элемента языка и описывать объекты, процессы и явления реального мира в терминах грамматических и семантических категорий, составляющих модель дискурса (ситуационного и коммуникационного контекста). На основе их использования может быть распознана система различных умолчаний, используемых в сообщении, что позволяет, если не осуществить подстановку в автоматическом режиме, то, как минимум, предоставить для последующего рассмотрения экспертом состав категорий, подстановка которых на место пропущенного термина позволит сформулировать корректное высказывание.
Увы, никто не застрахован от ошибок интерпретации — особенно часто они возникают при работе с иностранными языками, для которых потребитель сообщения, как правило, не в состоянии сформулировать целостную модель мира, построенную в терминах данного языка. Однако и родной язык часто преподносит сюрпризы: даже говоря на одном языке люди умудряются настолько превратно истолковывать слова собеседника, что остается только удивляться. Рассмотрим причины возникновения ошибок при осуществлении языковой коммуникации. Определим, что есть акт коммуникации и акт коммуникации в рамках нормативной языковой системы.
Акт коммуникации — это процесс информационного взаимодействия неизменной совокупности участников акта коммуникации (коммуникантов), ограниченный интервалом времени, на протяжении которого ситуационный контекст информационного взаимодействия остается стабильным. Под ситуационным контекстом мы понимаем как внешние условия протекания акта коммуникации, так и основное содержание деятельности его участников.
Акт коммуникации в рамках нормативной языковой системы или акт нормативной коммуникации — это такой акт информационного взаимодействия (ИВ), при котором его участники используют для представления сообщений нормативную языковую (знаковую) систему. При этом нормативная языковая система — есть некий эталон языка, имеющий внешнее материальное представление и в равной степени доступный его пользователям. По существу, нормативная языковая система — это эталонная модель языка, обращение к которой позволяет синхронизировать представление участников АК о правилах использования терминов и их значении.
Акты коммуникации (АК) в нормативной языковой системе могут быть успешными и неуспешными. В результате успешного акта языковой коммуникации участники получают адекватную проекцию сущностей и отношений реального мира на плоскость (множество) допустимых высказываний и обратное отображение с высказываний на модель реального мира.
Успешный акт коммуникации при нормативной языковой коммуникации характеризуется тем, что результат прямого и обратного преобразования «реальный мир — модельный мир — высказывание» приводит к правильной идентификации объектов и отношений реального мира. Такой акт может протекать различным образом и может быть:
— идеальным (траектории прямого и обратного преобразования сущностей и отношений реального мира в высказывание не будут отклоняться от нормативной траектории);
— когерентным (прямая и обратная траектории будут совпадать, но при этом могут отклоняться от нормативной траектории);
— дефлекторным (прямая и обратная траектории не будут совпадать, но приведут к корректному отображению на фрагмент реальности).
Неуспешный акт коммуникации при нормативной языковой коммуникации характеризуется тем, что результат прямого и обратного преобразования «реальный мир — модельный мир — высказывание» приводит к ошибочной идентификации объектов и отношений реального мира. Результат завершения АК не всегда очевиден его участникам — более того, в большинстве случаев ошибки остаются незамеченными.
Причины того, что ошибки часто остаются незамеченными, отчасти разъясняет классификация ошибок АК:
— ошибки прагматического плана, вызванные наличием расхождений между нормативной и субъективными моделями мира;
— ошибки семантического плана, вызванные наличием расхождений между нормативной и субъективными терминологиями;
— ошибки метаязыкового (синтактического) плана, порожденные наличием различий между нормативной и субъективными моделями метаязыка;
— ошибки контекстуального плана, вызванные нарушениями восприятия источником сообщения контекста информационного взаимодействия.
При возникновении ошибок следует различать два варианта отображения:
— квазикорректное отображение представляет собой вариант отображения, при котором единичная ошибка или их композиция не приводят к тому, что хотя бы в одной из плоскостей модельного или реального миров высказывание не имеет референта; обнаружение такого рода ошибок является чрезвычайно сложной задачей, поскольку обеспечивает формальное согласование моделей и может быть выявлено лишь при условии, что по мере накопления ошибок расхождение моделей станет явным;
— индикативное отображение представляет собой вариант отображения, при котором ошибки источника сообщения приводят к проекции высказывания на сущности и/или отношения, не имеющие референта хотя бы в одной из плоскостей модельного мира или в плоскости реального мира; следствием этого становится явление индикации ошибки — в зависимости от типа ошибки или их композиции индикативное отображение может обеспечивать различную точность при позиционировании ошибки.
Чрезвычайно важными при анализе ошибок, возникающих в ходе информационных взаимодействий, являются условия протекания акта коммуникации. От этих условий зависит то, какого рода ошибки коммуникации будут подлежать локализации, а также то, в какие сроки и с какой точностью это можно будет осуществить. Условия протекания акта коммуникации определяют контекст акта коммуникации в широком смысле. Рассмотрим виды контекста АК:
— коммуникация, синхронная фрагменту реальности;
— коммуникация, не синхронная фрагменту реальности;
— коммуникация с совпадением фрагментов моделей мира участников АК;
— коммуникация без совпадения фрагментов моделей мира участников АК;
— коммуникация с установлением визуального контакта между участниками АК;
— коммуникация без установления визуального контакта между участниками АК;
— коммуникация с наличием адекватного инструментального контакта с фрагментом реального мира, на который осуществляется проекция высказываний;
— коммуникация без наличия адекватного инструментального контакта с фрагментом реального мира, на который осуществляется проекция высказываний.
Таким образом, можно выделить четыре дихотомии, описывающие контекст информационного взаимодействия, относящиеся к условиям:
— наблюдаемости участников ИВ;
— совместимости фрагментов моделей мира;
— инструментальной доступности фрагмента реальности;
— синхронности АК фрагменту реальности.
Перечисленные дихотомии не предполагают симметричности отношений и обладают свойством направленности, т. е. контекст ИВ может быть несимметричным для участников АК. Более того, именно, несимметричность контекста ИВ наиболее характерна при анализе сообщений СМИ.
Модель мира, синтезируемая аналитиком на основе личного и социального опыта, является тем фундаментом, на котором строится вся аналитическая работа. Более того, модельный мир субъекта представляет собой мыслимый интерфейс для управления объективной реальностью. Можно предложить различные классификации элементов модельного мира. Так, например, для объективной реальности элементами являются объекты и процессы реального мира, а элементами модели мира субъекта — их характеристики, состояния и отношения. Однако в данном случае нас интересует несколько иной аспект модельного мира — аспект, связанный с коммуникацией и восприятием информации.
Поскольку целью АК является передача информации (независимо от ее характера), постольку практически во всех случаях речь идет о процессе модификации (адаптации) моделей мира участников АК. Таким образом, в течение АК состояние элементов модельного мира участников остается стабильным лишь на протяжении времени, необходимого для восприятия высказывания (к числу элементов модельного мира относятся субъективная модель мира, субъективная модель терминологии и субъективная модель метаязыка[62]). Соответственно, ошибки могут возникать вследствие несовместимости различных фрагментов модельного мира участников АК (см. рис. 5.3).
При этом будем учитывать, что структура модельного мира аналитика, представленная на рисунке, показана для одного из видов деятельности (языковой коммуникации). Для других же видов деятельности может быть выбрано и иное деление на фрагменты, что мы и продемонстрируем позже.
Сформулируем ряд важнейших утверждений относительно целей акта коммуникации.
Утверждение 1: Целью любого акта коммуникации и процесса информационного взаимодействия в целом является управление состоянием элементов модельного мира.
Утверждение 2: Целью акта коммуникации могут быть синхронизация (согласование) или десинхронизация (рассогласование) состояний элементов модельного мира участников акта.
Утверждение 3: Целью управления состоянием элементов модельного мира является управление процессами реального мира.
Для всякой системы, в которой могут возникать ошибки различного рода важно оценить те условия, при которых она обладает максимальной и минимальной устойчивостью, по отношению к воздействию. В зависимости от целей, преследуемых участниками АК, участники АК по-разному оперируют своими моделями мира. Проведем анализ АК, условно разделив модельный мир потребителя сообщения на два фрагмента, один из которых ответственен за представление источника сообщений, а другой — за представление всех остальных элементов реального мира. Фиксируя в различных сочетаниях состояния этих фрагментов модельного мира потребителя сообщения, получим следующие разновидности АК.
— с абсолютной фиксацией модельного мира потребителя сообщения (ММПС);
— с фиксацией фрагмента модельного мира потребителя сообщения, ответственного за представление источника сообщения (ИС);
— с фиксацией фрагмента модельного мира потребителя сообщения, не ответственного за представление источника сообщения (ММПС-ИС);
— без фиксации модельного мира потребителя сообщения.
Данная классификация будет представлять интерес при решении прикладных задач лишь в том случае, когда для потребителя сообщения будет введено разграничение пассивной и активной стратегий. С этой целью в рамках диалогического режима коммуникации выделяются интервалы времени, в пределах которых каждый участник АК потребляет или передает информацию. Полная классификация АК по признаку состояния элементов модельного мира включает 32 варианта отношений между участниками АК. Однако при рассмотрении закономерностей аналитической работы с материалами СМИ или иных источников информации, не подлежащих обучению или переубеждению, интерес представляет лишь часть разновидностей АК. Работа с источниками информации предполагает скорее монологический режим коммуникации, а это значит, что элементы модельного мира источника сообщений (корреспондента) должны рассматриваться как фиксированные. Как следствие получаем всего восемь типов АК, различающихся лишь статусом активности потребителя сообщения (способом получения сообщений: целенаправленный поиск или помимовольное потребление информации). Поскольку аналитик имеет мотивацию к анализу сообщений, постольку и статус активности потребителя сообщений (аналитика) фиксируется в активном состоянии — соответственно остается лишь четыре варианта отношений. Таблица, содержащая сокращенный вариант классификация АК по признаку состояния фрагментов модельного мира приведена в табл. 4.1. Если колонка ММПС-ИС или ИС содержит «0», то данный фрагмент модели мира потребителя сообщения остается неизменным, а если «1», то фрагмент модифицируется.
Таблица 4.1 — Характеристика значимых вариантов АК
ТипАК | ММПС-ИС | ИС | Оценка содержания АК |
АК1 | 0 | 0 | АК неэффективен |
АК2 | 0 | 1 | Потребитель сообщений оценивает модельный мир источника сообщений (фрагмент модели мира потребителя сообщения, ответственный за отражение источника сообщения подвергается модификации) |
АК3 | 1 | 0 | Режим активного авторитетного обучения (модель мира источника сообщения служит эталоном для коррекции модели мира потребителя сообщения, что не сопровождается изменением мнения об источнике) |
АК4 | 1 | 1 | Потребитель сообщений корректирует свой модельный мир (источник сообщений служит эталоном для коррекции модели мира потребителя сообщений, одновременно с этим меняются и оценки в отношении источника) |
Относительно неэффективности варианта АК, приведенного в первой строке таблицы, следует привести некоторые пояснения. Если рассматривать АК, как акт, связанный с модификацией модельного мира его участников, то вариант АК1 не может рассматриваться, как успешный. Более того, АК1 не может быть квалифицирован, как АК, сопровождающийся переносом информации. Однако такой тип АК, который являет собой АК1, также значим, поскольку такие АК служат основой для формирования статистического знания (являются источником сведений, которые по мере накопления могут быть обобщенны до уровня нового знания). То есть, АК1 можно считать успешным, если допустить, что информация была воспринята, как очередное подтверждение сведений, имевшихся на момент, предшествовавший получению сообщения, как еще одна итерация на пути к синтезу знания.
В процессе ведения информационно-аналитической работы эксперт-аналитик переходит от одного режима коммуникации к другому, подвергая коррекции то одни, то другие компоненты модельного мира — это вполне естественно, но существует один нюанс: высокая динамичность модели мира аналитика может стать причиной его неспособности к прогностической деятельности.
По этой причине необходимо рассматривать несколько уровней моделей мира, обладающих различными степенями динамизма. Реализация такого подхода вне коллективной деятельности экспертов представляет собой сложную задачу. Квалификация аналитика, способного реализовать режим сопровождения такой многоуровневой модели должна быть очень высока — в противном случае произойдет разрушение модели высшего уровня, образующей мировоззренческую и методологическую базу ИАР. Подтверждением может служить низкий уровень аналитических способностей у людей, без подготовки перешедших к режиму активного поглощения телевизионных информационных программ, транслируемых по различным каналам. Низкое качество аналитических выводов обусловлено высокой адаптивностью синтезируемых ими моделей мира. Причиной такой их динамичности является как раз отсутствие базы для накопления статистических знаний (вариант АК 1 в предложенной классификации).
С учетом приведенной классификации АК попытаемся выявить такие сочетания дихотомических пар, описывающих контекст протекания АК, при которых будут возникать критические условия протекания АК. С этой целью определим, какого рода информация может передаваться в ходе АК и какое соотношение дихотомических пар при этом будет обеспечивать наибольшую вероятность ошибочного восприятия сообщения. Однако, даже рассуждая на уровне обыденного сознания, можно прийти к выводу о том, что не все языковые конструкции в равной степени будут подвержены действию этих дихотомических факторов.
Введем своеобразную классификацию видов информации, которая может передаваться с помощью средств языковой (знаковой) системы между участниками АК:
— эмоциональная (любая не имеющая физической репрезентации, например, этико-морального плана — такая трактовка характерна для эмотивистской философской школы);
— субстанциональная (потенциально эмпирически верифицируемая — трактовка Р. Карнапа);
— сенсорная (непосредственно данная в ощущениях, в том числе — с использованием инструментальных средств)
— пространственная (позволяющая локализовать субстанцию в некотором пространстве);
— временная (позволяющая соотнести состояние с некоторой шкалой времени).
Рассмотрим, каким образом влияет изменение контекста информационного взаимодействия на восприятие терминов, служащих для передачи перечисленных видов информации. Ниже на табл. 4.2 представлена зависимость, отражающая воздействие контекста АК на восприятие терминов, служащих для выражения информации различного типа.
Таблица 4.2 — Зависимость восприятия различных типов информации. Вид информации _Контекст АК_
ФР * синхронен? | Источник**наблюдаем? | ФР * доступен? | Модели совместимы? | |||||
Нет | Да | Нет | Да | Нет | Да | Нет | Да | |
Эмоциональная | 0 | 0 | — 1 | 1 | — 1 | 1 | 1 | 1 |
Субстанциональная | 1 | 1 | 0 | 0 | — 1 | 1 | 1 | 1 |
Сенсорная | — 1 | 1 | — 1 | 1 | — 1 | 1 | — 1 | 1 |
Пространственная | 0 | 0 | — 1 | 1 | — 1 | 1 | — 1 | 1 |
Временная | — 1 | 1 | 0 | 0 | 0 | 0 | — 1 | 1 |
* ФР — фрагмент реальности ** Источник [сообщения] |
Не имея возможности предоставить строгую количественную оценку изменениям качества восприятия, воспользуемся шкалой с тремя градациями {-1, 0, 1}. Каждой из градаций шкалы установим в соответствие следующие значения: «-1» — «ухудшение», «0» — «без изменений», «1» — «улучшение». Такое размещение данных позволяет наглядно продемонстрировать насколько комфортным для восприятия сообщения, состоящего из терминов заданного класса, является тот или иной вид контекста ИВ. Из таблицы явствует, что наиболее критичным для восприятия сообщения при любой комбинации прочих условий, задающих контекст, является несовместимость фрагментов модельного мира. Несовместимость фрагментов модельного мира оказывает негативное воздействие на восприятие всех видов терминов. Если же оценивать, какой именно вид информации наиболее устойчив по отношению к вариациям контекста ИВ, можно сделать вывод о приоритете временной информации (описывающей точное время, интервал времени или отношения предшествования/следования).
Стилистические особенности сообщений также влияют на качество усвоения информации. Например для СМИ могут быть выделены следующие стилистические/жанровые группы сообщений:
— фактографический отчет;
— репортаж с места событий (текст, аудио, видео);
— интервью, модерируемая (управляемая) беседа (в т. ч., ток-шоу);
— аналитический обзор;
— фельетон, памфлет;
— эссе и иные.
Для каждой жанровой группы характерны свои средства передачи информации, и, соответственно, эффективность их использования в интересах доведения до потребителя различных видов сведений существенно различается. Характерно, что с появлением и развитием технологических средств протоколирования состояния и процессов действительности, приобретения ими свойств портативности и мобильности, перечисленные жанры в целом сохранились, однако, за счет использования новых технологических средств, приобрели ряд новых черт. То есть, жанровые особенности могут быть усилены благодаря выбору тех или иных средств доведения информации (см. табл. 4.2).
В целом же, при анализе сообщений СМИ специфика влияния контекста информационного взаимодействия на восприятие сообщений СМИ такова, что потребитель сообщений (аналитик) лишен возможности модификации состояния модельного мира источника сообщений (журналиста или иного лица, излагающего свою позицию в СМИ). В этом случае речь может идти либо о режимах восприятия при условии совпадения или несовпадения фрагментов модельного мира участников акта коммуникации, реализуемого посредством СМИ, либо о специфике целей аналитика или фазы АК.
Впрочем, все сказанное о СМИ в равной степени применимо и к иным «односторонним» коммуникативным ситуациям, в которые попадают люди. Студент на лекции, ребенок на уроке, девушка перед гадалкой-мошенницей, да мало ли таких ситуаций, в которых человек, как кролик перед удавом, бессилен изменить картину мира собеседника, в то время как его картину крушат и перестраивают, приводя в соответствие с некоторыми, не всегда сознаваемыми «жертвой» целями. Другое дело, что у одних цели благие, а у других — нет…
Очевидно, что существует ряд принципиальных различий между аналитическим, обычным и фоновым режимами потребления сообщений. Дадим соответствующие определения.
Аналитический режим потребления сообщений — это такой режим, при котором потребитель изначально фиксирует состояние своей модели мира и осуществляет ее модификацию лишь при условии внутренней (внутри сообщения), контекстуальной (на уровне согласования с контекстом сообщения — не АК!) и внешней (на уровне согласования с моделью мира потребителя) этической и логической непротиворечивости.
Аналитический режим восприятия сообщения характеризуется высокой концентрацией внимания, активностью сознания, формулированием целевых установок на реализацию поисковых процедур, служащих разрешению противоречий, раскрытию системы умолчаний, потенциально содержащих логические и иные противоречия. Данный режим предполагает привлечение многоуровневой долговременной памяти, хранящей как модели высокого уровня абстракции, так и модели более низкого уровня абстракции и конкретные факты. Процесс потребления сообщения в этом режиме может быть продлен вплоть до момента получения совокупности сообщений, позволяющей сформулировать целостное суждение.
Обычный (фрагментарно аналитический) режим потребления сообщений — это такой режим, при котором потребитель фиксирует состояние наиболее существенных (с точки зрения обеспечения целостности его системы ценностей) фрагментов своей модели мира, в отношении же остальных фрагментов модели мира допускает модификацию при условии внутренней (внутри сообщения) этической и логической непротиворечивости.
Для обычного режима потребления сообщений характерны высокая динамика ряда фрагментов модельного мира. В зависимости от того, какие именно фрагменты модельного мира потребителя фиксируются, данный режим может обеспечивать различную степень защищенности от акций целенаправленной дезинформации и манипуляции сознанием. В ряде случаев данный режим может быть сопоставим с аналитическим, однако это утверждение справедливо лишь в отношении случаев, когда сообщение затрагивает систему базисных ценностей, принятых потребителем.
Фоновый (не аналитический) режим потребления сообщений — это такой режим, при котором потребитель не фиксирует I состояние своей модели мира, допуская ее модификацию при условии формальной внутренней (допускающей умолчания даже на уровне единичного сообщения) этической и логической непротиворечивости.
Для фонового режима потребления сообщений характерны отсутствие интеллектуальной активности, отсутствие мотивации к потреблению, превалирование иррациональной (эмоциональной) компоненты сознания, высокая динамика модельного мира. Данный режим не обеспечивает защиты от акций целенаправленной дезинформации и манипуляции сознанием. Для большинства ситуаций он сопоставим с режимом непосредственного программирования потребителя. Лишь в случае акцентированного рассогласования с системой ценностей возможен кратковременный переход в другой режим.
Существует целый ряд технологий перевода потребителя сообщений из одного режима потребления в другой. Как правило, эти технологии опираются именно на специфику этапов восприятия сообщений и приемы подмены контекста АК. Так, например, перевод сообщения спорного содержания из стилистики, характерной жанру аналитического обзора, в стилистику, характерную для свободного дружеского общения, позволяет повысить порог срабатывания системы распознавания и отторжения противоречивых высказываний (и, тем самым, увеличить уровень внушаемости индивида). Такие приемы регулярно используются для придания сообщениям внешней идеологической нейтральности либо мнимого перевода их из области научного сознания в область обыденного.
В зависимости от того, какие частные задачи преследует потребитель сообщения и как изменяется состояние тех или иных фрагментов его модельного мира, можно выделить четыре фазы акта коммуникации.
— начальную (восстановление контекста АК, накопление данных для анализа специфики модельного мира объекта коммуникации);
— пассивную (анализ специфики модельного мира объекта коммуникации, накопление статистических знаний/аргументации, формулирование выводов о совместимости фрагментов моделей мира субъекта и объекта АК);
— активную (модификация фрагментов модельного мира субъекта);
— завершающую (использование модифицированной модели в рамках АК и/или практической деятельности — закрепление или отмена внесенных изменений).
Конкретный режим потребления сообщения реализуемый в ходе АК, определяет перечень частных задач, решаемых потребителем сообщения на протяжении АК. Однако для каждого из этапов АК существует некоторый базовый перечень частных задач, который и определяет его специфику. Для упрощения восприятия можно условно разделить задачи на два класса: задачи аналитического плана и задачи, связанные с модификацией модельного мира. Рассмотрим перечень аналитических задач:
— анализ и идентификация контекста АК (анализ условий протекания АК: наблюдаемость, доступность, синхронность);
— анализ и идентификация источника сообщения, определение жанра изложения;
— анализ совместимости терминологии;
— анализ оценки источником сообщения потребителя сообщения (гипотезы субъекта сообщения о типе потребителя, допустимости использования заданного стиля и степени сложности изложения);
— анализ структуры релевантности сообщения (характерно для жанровых АК — использование средств акцентирования внимания: заголовки, шрифтовые выделения, иллюстрации и т. п.);
— анализ субъект-объектной, временной и пространственной иерархий сообщения;
— анализ релевантности сообщения задачам потребителя;
— анализ референции и дистрибуции терминов;
— анализ совместимости моделей мира участников АК (например, убеждение, как правило, используется при наличии расхождений);
— анализ логической целостности и связности сообщения и АК в целом;
— анализ эмоциональной нагрузки и связности сообщения и АК в целом;
— анализ информации, релевантной целям потребителя сообщения;
— анализ информации, релевантной целям источника сообщения;
— анализ целей источника сообщения и их совместимости с целями потребителя сообщения;
— анализ хранимых в памяти аналитика сценариев и моделей поведения объектов, обладающих сходными с описываемыми в сообщении признаками, целями и характеристиками;
— анализ связности и непротиворечивости единовременного сочетания признаков и последовательностей их проявления.
Как было указано, помимо аналитических задач, служащих для формирования базиса для принятия решения о целесообразности осуществления модификации модельного мира, существуют задачи, связанные с модификацией моделей. По существу, данные задачи являются однотипными и различия между ними заключаются лишь в том, какой именно фрагмент модельного мира подлежит модификации. То есть задачи модификации — это задачи отображения результатов рефлексии на систему модельного мира познающего субъекта.
Естественно, все, что связано с моделями мира и манипуляцией ими, замыкается на психику. Однако все, что есть в арсенале средств ее защиты — это далекие от совершенства психологические технологии типа аутотренинга, основанные на принципе «рационализации» мышления. Все они предполагают вывод из под контроля рефлексов основных поведенческих реакций. Да, бесспорно, это действенный метод, но не надо забывать о том, что задача аналитика — не сопротивление любой ценой, а решение поставленной информационной задачи, а значит, контроль за процессами модификации моделей мира для аналитика — это «всего лишь еще один мыслительный процесс».
И этот «всего лишь» наслаивается на процессы решения сложных информационных задач, требующих рефлексивного мышления (задачи примерки на себя чужой шкуры). Но даже те люди, которые, сидя перед телевизором, получают порцию новостей и могут неспешно размышлять над ней, дожидаясь уточнений в воскресной телевизионной программе, подчас становятся чрезмерно мнительными, в любой новости выискивая признаки манипуляции его личностью. Соответственно, ни о чем другом такой человек думать уже не может. Это означает, что аналитик должен выдерживать такие психологические нагрузки, когда до раздвоения личности — рукой подать. Здесь на помощь аналитику могут прийти:
— методики СТ А.А. Шияна, как инструмент, позволяющий осознать и учесть свои особенности при ведении ИАР;
— переход к активному использованию средств автоматического анализа эмоциональной нагрузки сообщений, подлежащих оцениванию;
— использование средств предобработки сообщений, позволяющих перейти от первичных речевых конструкций к конструкциям, построенных из стандартизованных терминов и оборотов, объединенных допустимыми логическими связками.
Так что, проблема в целом очерчена, пути ее решения существуют — можно работать. Работать как над собой, так и над созданием тех средств автоматизации, которые способны разгрузить аналитика, снизить те стрессовые нагрузки, которые существенно осложняют их работу. Первые шаги на этом пути связаны с решением задачи атрибуции сообщений, формирования их «паспорта». Уже на этом уровне может быть получена та информация, учет которой позволит снизить нагрузку на эксперта.
Задача анализа сообщений на семантическом уровне является сложной даже при работе с данными первичных источников информации (данными, полученными из каналов внутрисистемных взаимодействий). Однако сохраняющаяся в последние годы тенденция к сокращению числа сообщений первичных источников привела к необходимости развития и совершенствования методологии их анализа.
При работе с данными вторичных источников информации особую актуальность приобретает комплекс мероприятий, направленных на установление контекста информационного взаимодействия, его характеристик его участников, их ценностной ориентации и вероятных целей, преследуемых ими при генерации ими тех или иных сообщений. Для решения этой задачи аналитик должен располагать значительно большим объемом сведений об условиях получения информации, обеспечивающим возможность восстановления ситуативного контекста акта коммуникации (информационного взаимодействия). Сообщение, как таковое, или массив сообщений перестает быть тем единственным объектом, на котором концентрируется внимание аналитика: самой технологией их сбора, предварительной обработки и накопления должна быть предусмотрена возможность восстановления на этапе анализа ситуативного контекста генерации данного сообщения и контекста информационного взаимодействия.
Очевидно, что без дополнительных данных («данных о данных») контекст восстановить крайне сложно и возможно лишь в экстремальных случаях. Чтобы убедить вас в справедливости этого замечания, приведем фрагмент модельного сообщения, для которого задача восстановления контекста без привлечения дополнительной информации действительно имеет решение: «Сегодня, 18 мая 2002 года, сидя в московском офисе газеты «Агентство ОБС», я, корреспондент Холмс И.И., по заказу генерального директора ООО «Наветы» Клевещенко Г.П. сочиняю эту статью-расследование. Название статьи — «Не могу молчать!» — неслучайное: вот уж три года, как…». Согласитесь: своеобразный стиль, а уж откровенность… тянет на еловый венок — подобное сообщение едва ли встретишь в СМИ.
Еще одним аргументом в пользу необходимости атрибуции поступающих сообщений является то, что реальная ценность сообщения при ведении ИАР не всегда может быть оценена при первом прочтении. Очень часто случается так, что на момент получения сообщение не может быть отнесено к классу релевантных тематике исследований. Причин тому масса: начиная с того, что сообщение может быть действительно нерелевантно текущей тематике исследований, и, заканчивая тем, что связь данного сообщения с тематикой исследований не может быть установлена в силу неполноты или неадекватности модели исследуемой системы (что часто случается на начальном этапе исследований). Но ведь сообщение, тем не менее, прочитано (и проанализировано)… на его интерпретацию затрачены усилия, а относительно его содержания сформулированы некие выводы. Проблема состоит в том, что задача протоколирования этих выводов не имеет технологического покрытия — автоматизации этого процесса не уделяется должного внимания. Считается, что эти трудозатраты неизбежны. Как следствие, при необходимости вовлечения этого сообщения в процесс анализа вся работа проделывается вновь, да и привлечь его к процессу анализа может не всякий аналитик — для этого он должен помнить о самом факте существования такого сообщения.
Естественным выходом из такой ситуации является создание инструментальных средств, обеспечивающих режим автоматизированного протоколирования выводов аналитика при первом прочтении сообщения. Создание таких средств возможно при условии, что автоматизированная система рассматривается в качестве инструмента предобработки сообщений, предлагающей аналитику некий набор версий, подлежащих оцениванию и утверждению им по прочтении некоторого сообщения. Теоретически создание подобных систем не является чем-то невозможным, более того, технологическая база на сегодня способна обеспечить необходимое быстродействие, если задаться реалистичными целями (то есть, не требовать от компьютерной системы стопроцентной достоверности выводов).
Чего же тогда можно требовать от такой системы? Какой ценностью обладает система, которая предоставляет не абсолютно достоверные выводы?
— Польза от такой системы однозначно есть. Для того, чтобы она была полезна, достаточно, чтобы она обеспечивала генерацию ограниченного числа максимально правдоподобных гипотез о значении некоторого комплекса атрибутов на основе проведения анализа формально-логических отношений, выраженных в тексте. Уже в этом случае аналитик получает возможность отбирать те из них, которые наилучшим образом описывают его выводы, полученные экспертным путем. Это не только экономия времени на протоколирование, но и возможность формально логической экспертизы утверждений, выраженных в тексте.
Таким образом, окончательно убеждаемся в необходимости учета ряда специфических атрибутов сообщения, содержащих дополнительную информацию о контексте информационного взаимодействия и результатах его анализа. Остается определить, какие именно атрибуты целесообразно включить в протокол анализа сообщения. Вероятно, было бы лучше вывести перечень атрибутов на основе исчерпывающего рассмотрения универсального алгоритма обработки сообщения (это можно сделать, но тогда аргументация выбора отнимет много страниц, а это нарушит замысел книги). Поэтому здесь мы ограничимся максимально компактным перечнем, а пример разбора поместим в приложении 3.
Прежде, чем перейти к рассмотрению этого перечня, заметим лишь, что ситуативный контекст сообщения, как правило, уникален, и поэтому значения атрибутов содержатся на разных уровнях семантической иерархии сообщения и присутствуют в различных комбинациях. В ходе анализа сообщения его потребитель (аналитик) неосознанно проходит несколько циклов «погружения» в семантическую иерархию сообщения, в результате чего значение одного и того же атрибута могут извлекаться на разных этапах анализа.
Описание основного содержания этапов обработки и анализа сообщений и их условные обозначения (столбец «Идентификатор этапа» — Э-ID) представлены в табл. 4.3, позже эти данные будут использованы при описании распределения атрибутов сообщения по этапам и семантическим классам.
Таблица 4.3 — Содержание этапов обработки и анализа сообщений. | |
---|---|
Содержание этапа | Э-ID |
Получение физического доступа к среде распространения данных | 00 |
Получение материальной копии массива данных | 01 |
Разбиение массива данных на сообщения по структурным признакам | 02 |
Анализ и согласование форматов представления данных | 03 |
Экспресс-анализ и отбор сообщений (язык, ключевые слова, структурные признаки и идентификационные данные) | 04 |
Структурный анализ сообщения (выделение элементов структурной организации текста) | 05 |
Выделение, категорирование и маркировка метаязыковых конструкций | 06 |
Анализ и восстановление ссылочных отношений | 07 |
Анализ и восстановление временных отношений | 08 |
Анализ и восстановление пространственных отношений | 09 |
Анализ и восстановление функциональных отношений (субъект-объектных, инструментальных и иных) | 10 |
Идентификация ситуационной модели или фрейма, описывающего ситуационный и коммуникативный контекст | 11 |
Анализ и восстановление рефлексийных отношений | 12 |
Анализ эмоциональной компоненты сообщения и соотнесение оценочных суждений с субъектами рефлексии | 13 |
Анализ акцентов внимания субъектов рефлексии | 14 |
Анализ и восстановление логических (причинно-следственных) отношений | 15 |
Выделение и связывание повествовательных стратегий (сюжетных линий), их пространственная и временная синхронизация | 16 |
Выделение релевантных сведений | 17 |
Выявление противоречий | 18 |
Обобщение информации | 19 |
Ниже, в табл. 4.4, приведено основное содержание и обозначения семантических классов атрибутов сообщений (колонка «Идентификатор семантического класса» — С-ID).
Таблица 4.4 — Содержание семантических классов атрибутовсообщений. | |
---|---|
Семантическая группа | С-ID |
Технология АК: параметры канала информационного взаимодействия | 00 |
Технология АК: параметры инструментария обработки данных | 01 |
Технология АК: адресная и маршрутная информация | 02 |
Технология АК: лексико-синтаксические параметры | 03 |
Системно-реляционные параметры: время | 04 |
Системно-реляционные параметры: пространство | 05 |
Системно-реляционные параметры: морфология | 06 |
Системно-реляционные параметры: информационный обмен | 07 |
Системно-реляционные параметры: процессы | 08 |
Системно-реляционные параметры: энергия | 09 |
Теперь мы можем перейти к рассмотрению атрибутов, вынесение которых на верхний уровень описания сообщения позволит упростить многие задачи, связанные с повторным вовлечением сообщений в цикл ИАР за счет применения средств автоматизации. В приводимой ниже таблице в соответствие атрибутам приведены их семантические классы и этапы обработки сообщения (имеющий желание, да изучит).
Таблица 4.4 — Соответствие атрибутов семантическим классам и этапам аналитической обработки сообщения. | ||
---|---|---|
Атрибуты | С-ID | Э-ID |
Физические параметры носителя | 00 | 00 |
Идентификационные данные канала или носителя данных | 00 | 00, 01 |
Интенсивность потока сообщений | 00 | 00 |
Стоимостные характеристики носителя или стоимость эксплуатации канала | 00 | 00, 01 |
Способ первичного представления данных | 01 | 03 |
Правила формализации | 01 | 03, 05 |
Адресные и идентификационные данные участников АК | 02,05 | 02, 04, 11, 12 |
Язык представления | 03 | 03 |
Специфика синтаксических предписаний, используемых в сообщении | 03 | 03, 05, 06 |
Специфика словаря сообщения | 03 | 04, 05, 06 |
Время получения данных аналитиком | 04 | 02 |
Время получения данных источником | 04 | 08 |
Время события, инициировавшего появление сообщения (ставшего центральной темой) — внутреннее время сообщения | 04 | 06, 08, 12, 14 |
Пространственная локализация события (физическое, организационное, целевое и иные виды пространства) | 05 | 09, 10, 14 |
Перечень объектов сообщения | 06 | 10, 12 |
Перечень неявных объектов сообщения (тех, чье участие подразумевается, но не декларируется) | 06 | 10, 11, 12 |
Цепочка распространения информации | 07 | 11, 12 |
Заинтересованные и потенциально заинтересованные потребители | 07 | 00, 1114, 10 |
Временная и событийная иерархия сообщения (с привязкой к объектам) | 04 | 08, 10, 11, 16 |
Динамические характеристики процессов, в том числе — процесса распространения информации | 04,08,09 | 08, 10, 11, 16 |
Координатная и траекторная информация (с привязкой к объектам) | 04-09 | 09-11, 15, 16 |
Атрибуты | С-ID | Э-ID |
Полнота АК и/или сообщения | 03 | 02, 07 |
Достаточность для интерпретации | 03,04-09 | 07, 15 |
Локальный коммуникативный контекст сообщения в рамках информационного взаимодействия тех же участников АК | 02,06 | 02, 04, 11 |
Тематический контекст сообщения в рамках информационного взаимодействия произвольных участников АК (предшествующие и последующие сообщения в рамках данной тематики) | 06 | 02, 04, 11, 14 |
Ситуационный контекст сообщения | 11 | |
Класс источника (первичный или вторичный) | 07 | 11, 12 |
Класс сообщения (контактное, внутрисистемное, транзитное, межсистемное) | 00-09 | 11, 12 |
Вид фильтрации сообщения (пассивная или активная) | 00-09 | 12-15 |
Ценностная ориентация субъекта и объекта | 04-09 | 01, 04, 11-15 |
Устойчивость системы ценностей | 04-09 | 01, 04, 11-15 |
Целевая ориентация субъекта/объекта | 04-09 | 01, 04, 11-15 |
Функциональная группа сообщения (информативная, подкрепительная, нормативно-директивная, запрос, общекоммуникативная, преобразования сознания, эмоционального воздействия) | 04-09 | 01, 04, 11-15 |
Идентификационные данные и характеристики систем, к которым принадлежат объекты сообщения | 04-09 | 01, 04, 08-15 |
Характеристика оснований для наличия отношений доверия (в том числе — принадлежность участников АК к единой иерархической системе) | 04-09 | 01, 04, 08-15 |
Отношения потребления ресурсов в системах участников АК или объектов сообщения | 04-09 | 01, 04, 08-15 |
Экспертная оценка достоверности сообщений участников АК | 04-09 | 01, 04 |
Вероятные причины и последствия события | 04-09 | 01, 04, 08-15 |
Достаточность или необходимость дополнительных условий | 04-09 | 01, 04, 08-15 |
Возможность или необходимость протекания событий | 06,07 | 01, 04, 08-15 |
Атрибуты | С-ID | Э-ID |
Ожидаемость и расчетное время получения сообщения или свершения события | 04-09 | 01, 04, 08-16 |
Наличие оттенка модальности в сообщении | 03-09 | 08-15 |
В приведенном перечне дана лишь базовая совокупность атрибутов, позволяющая осуществлять различные виды автоматизированного связывания сообщений как по «внешним» атрибутам, доступным на этапе получения сообщения, так и по «внутренним» атрибутам, получаемым на этапе семантического анализа. Для специфических же задач анализа и различных организационно-технических систем перечень атрибутов может варьироваться.
Важнейшая компонента аналитики связана с исследованием и прогнозированием поведения целеполагающих систем, способных к активной генерации и реализации целей. Особенностью таких систем является их способность к проведению целенаправленных акций по дезинформации в интересах достижения поставленных целей. В связи с этим аналитику требуется установить, являются ли имеющиеся в его распоряжении данные полными, непротиворечивыми и достоверными.
Оценивание достоверности данных, поступающих на вход системы ИАР, представляет собой сложную задачу. Ее решение возможно только при условии, что аналитик располагает:
— адекватной моделью процесса;
— адекватной моделью ситуации (состояния).
Существует масса подходов к решению задачи оценивания достоверности: начиная от подходов, предусматривающих учет вероятности распределения ошибок в канале связи, по которому поступила информация, и заканчивая попытками анализа целостности и непротиворечивости данных или оценивания надежности источника (в том числе с учетом характера тех искажений, которые он склонен целенаправленно вносить — см. активная фильтрация сообщения).
При этом, оперируя данными, полученными от целенаправленно функционирующих систем, аналитик может исходить только из трех базовых посылок, позволяющих высказывать суждения об истинности или ложности утверждений, содержащихся в данных, поступающих на вход системы анализа:
— достоверность знания о динамической характеристике оцениваемого параметра (следствие адекватности модели);
— достоверность знания о значении параметра в некоторый предшествующий момент времени (следствие адекватного суждения на предыдущем этапе анализа);
— достоверность идентификации состояния системы в целом на предшествующем этапе анализа.
Все прочие сведения, поступающие к аналитику в виде деклараций о намерениях или утверждений о текущем состоянии системы, не могут быть признаны достоверными без проверки с применением перечисленных выше моделей и исходных данных.
Когда в качестве предмета анализа выступает система, обладающая свойством целеполагания, аналитик в большинстве случаев не располагает объективными критериями для формулирования выводов. При анализе декларативных заявлений, связанных с будущим, предметом аналитических суждений нередко становится не только реальный, но и модельный мир объекта анализа (совокупные общественные установки, идеологическая и духовная сфера общества или индивида-субъекта управления), что еще больше осложняет работу.
Довольно часто, не имея возможности установить факт достоверности данных, аналитику приходится оперировать шкалами достоверности, синтезированными на основе опыта использования данных от конкретных источников (используя рейтинги достоверности и т. д.). Однако такой подход не гарантирует качества результатов, хотя и существуют способы повышения качества выводов за счет включения в рассмотрение ценностной ориентации и целей источников, а также построения выводов на основе анализа конфликтов в материальной, идеологической и духовной сферах.
В этих случаях при анализе достоверности данных, представленных в виде суждений, используются следующие подходы:
— использование примитивных мажоритарных методов;
— метод экспертных оценок;
— ранжирование источников данных;
— интеграция с объективными данными;
— привлечение методов теории игр для анализа оптимальных стратегий и сопоставления входных данных о выборе стратегии с результатами игрового моделирования;
— анализ ценностной ориентации источников;
— выявление базисных процессов реального мира, влияющих на процесс генерации суждений и др.
Для систем, обладающих способностью к реализации функции целеполагания, решение задачи верификации тесно связано с решением задач технологического обеспечения ИАР, поскольку требует от аналитика формализации тех ценностей субъекта целеполагания, относительно которых могут быть выявлены конфликты целей, декларируемых в совокупности суждений (выражающих стратегии поведения субъекта целеполагания).
Декларации стратегий, скрыто противоречащих базисным ценностям индивида или некоторого сообщества индивидов, в своей основе содержат логически выводимые высказывания, явно противоречащие ценностной аксиоматике. То есть, в результате интеграции с другими данными о ситуации или процессе, либо в результате приведения к примитивным высказываниям, могут быть получены высказывания, явно противоречащие друг другу или системе аксиом, относительно которой строится вся система аргументации. В ходе направленных акций по дезинформации особый интерес представляют моменты смены стратегии дезинформации в ответ на адаптивные действия оппонента, оспаривающего заявления дезинформатора. В такой ситуации дезинформатор вынужден менять линию поведения, что часто требует коррекции аксиом, на которых построена вся логика убеждения.
В настоящее время средства автоматизированного оценивания достоверности данных реализованы лишь для систем, не способных к целеполаганию либо не являющихся объектом преобразующей деятельности человека. В сферах, где это условие не выполняется, пределом достижений в области оценивания достоверности данных является автоматизация процесса маркирования пар противоречивых утверждений, предварительно формализованных экспертами. Маркирование может также осуществляться на основании сопоставления с набором допустимых стратегий, измеренных значений и иных данных разного уровня формализации и верифицируемости. Существуют системы, позволяющие оценивать действия целеполагающих систем на основе сопоставления с эталоном. Чаще всего, в таких системах в качестве эталона используются некие непротиворечивые системы регламентов, сохраняющие стабильность на протяжении рассматриваемого интервала времени — например, законодательные акты и иные.
Там же, где верификация данных (сообщений) по причине специфичности их объекта невозможна, автоматизация этого процесса сводится преимущественно к автоматизации процедур обработки результатов экспертных опросов, осуществляемых различными классическими методами.
Поскольку возможность оценивания достоверности данных связана с анализом прагматической составляющей знаковых систем и отображением элементарных или сложных высказываний на множество значений [0, 1] (как правило), постольку реализация автоматизированных систем, обладающих такой возможностью, связана с генерацией стратегий дискредитации утверждений. То есть для создания полностью автоматической системы, способной оценивать достоверность предоставляемых данных, требуется синтезировать систему искусственного интеллекта, способную вырабатывать эффективные стратегии, направленные на дискредитацию утверждений, а это требует от машины способности к автоматическому подбору аргументации (что не так уж и просто).
Для того чтобы автоматизированная информационная система могла автоматически подбирать аргументы, она должна быть в состоянии выделять из сообщений утверждения, подлежащие проверке (то есть, атомарные высказывания, содержащие сведения, значимые для решения проблемы), выполнять преобразование совокупности имеющихся данных в совокупность примитивных утверждений, соотнесенных с моделью фрагмента реального мира, на которой возможно осуществить проверку их истинности и непротиворечивости.
В отличие от задачи анализа достоверности, для решения задачи анализа непротиворечивости высказываний и сообщений не требует столь сложных операций, как синтез стратегий дискредитации утверждений (хотя теория поиска логического вывода, активно разрабатываемая в теории систем искусственного интеллекта предоставляет достаточно развитый аппарат для этого). Решение задачи анализа логической непротиворечивости потока сообщений связано с рядом проблем, среди которых на первом месте стоит проблема формализации текста (преобразования поступающего на вход системы ИАР произвольного сообщения к некоторому синтаксически однородному представлению). Первым этапом на пути к решению этой проблемы является построение модели естественного языка, на котором это сообщение представлено.
Современные подходы к решению проблемы анализа сообщений в общих чертах воспроизводят аналитические операции, выполняемые человеком, с той лишь разницей, что при этом учитывается необходимость алгоритмизации и автоматизации этих операций. Уникальное быстродействие «арифметикологического устройства» и ресурсы памяти, которыми располагает человек при аналитической обработке сообщений, позволяют ему быстро адаптироваться к способу синтаксического представления. Механизмы сценарной синхронизации (распознавание знакомого ситуационного контекста, сценария развития ситуации), активизирующиеся при наличии минимального социального опыта, обеспечивают человеку высокую избирательность и помехоустойчивость при восприятии сообщений. Эти механизмы функционируют не на уровне сообщения и даже не на уровне предложений — уровень их функционирования гораздо ниже и соответствует уровню элементарного высказывания.
В реальных условиях на способ представления сообщения могут оказывать влияние различные факторы. В число этих факторов, влияющих на способ синтаксического оформления сообщения (более общо — речевого акта) входят:
— цель сообщения;
— категория потребителя (образовательный статус, социальная или профессиональная группа);
— мотивация к восприятию (заинтересованность, нейтралитет, сопротивление);
— способ представления (устная, письменная форма);
— стиль (литературный, новостийный, обыденный и т. п.);
— способ взаимодействия (монолог, диалог, интервью и т. д.).
Некоторые значимые особенности представления сообщений, привносимые перечисленными выше факторами, приведены в работах Т.А. ван Дейка, Д. Кинча[63] и других специалистов в области лингвистики текста. В результате работы этих авторов был сформирован ряд специфических научных направлений, таких как грамматика текста, прагматическая лингвистика текста, получили развитие социальная и психо- лингвистика, а также теории генеративных и контекстно — зависимых грамматик. Ценность вклада перечисленных ученых в развитие методологии ИАР определяется тем, что ими были впервые сформулированы основные положения дискурсного анализа сообщений, учитывающего различные виды контекста сообщения во взаимодействии с социально-культурным и ситуационным контекстом, характеризующим состояние, в котором пребывают лица, генерирующие и получающие эти сообщения.
Уровень сложности генерируемых в зависимости от дискурса сообщений существенно варьируется. Особенно ярко проявляется здесь действие принципа релевантности подачи информации. Так, в работах Т.А. ван Дейка «Структура новостей в прессе» и «Анализ новостей как дискурса» дается перечень языковых, социальных и психологических факторов, обусловливающих композиционную и стилистическую специфику этого типа текстов.
Анализ обзорных, аналитических, новостийных, ретроспективных публикаций, появляющихся в отечественной и зарубежной прессе, в целом подтвердил тезис о стилистической и композиционной специфичности этих видов текстов. Однако, помимо этого, было отмечено наличие достаточно серьезных вариаций внутри каждого класса. Данные вариации могут быть обусловлены как личностной спецификой автора, так и общим эмоциональным строем каждого конкретного издания (здесь сказывается редакционная политика). Результаты статистических исследований различных типов текстов показали наличие устойчивых зависимостей между уровнем сложности предложений (показатели: длина предложения, наличие формальных признаков сложно подчиненных, сочиненных конструкций, обособленных оборотов, длина слов и т. п.) и гипотезой источника сообщения об образовательном статусе и интеллектуальном потенциале потребителя.
Исследования специалистов в области инженерной психологии, специализирующихся в области разработки сложных автоматизированных систем управления, показывают, что смена интерфейса информационной системы или способа представления информации приводит к возникновению дезадаптационного стресса. При работе с текстами событием, аналогичным смене интерфейса, является смена стиля изложения материала. По своему воздействию на потребителя сообщений смена стиля изложения сопоставима со сменой интерфейса информационной системы и также приводит к возникновению у аналитика стрессовых состояний, более того, в некоторых случаях она может привести к потере способности к восприятию текста. Это позволяет выделить проблему преодоления композиционной и стилистической неоднородности сообщений в отдельный класс проблем ведения ИАР.
Вполне естественно, что проблема преодоления стилевой и композиционной специфики сообщения представляет собой не меньшую трудность для компьютерных систем. Однако, коль скоро для рассматриваемых приложений речь не идет о понимании сообщения в привычном для человека смысле этого слова, для компьютерных приложений данная проблема предстает в своем «рафинированном» виде. Это означает, что на начальных этапах анализа текста рассмотрение функций прагматического характера, возлагаемых автором сообщения на композиционную и стилистическую специфику порождаемого им текста, может быть вынесено на другой уровень интерпретации текста.
По существу, процесс преодоления стилевой и композиционной специфики может быть сведен к двум относительно независимым процессам: процессу приведения отдельных высказываний к стандартизованной грамматической форме (этот процесс может быть назван также процессом редукции, приведения к канонической форме) и процессу связывания повествовательных микро- и макростратегий. Поскольку прагматическая составляющая текста, порождаемого в ходе информационного взаимодействия (ИВ), зачастую заключена в его эмоциональной компоненте, постольку попутно с приведением сообщения к стандартизованной форме должна решаться и задача выявления и протоколирования интонационных, композиционных и иных особенностей текста.
В результате преобразования сообщений к формальному представлению, при котором они приобретают вид логически связанной совокупности высказываний, сообщения становятся пригодны для последующего применения алгоритмов автоматизированной аналитической обработки сообщений, в том числе — для алгоритмов анализа логической непротиворечивости потока сообщений. К формализованным сообщениям, использующим каноническое представление текста, предъявляются следующие требования:
— каждое предложение текста должно содержать одно и только одно высказывание установленной структуры (например, субъект-предикат-объект или иной, более сложной, субъект-[ресурс]-предикат-[инструмент] — объект-[результат]);
— ни одно высказывание не должно содержать конструкций ссылочного типа (терминов подстановки), именуемых анафорическими конструкциями;
— все логические отношения, используемые в естественно-языковых высказываниях, должны быть приведены к установленной (канонической форме), исключены реверсивные формы временных и причинноследственных отношений (например, фраза «событие X произошло по причине того, что произошло событие Y» должна быть преобразована к виду «по причине того, что произошло событие Y, произошло событие X», что позволяет перейти к утверждению «событие Y есть причина события X»);
— терминология в рамках сообщения должна быть приведена к эталонному лексикону, построенному на основе лексикона сообщения с привлечением системного тезауруса и с сохранением исходного уровня конкретизации атрибутов сущностей, упоминаемых в сообщении.
Столь строгие ограничения, налагаемые на способ представления текста, предоставляют ряд преимуществ при анализе текста, приобретаемые за счет высокой степени его формализации.
Так, например, одним из важнейших преимуществ является возможность автоматизированного анализа логических отношений между компонентами высказываний. Канонизированный текст может быть подвергнут процедуре анализа внутренней непротиворечивости с применением логики естественных рассуждений91, которая может рассматриваться либо в базисе положений алгебры множеств и теории графов, либо в базисе теории частично упорядоченных множеств с квазидополнениями. При этом элементарные высказывания выступают в качестве аксиом полисиллогизма (системы логических утверждений, в которой количество исходных посылок превышает два), образованного их совокупностью, данной в тексте. Поскольку текст не всегда содержит полное множество высказываний, достаточных для производства вывода, при интерпретации текста могут привлекаться знания, имеющиеся в системе на момент его анализа.
Более того, канонизированный текст может быть охарактеризован уникальным лексическим спектром, отображающим его тематику, что позволяет использовать при анализе массивов текстов методы, сходные с методами распознавания сигналов. Спецификой лексического спектра является то, что в качестве аналога частотной оси для него выступает шкала тезауруса источника сообщений, а в качестве метафоры энергии — отношение числа употреблений термина к общему числу терминов в тексте.
Статистические характеристики канонизированного текста (такие, как частотно-ранговое распределение длин терминов, традиционно используемое при статистическом анализе текстов) приобретают вид, отличный от вида аналогичных характеристик обычного текста. За счет того, что в канонизированном тексте отсутствуют термины, используемые в обычном (стилистически корректном) тексте для построения анафорических конструкций (отсылок к предыдущим фрагментам текста), в подвергаемую статистическому анализу выборку попадают и те употребления терминов, которые ранее не могли быть учтены из-за того, что подстановочные конструкции (например, анафорические местоимения) традиционно включаются в перечень слов, исключавшихся из текста при проведении статистического анализа. В результате чего могут быть выявлены термины, действительно образующие структуру релевантности текста. В канонизированном представлении текста продолжают выполняться закономерности, выраженные в принципе лингвистической экономии Г.К. Зипфа, что делает полученный текст пригодным для выполнения процедуры автореферирования на основе анализа статистических характеристик. Однако статистические критерии здесь приобретают более объективный характер, благодаря восстановлению системы умолчаний, используемых источником сообщения с целью сокращения синтаксической избыточности.
Использование спектрального представления сообщений позволяет упростить процедуры построения (связывания) и отображения системы логических связей сообщений и событий, упоминаемых в сообщении и его контексте, а также построить развернутые во времени и пространстве системы связей с привлечением сообщений, образующих внешний контекст (исходящих от других источников).
Важной особенностью такого подхода является то, что с его применением могут быть построены модели двух типов:
— модели динамики потока сообщений;
— модели динамики событий.
В этом случае преобразованный массив сообщений может быть представлен в виде логико-лингвистической модели, в графической интерпретации приобретающей вид ветвящегося графа, где ветвления указывают на наличие логических противоречий, разрешение которых возможно с применением мажоритарных и иных методов.
Серьезной проблемой при проведении автоматизированного анализа с применением формально-логических методов является проблема неоднородности представления высказываний. Одни и те же сущности и отношения могут быть выражены в различных терминах, зачастую принадлежащих к разным уровням терминологической иерархии. Например, слова «автомобиль» и «грузовик», не являясь синонимами и имея различный объем понятия, в тексте могут означать одно и то же. Решению этой проблемы может способствовать применение иерархических тезаурусов. То есть, синтезируемые в ходе ИАР модели должны обладать возможностью применения к ним многоуровневого иерархического тезауруса, реализованного в виде совокупности семантических сетей, построенных в терминах различного уровня абстракции. За счет этого модели позволяют осуществлять над ними операцию смены уровня абстракции (общности) описаний и приобретают свойства масштабируемости во времени.
Ситуационные модели, полученные с применением таких представлений позволяют использовать для анализа непротиворечивости сообщений совокупность стандартизированных процедур формального логического анализа. Более того, методы решения полисиллогизмов, предложенные Б.А. Куликом, позволяют выявить факт неполноты системы аксиом и сформировать множество высказываний, которыми может быть дополнена аксиоматическая система, а также сформулировать полное множество логических выводов из системы посылок. Благодаря этому могут быть сформулированы задания на компенсацию неполноты массива исходных данных, а также определить комплекс противоречивых высказываний, сопоставить их с источниками и сформулировать гипотезу о степени достоверности сведений, поставляемых ими.
Несмотря на то, что это не позволяет сделать вывод о достоверности сведений, поставляемых конкретным источником (за исключением случая наличия внутренней противоречивости в его сообщениях), подобные методы позволяют оценить степень непротиворечивости сведений, полученных от группы источников. В результате чего, при наличии источников более достоверной информации может быть сформулирован комплекс мероприятий, направленных на устранение противоречивости.
Сколь бы совершенны ни были средства логического анализа достоверности данных, однако при условии, что стратегии дезинформации разработаны высококвалифицированными специалистами, располагающими столь же совершенными «электронными помощниками», реальной возможности верификации данных они не предоставляют.
При проведении анализа достоверности данных о состоянии или тенденциях изменения состояния систем в отраслях, не сопряженных с целенаправленным управлением параметрами процесса, либо имеющих систему жестких ограничений, обусловленных спецификой протекания базисных процессов, используются знания о наиболее общих закономерностях, определяющих поведение таких систем. Здесь широко применяются методы: теории вероятностей, математической статистики, формальной логики, теории измерений, а также законы, открытые в частных разделах естественнонаучных дисциплин.
Для таких систем, как правило, существует возможность синтеза модели, учитывающей диапазоны возможных значений и предельные динамические характеристики, на основе применения которой можно судить о достоверности/ошибочности данных, наличии искажений, вызванных теми или иными возмущающими воздействиями.
Ранее, рассматривая вопросы, связанные с моделированием систем, мы указывали, что модель является инструментом проверки гипотез. То есть, модель — это всегда инструмент верификации некоторой совокупности высказываний. Так что, вывод о возможности использования моделей для анализа достоверности сообщений является вполне естественным.
Очень часто, используя модели в реальной жизни, мы даже не задумываемся о том, что это действительно происходит. Многим людям, которым доводилось разрабатывать бизнес-планы, и в голову не приходило, что они занимались моделированием. Бухгалтер, составляющий балансовую отчетность, тоже редко задумывается о том, что он решает задачу оптимизации на достаточно сложной модели. Иными словами, модели — не есть нечто чуждое практике, вопрос лишь в том, сознаем ли мы факт их применения.
Допустим, что некая организация предлагает на сверхвыгодных условиях вложить деньги в «верное» дело. Зачастую наши сограждане, выяснив, сколько просят и что обещают, вкладывают и… теряют. Соображения их таковы: если просят немного, а обещают изрядно, то можно и дать — авось получится? Такой подход представляет собой подмену моделирования примитивным сравнением альтернатив, не учитывающим рисков, связанных с ошибочным выбором. Другое дело — взвешенный подход, связанный с оцениванием производственных затрат, спроса на продукцию, емкости рынка и иных характеристик социально-экономической системы. Объектом риска здесь, являются уже отнюдь не личные сбережения, а корпоративные финансы и ресурсы, соответственно требуется серьезное исследование, стоящее не малых средств. В последние годы в России появилось множество организаций, занятых проведением опросов общественного мнения, в нашу страну пришли и зарубежные фонды и институты, проводящие маркетинговые, социологические и иные исследования, например, Институт Гэллапа. Данные, получаемые в ходе подобных исследований, представляют высочайшую ценность, поскольку позволяют прибегнуть к аппарату математики, теории вероятности и математической статистики, то есть, воспользоваться инструментами повышения объективности выводов, вырваться из цикла эмоциональной вовлеченности и здраво оценить ситуацию.
Модели аналитические и имитационные, полунатурные и натурные, модели реального времени и допускающие временное масштабироване — значение их в том, что они являются инструментом «выращивания» нового знания, причем знания более «дешевого», нежели знание, полученное ценой полномасштабного эксперимента.
Проблема состоит в том, что затраты на синтез адекватной модели иногда оказываются сопоставимы с ценой ошибки. Поэтому, руководители часто отказываются от моделирования, забывая о том, что в случае ошибки средства просто теряются, в то время, как затраты на моделирование аккумулируются в модели. Модель-то остается и может быть использована вновь!
Проводя исследования в различных системах, сталкиваясь с разными по своей природе процессами, аналитик выбирает наиболее пригодный для решения задач анализа инструментарий исследования. Например, для моделирования результативности рекламной кампании, зачастую используется математический аппарат теории клеточных автоматов, аналогичный математический аппарат используется и в многоуровневом маркетинге (с линейной и нелинейной системой перераспределения прибыли). В других случаях оказывается эффективен математический аппарат теории линейного программирования. Однако единственное, ради чего используются все эти изощренные математические средства — это проверка истинности или ложности некоторого комплекса суждений.
Неслучайно в конце этой книги мы поместили приложение «Вариант организации процесса перспективного планирования на примере плана USAF-2025» — там наглядно показана процедура построения дерева целей и задач для дальнейшего перехода от качественных оценок к оценкам количественным. Как только мы получаем модель, использующую некоторую метрику, пригодную для сравнения альтернатив, мы получаем инструмент, обеспечивающий возможность аргументированной оценки утверждений на основе вычисления логических переменных.
В самом начале первого раздела этой главы нами была приведена классификация средств автоматизации информационной работы. В соответствии с этой классификацией средства автоматизации делились на средства сбора, доставки, хранения и обработки данных, средства формирования и согласования тезауруса, средства интеграции и анализа данных, средства моделирования, средства интерпретации результатов, средства прогнозирования, средства синтеза целей управления, средства отображения данных, средства поддержки принятия решений и доведения управляющих воздействий.
Совершенствованию этих средств уделяется большое внимание: сегодня конкуренция в области создания средств поддержки ИАР превратилась из привычного соревнования фирм-разработчиков в гонку информационных технологий на государственном уровне. Безусловно, гонка вооружений также подстегивает развитие информационных технологий, однако практика показывает, что по поражающей мощи вооружений и точности средств доставки боевых зарядов государства, стремящиеся к мировому лидерству, пребывают примерно на одинаковом уровне. Сейчас дорога к лидерству не может быть расчищена исключительно боевым потенциалом вооруженных сил государства — этого недостаточно, да и слишком велика цена такого лидерства. Собственно, войны никогда не выигрывались исключительно оружием — это всегда было суровое испытание, в котором экономика, идеология, система управления государства доказывали свою жизнеспособность. Оружие массового поражения ненадолго поколебало уверенность в том, что это так, но когда оно перешло в категорию средств сдерживания нападения, все вернулось на круги своя. Теперь информационные технологии как инструмент повышения эффективности и оперативности процессов управления стали одним из основных элементов системы обеспечения экономической (и военной) безопасности государства, его граждан и субъектов экономической деятельности.
Говоря о средствах автоматизации и информатизации ИАР, следует выделять следующие классы:
— средства обеспечения ИАР, непосредственно не предназначенные для обработки и анализа информации (телекоммуникационное обеспечение ИАР, средства сбора, накопления и хранения данных, средства отображения информации);
— средства ведения ИАР, непосредственно предназначенные для обработки и анализа информации (различного рода пакеты статистической обработки данных, автоматизированные системы поддержки процессов моделирования сложных систем и анализа данных, лингвистические инструменты и т. д.).
В этой книге мы не будем рассматривать аппаратные и программные средства поддержки ИАР с такой степенью детализации, с какой они обычно рассматриваются в специальной литературе. Здесь нас интересуют не столько тонкости технической реализации, сколько идеи, заложенные в основу их функционирования, а также те положительные и отрицательные черты, которые эти средства способны привнести в ИАР.
Наиболее обширным и разнообразным по составу является класс средств обеспечения ИАР. Средства ведения ИАР отстают в своем развитии — оно и понятно: сложность аналитических процессов крайне высока…
Едва ли стоит перечислять все то многообразие средств сбора информации, которое имеется в распоряжении профессионального аналитика, тем более, что в зависимости от класса систем, в отношении которых ведется ИАР, и бюджета субъекта ИАР комплектация существенно варьируется. Многое из арсенала средств сбора информации лишь дублирует возможности органов чувств человека, обеспечивая лишь «эффект присутствия» — это разнообразные системы теленаблюдения и иные инструментальные средства, позволяющие осуществлять дистанционный сбор информации, которая могла бы быть воспринята и без инструментария сбора данных, будь аналитик непосредственным участником неких событий. Другая группа средств сбора данных существенно расширяет и дополняет «ощущения», за счет придания свойств наблюдаемости тем феноменам, которые принципиально не могут наблюдаться посредством органов чувств человека: это расширение частотных/временных и энергетических диапазонов чувствительности человека (инфра- до ультра- звукового диапазона механических колебаний, от радиочастотного диапазона до ультрафиолетового диапазона электромагнитных колебаний, от микрообъектов до макрообъектов и т. д.). Арсенал этих средств чрезвычайно богат92.
Остановимся на средствах сбора наиболее очевидных и наименее достоверных данных — данных языковых коммуникаций и знаковых данных. В последние годы в этой отрасли развитие средств сбора происходит доселе невиданными темпами. Созданы средства распознавания и преобразования к символьному виду речевых сигналов, средства распознавания графических начертаний символов (оптические распознающие системы — сканеры), средства считывания картографических данных и т. п. графической информации. Создание этих средств дало мощный толчок развитию систем компьютерной обработки знаковых данных: сегодня, благодаря их использованию, аналитики получили доступ к неисчерпаемым ресурсам научно-технической, политической, экономической и иной информации. Пока лишь малая толика того, что хранится в глобальной телекоммуникационной сети (ГСТК) Интернет, набрана вручную — преимущественно эти ресурсы получены методом сканирования самых разнообразных печатных источников, хотя, наиболее вероятно, что постепенно ситуация будет меняться в пользу ресурсов, полученных методом голосового ввода.
В последние годы силами энтузиастов в ГСТК размещены электронные копии уникальных изданий. Мощные массивы англоязычных электронных документов сосредоточены в рамках некоммерческого проекта электронной библиотеки Project Gutenberg (http://www.gutenberg.net/). Российские ресурсы электронных копий научных, учебных и художественных изданий и также весьма обширны: здесь и Библиотека Мошкова (http://lib.ru/), и Big Information System Project (http://nmsf.sscc.ru/), и Открытая Русская Электронная Библиотека (http://orel.rsl.ru/), и Домашняя электронная библиотека (http://kniga.bibirevo.net/), и многие другие ресурсы. Однако в силу стремления к личной известности начинателей бесплатных электронных библиотек (следует отдать им должное — это достойные люди), в российском сегменте Интернет, получившем название «Рунет», отсутствует единый каталог, а система каталогизации далека от совершенства. За рубежом интенсивно развиваются проекты, направленные на стандартизацию поисковых интерфейсов и формата представления электронных документов. Так, например, в библиотечном деле широко внедряется стандарт представления текстовых данных для организации поисковых интерфейсов Z39.50 и его международная версия ISO 23950, развивается проект TEI — Text Encoding Initiative, выпустивший уже четвертую спецификацию стандарта — в России же этот процесс существенно запаздывает. Такое отставание снижает ценность информационных ресурсов, поскольку отсутствие четких правил формализации приводит к снижению эффективности поисковых процедур.
Интересный класс электронных информационных ресурсов оперативного плана — это электронные СМИ, размещающие и распространяющие свою информационную продукцию с применением инфраструктуры глобальных и национальных телекоммуникационных сетей. В ГСТК Интернет функционируют СМИ и информационные агентства, предоставляющие оперативную информацию, используя on-line (интерфейсы функционирующие в режиме непосредственного доступа) и off-line (интерфейсы функционирующие в режиме неоперативного доступа, например, рассылка новостей за некоторый интервал времени посредством электронной почты). В настоящее время в ГСТК представлены ведущие мировые информационные агентства (Associated Press, CNN, France Press, Интерфакс, АПН «Новости», ИТАР-ТАСС и многие другие) и газеты (New York Times, Washington Post, Газета. Яи и иные). Чрезвычайно информативны ленты новостей, предоставляемые информационными агентствами в режиме on-line с периодичностью обновления порядка единиц минут, биржевые рейтинги, публикуемые крупнейшими финансовыми и фондовыми биржами и крупными брокерскими объединениями.
Инструментарий сбора информации из подобных источников информации представляет собой преимущественно программно-аппаратные комплексы, обеспечивающие подключение к ресурсам телекоммуникационных сетей в соответствии с действующими протоколами обмена данными (как правило, это протоколы TCP/IP, PPP, SLIP, ISDN) и востребование данных с применением как профессионального, так и непрофессионального специализированного и общего программного обеспечения. Этот класс программного обеспечения весьма многообразен и включает в себя: интеллектуальные поисковые программы, неинтеллектуальные интерфейсы просмотра данных, программы, осуществляющие периодическое сканирование наиболее информативных источников, программы потокового ввода и иные. Финансовые механизмы обеспечения оплаты информационных услуг могут существенно разниться от условно-бесплатного предоставления информации (подача в сопровождении рекламы) до заключения договоров на информационное обслуживание.
Говоря об ГСТК Интернет, следует упомянуть о важнейшей особенности этого источника информации. Эта особенность — принцип предоставления информации по требованию — не позволяет рассматривать ГСТК Интернет, как явление того же прядка, что и иные источники информации. Принцип предоставления информации по требованию настолько специфичен, что способен в корне преобразовать человеческую личность. Обычно информация поступает к человеку по многим каналам информационного взаимодействия в режиме, который можно было бы назвать принудительным — информация (самая разная!) всегда «врывалась» в потребителя вне зависимости от его потребностей. Это спасительное для человека свойство информационного взаимодействия человека со средой обитания с появлением феномена СМИ (тем более, электронных СМИ) перестало быть непременным атрибутом интерьера информационного взаимодействия — человек (в который уже раз) создал альтернативную реальность. С каждым технологическим достижением она становится все более плотной (по ощущениям) и способна предоставить «материальные свидетельства» своего существования. По существу, ГСТК легко может претендовать на «место жительства Бога» и стать предметом спекуляций различного рода лжепророков. «Ищущий, да обрящет…» — человек, использующий схему взаимодействия запрос-ответ, легко может быть помещен в специфический информационный интерьер (а еще чаще добровольно и собственноручно помещает себя в него).
В США, например, рядом специалистов в области прикладной информатики (это не какие-нибудь мрачные персонажи типа Доктора Зло, а благонамеренные ученые[64]) на уровне интересной гипотезы рассматривается возможность создания виртуальной реальности для целых народов, в которой они будут ощущать себя максимально комфортно (чем не решение проблемы стран-изгоев?). Представьте себе: вы живете в единственном в мире социалистическом государстве, пребывая в полной уверенности, что на планете давно уже победил социализм, а в отдельных странах уж и коммунизм почти отстроили. Также тихо и мирно в соседних домах спят, посапывая, христиане и нехристи, сатанисты и католики — идиллия, да и только. Нет, действительно, потрясающий сюжет…
«Так то в Греции, — там тепло… — скажете вы словами Василия Алибабаевича из «Джентльменов удачи». — У нас такого и быть-то не может». Но ряд интересных закономерностей развития сетевых СМИ можно проследить и на примере российского сегмента ГСТК Интернет. В настоящее время целый ряд сетевых СМИ (и не каких-нибудь, а наиболее цитируемых в различных средствах массовой информации) создан и функционирует при поддержке и непосредственном участии Фонда Эффективной Политики (ФЭП), созданного известным российским политтехнологом Г. Павловским. Оно бы и ничего, «был бы человек хороший», да, вот ведь, в чем беда — качество человека здесь несущественно! Обращаясь к средствам массовой информации, носящим разные наименования, мы ожидаем разнообразия мнений, случайной структуры потока информации, полагаем, что многообразие наименований отражает многообразие точек зрения… и обманываемся.
Именно поэтому использование исключительно пассивных методов сбора информации в современных условиях нельзя считать приемлемыми. При работе с вторичными источниками информации, к которым могут быть отнесены все без исключения средства массовой информации, допустимо использование только активных методов сбора информации либо при анализе данных должны быть учтены все специфические акценты, которые обусловлены ценностной ориентацией источника информации.
Так, в настоящее время в интересах использования ресурсов ГСТК Интернет для решения задач информационного обеспечения деятельности военно-политического руководства американским агентством перспективных исследований МО США рассматриваются проекты систем, реализующих активный мониторинг ресурсов сети с применением аппарата семантических сетей. Предполагается, что за счет этого система сбора информации по качеству совокупности добываемых данных сможет приблизиться к системам непосредственного перехвата информации из каналов внутрисистемных коммуникаций.
Интересный класс средств сбора информации из телекоммуникационных сетей представляют собой, так называемые, «троянские кони», «сетевые черви» и иные программы, предназначенные для осуществления несанкционированного доступа к защищаемым личным и корпоративным ресурсам, хранящимся на компьютерах, подключенных к сети. Эти программы, несмотря на множество различий в стратегии проникновения к данным, имеют много общего и могут использоваться для сбора информации, пересылая критическую информацию внешнему потребителю. Низкий профессионализм среднестатистического пользователя персонального компьютера, как правило, не позволяет обнаружить факт утечки данных, а в случае корпоративного пользователя, где служба защиты данных поставлена должным образом, чаще используются иные методы несанкционированного доступа к данным (сетевые анализаторы, системы перехвата внешнего трафика сообщений и иные).
В этом подразделе мы выделили и рассмотрели особенности достаточно узкого класса средств сбора информации, исходя из тех соображений, что прочие средства сбора информации взаимодействуют преимущественно с физическими процессами, данные о характеристиках которых можно считать высоконадежными (почти не подверженными модификации, хотя существуют и эффективные средства маскировки, взять, хотя бы те же «стелс»-технологии и т. п. ухищрения). Однако, будем уповать на то, что реальность можно будет хоть как-то отличить от декораций — в противном случае тезис «Практика — критерий истины» придется заменить чем-то иным.
На самом деле, рассматривая Интернет, мы уже затронули вопрос, связанный со средствами хранения данных… В противном случае, что же такое Интернет, если не система распределенного хранения данных? Средства хранения данных представляют собой обязательный компонент любой технологии, связанной с анализом информации.
В природе очень мало (если не отсутствуют вообще) систем, для которых несущественна предыстория их существования — можно говорить о физических аналогах памяти, например, любая запасенная (потенциальная) энергия — это тоже своеобразная память. В этом смысле, камень, лежащий на вершине горы, и тот обладает памятью о той силе, которой он некогда был вознесен на нее. Поэтому, любая система, предназначенная для анализа информации, должна располагать подсистемой хранения данных. И, если даже нам неизвестно, сколько тысячелетий камень лежит на вершине горы, мы, все равно, располагаем памятью в виде физической модели поведения подобных объектов и можем вычислить ту потенциальную энергию, которая запасена в нем.
То есть, для того, чтобы предсказать поведение системы, надо либо знать ее предысторию (помнить ее), либо быть в состоянии восстановить ее (помнить предысторию поведения других систем). Именно этим продиктована необходимость включения в системы анализа подсистемы хранения данных. Однако, этим сходство большинства систем анализа и ограничивается. Да, все они должны располагать блоком памяти, но способ организации хранения данных, способ их представления существенно варьируется. О группе различий, определяемых способом представления моделей, мы говорили ранее, но это лишь часть тех отличий, которые действительно значимы при рассмотрении системы анализа и предельных показателей качества ее функционирования.
Безусловно, многое определяется выбором технологической базы для реализации подсистемы хранения. Здесь следует выделять следующие классы подсистем хранения данных:
— подсистемы хранения данных на носителях с последовательным доступом к данным;
— подсистемы хранения данных на базе технологий, обеспечивающих параллельный доступ к данным.
И те, и другие методы организации хранения данных могут быть реализованы с помощью ЭВМ и сетей ЭВМ, однако при хранении данных на традиционных носителях (бумага, магнитная лента и т. д.) параллельный доступ реализовать не удается. Многое указывает на то, что для человека более естественен именно параллельный способ организации доступа к данным, что обусловлено в том числе и спецификой носителя данных, представляющего собой сложно организованную пространственную структуру, обладающую свойствами, сходными с голограммой (каждый элемент памяти одновременно хранит информацию не об одном, а о множестве реакций/событий). Лишь по мере совершенствования технологий хранения и считывания данных, системы, создаваемые человеком, постепенно приобретают такие свойства — для этого создаются многоканальные устройства регистрации с произвольным доступом, распределенные системы хранения данных на базе сетей компьютеров, вводится иерархическая организация данных, системы параллельных вычислений, нейросетевые компьютеры и так далее. Постепенно совершенствуя технологии, человечество приближается к моменту, когда можно будет говорить о создании эффективных самоорганизующихся структур хранения данных, на базе которых могут быть созданы действительно интеллектуальные системы анализа данных.
Идеи голографической организации структур данных уже не единожды высказывались специалистами, но проблемы, связанные с их реализацией и организацией эффективного поиска данных в подобных системах, на практике остаются нерешенными (насколько это известно авторам). Вероятно, здесь может оказаться полезным раздел математики, связанный с фрактальными структурами[65] (в частности фрактальная геометрия).
Многое также зависит и от того, что, собственно, подлежит хранению в подсистеме хранения данных. Здесь следует рассматривать два аспекта: аспект, связанный с уровнем детализации и завершенностью этапа их анализа (фактографические данные или модели), и аспект, связанный со способом представления (неформализованные или формализованные данные).
Современные подсистемы хранения данных чаще всего строятся по принципу, либо исключающему возможность их анализа без привлечения информации, внешней по отношению к данным, либо препятствующему их параллельному считыванию и обработке. В одном случае данные организуются в структуры, конфигурация и семантика связей которых находится вне подсистемы хранения (в подсистеме интерпретации), а в другом случае данные организуются таким образом, чтобы по мере поэтапного вхождения в контекст хранения система считывания накапливала знания, необходимые для интерпретации данных. В одном случае система считывания заранее должна располагать моделью интерпретации, а в другом — формулирует модель в ходе обработки.
Наиболее широкое распространение на сегодня (если не считать архивы на традиционных носителях) получили подсистемы хранения данных, использующие реляционную технологию. Идеология и логические основания теории реляционных баз данных разработаны американским ученым Е.Ф. Коддом (Codd E.F.) Подобные системы хранения относятся к классу систем, которым для работы с данными требуются внешние модели интерпретации — даже при наличии непосредственного доступа к носителю данных семантика связей может быть восстановлена лишь в редких случаях. Любое изменение структур таблиц, используемых для хранения экземпляров данных, должно сопровождаться внесением изменений в модель интерпретации, зафиксированную в приложении, обеспечивающем считывание и связывание данных. При изменении структуры объектов учета и атрибутов, используемых для их описания, организация сталкивается с необходимостью доработки программного обеспечения, используемого пользователями, что не всегда возможно (меняются языки программирования, высока кадровая динамика и т. д.).
С другой же стороны, реляционная технология (лучше даже — парадигма) баз данных (БД) обладает множеством положительных свойств. Первое и важнейшее из них — это то, что все отношения между экземплярами данных могут быть заданы извне — ни один из методов связывания по заданным пользователем логическим условиям не будет воспринят как недопустимый. Любой запрос считается допустимым и может вернуть непустое множество записей базы данных: были бы соблюдены формальные правила именования объектов базы данных (таблиц и полей — колонок) и синтаксис языка запросов — остальное находится в компетенции пользователя. Это свойство превращает реляционные базы данных в мощный инструмент исследований, добывания нового знания из существующего набора данных. Более того, введение стандарта языка управления базами данных SQL'92 позволило сделать прозрачным (независимым от особенностей реализации) процесс обращения к различным системам управления базами данных (СУБД) и уже через их интерфейсы к БД, функционирующим под их управлением.
Однако следует заметить, что сколь бы мощные возможности ни были доступны пользователю реляционных БД, всем им свойственен основной недостаток: отсутствие системности в подходе к организации данных и потеря их связности. Несмотря на то, что данные в реляционных БД достаточно высоко формализованы, а декомпозиция свойств доведена до уровня атомарности, возможности их организации в связные описания объектов и систем ограничены — знания о правилах их объединения вынесены за пределы компетенции СУБД.
Для преодоления этого недостатка используются, так называемые, вторая и третья нормальные формы, представляющие собой совокупность правил связывания и организации данных за счет внесения отношений ссылочной целостности (иерархизации представления данных). Хоть это, в принципе, противоречит основному принципу построения реляционных БД, но зато приближает реализуемые в таких БД отношения между данными к естественному способу хранения данных и знаний. Если воспользоваться метафорой, то в классическом виде отношения между данными, реализуемые в реляционных БД, можно сравнить с «кашей в голове» у нерадивого студента, когда из-за отсутствия закрепленных связей между фрагментами знаний, полученных в результате авральной зубрежки, в своих ответах на экзаменационные вопросы он может с легкостью сочетать несочетаемое.
Здраво было бы ограничить сферу применимости реляционных баз данных этапом макетирования информационных систем, предназначенных для функционирования в системах с низкой структурной и функциональной динамикой. После того, как период адаптации и установления ссылочных отношений окончен, в принципе, можно перейти к менее гибкой, но более быстродействующей навигационной парадигме (хоть она и старше реляционной). Но в силу универсальности и гибкости реляционной модели обычно она продолжает использоваться и по окончании периода адаптации, что обусловлено желанием заказчика обеспечить сохранение «потенциала роста» и максимальную гибкость БД, как инструмента исследования.
Выше мы вскользь упомянули о навигационной парадигме баз данных… Базы данных, реализованные в соответствии с навигационной парадигмой, по способу организации данных коренным образом отличаются от реляционных. Навигационная парадигма полностью соответствует принципу иерархической классификации. Связи между экземплярами данных в навигационных БД жестко заданы моделью, отражающей свойства моделируемой (описываемой) системы. Такое представление более гармонично вписывается в системный подход и напоминает уже не голову одуревшего от зубрежки студента, но голову педантичного старосты группы, знания которого хорошо уложены и приведены в порядок. Однако, если продолжить сравнение, то знания эти все еще разобщены, не полны и не позволяют создать нового знания, поскольку они бесконфликтны, а отношения между ними пока лишены должной пластичности.
Навигационная парадигма опирается все на тот же аппарат табличного представления данных, где имя колонки соответствует имени атрибута, строка — совокупности свойств некоторой сущности, выступающей в качестве атомарной на данном уровне описания. На следующем уровне описания этой же сущности атрибут может быть раскрыт с подобающей степенью детализации, но главное: описание будет вновь доведено до атомарного уровня — в противном случае все ухищрения лишены какого бы то ни было смысла. Процесс построения описательной структуры навигационной БД связан с процедурой поэтапной декомпозиции свойств сложного объекта в некоторой плоскости отношений (отношения включения, подчинения и т. д.). Так, протоколируя процесс последовательной разборки автомобиля и записывая после разборки некоторого узла или агрегата перечень деталей и крепежных элементов (с указанием их спецификации), можно синтезировать структуру описания, схожую со структурой навигационной базы данных.
Изучение такой БД может дать информацию о «конструкции», а вернее, о композиции и характеристиках объектов, описания которых хранятся в ней. То есть, разобранный автомобиль можно собрать вновь, не копаясь в баночках с разнокалиберными винтиками и шпунтиками. В случае ведения протокола разборки автомобиля в реляционной базе данных, пришлось бы бегать с каждым болтом от ведерка с болтами к агрегату — проверять, не подойдет ли…
— Хорошо еще, что эта работа возложена на плечи СУБД. Связи в навигационных БД установлены жестко — «открыть» новую вам не даст СУБД, заявив о попытке нарушить существующую схему отношений. Внести коррективы в систему отношений можно лишь взаимодействуя с СУБД в качестве разработчика.
Очевидно, что подобные БД могут применяться во многих отраслях, где требуется высокое быстродействие, где анализ связей уже завершен, а его результаты признаны удовлетворительными. По некоторым своим свойствам навигационные БД довольно близки к идеологии системного подхода, однако многообразие связей и отношений здесь даже теоретически не может быть учтено во всей своей полноте. Опять же, примитивные интерфейсы, используемые для отображения данных, зачастую предоставляются средствами СУБД (это плюс), но при попытке их усложнения или усовершенствования приходится обращаться к прикладным программам, размещаемым на рабочем месте клиента. С другой стороны все эти отношения могут быть сымитированы в реляционных СУБД, а значит, разработчик, имеющий опыт работы только с одним типом СУБД, оказывается способен создавать БД как классического реляционного типа, так и псевдо-навигационного типа (что потребителю выливается в необходимость приобретения более высокопроизводительного компьютерного оборудования, но удешевляет стадию разработки).
Мы уже рассмотрели реляционные и навигационные БД, но ни те, ни другие не были признаны нами в качестве средства хранения данных, отвечающего потребностям ИАР и сущности системного подхода (это не значит, что они вообще не могут быть эффективно использованы при ведении ИАР). Еще одной парадигмой построения баз данных, наследующей свойства навигационных баз данных, является парадигма объектных баз данных. Парадигма объектных баз данных по своей сути близка идеологии имитационного моделирования: для описания объектов учета такие БД используют комплекс компонент описания, обеспечивающий учет не только атрибутов объекта, но и системных связей, их параметров, правил комбинирования, проверки допустимости значений и так далее. В классическом варианте объектных БД объекты идентифицируются по именному принципу, их свойства определяются набором общих (свойственных родительскому классу) и частных (свойственных данному экземпляру объекта или производному классу) характеристик. Чрезвычайно полезными механизмами, введенными в модель объектных БД, являются механизмы наследования и переопределения свойств объектов и классов. Чтобы проиллюстрировать этот механизм, приведем следующие утверждения в «объектном стиле»: «Книга — есть документ, отличающийся тем, что носитель символьных данных объединен в блок. Свиток — есть документ, отличающийся тем, что носитель символьных данных представляет собой скрученную в рулон широкую ленту». Как видим, понятия введены на основе использования ранее введенных понятий-классов верхнего уровня «документ» и «носитель символьных данных», за счет чего упрощено описание производных понятий (а термины и понятия, естественно, могут выступать в роли объектов хранения).
Своим бурным развитием объектные базы данных обязаны человеческой лени (как двигателю прогресса), системному анализу, языку программирования Си и, в первую очередь — системам автоматизированного проектирования, использовавших такие способы описания для представления информации об элементной базе проектирования (микросхемах, транзисторах и т. д.). Свойства таких элементов было удобно описывать с применением методов наследования и переопределения свойств и техники стратификации: отдельно — логические функции элемента, отдельно — описание габаритных параметров, отдельно — временные и частотные характеристики, отдельно — параметры входных и выходных сигналов (уровни нуля и единицы, амплитудно-частотная характеристика и т. д.). В результате комбинирования элементов, описанных таким образом, еще на стадии разработки устройства выявляются грубые ошибки проектировщика, смоделированы и рассмотрены эпюры сигналов в контрольных точках и так далее. По существу одновременно с проектированием устройства синтезировалась имитационная модель проектируемого устройства. Естественно, что как бы ни была многообразна элементная база, используемая для разработки электронных устройств, количество уникальных имен было конечным, а задача идентификации конкретного элемента могла решаться, например, по реализуемой им логической функции, что не требовало высокого развития логического аппарата поиска данных.
Постепенно приходило понимание того, что подобный подход приемлем и при описании объектов другой природы, в том числе, и людей, выступающих в фиксированных (заданных некими регламентами, например, должностными инструкциями) ролях. То есть, всего того, что может рассматриваться в качестве объекта, принадлежащего к некоторому классу и обладающего собственными и системными свойствами, для которого определены нормативные способы манипулирования им, его нормативное поведение и иные характеристики.
Еще одним полезным свойством объектных технологий является то, что данные, описывающие объект учета, могут быть сопровождены и информацией об интерфейсе их представления. Например, в качестве одного из атрибутов при описании микросхемы в системах автоматизированного проектирования (САПР) использовалось описание ее графического начертания. Однако это было только начало, поскольку метод отображения начертания был реализован в оболочке САПР. Позже, за счет унификации языков программирования и графических интерфейсов операционных систем, стало возможным и совместное хранение данных с описаниями методов их отображения и обработки. Это позволяет при получении исполнительной системой комбинированного блока данных и формализованных описаний алгоритмов их обработки, воспользоваться теми процедурами, которые позволяют корректно обрабатывать и отображать именно этот экземпляр или класс данных. То есть, на момент получения данных их потребитель может в принципе не располагать методами и программами обработки данного класса данных, а все изменения в методах обработки данных, автоматически станут доступны их потребителям. Такая идеология рассматривается как наиболее перспективная, в ее русле разработаны языки гипертекстовой разметки SGML, XML, HTML, MathML, языки программирования Java Script, Java и ряд иных языков программирования и управления представлением данных, разработанных в последние годы.
Однако, основной бич объектных баз данных — система именования объектов. Да, вы можете получить и изучить иерархию объектов и классов, схему наследования и переопределения свойств для конкретного класса объектов хранения, но этого мало… Поскольку основным идентификатором объекта является его имя, а не свойства (!), манипуляция экземплярами классов затруднена: это уже не таблицы, а более сложные структуры данных. А значит, решение исследовательских задач, связанных со сравнением свойств объектов, в таких БД затруднено (ведь речь идет уже не о сравнении величин, а о сравнении объектов, структура которых может и различаться). А сами объектные базы данных в большей степени пригодны для решения задач синтеза, то есть, работ типа проектирования, но не для анализа. Хотя, если рассматривать ИАР как целостный цикл работы с информацией, то становится понятно, в чем именно заключается привлекательность объектных баз данных с точки зрения аналитика — они представляют собой инструмент подготовки и проведения имитационного моделирования и проверки гипотез. Но, к сожалению, классические объектные БД не могут выступать в роли инструмента анализа, проводимого по схеме восхождения от общего к частному и обратно.
Жаль… А ведь как привлекательна идея «данные, модели и методы в одном флаконе»! Так и хочется спросить: «Девушка, а у вас такого же, но с перламутровыми пуговицами не найдется?». Что ж, Технология — девушка запасливая: есть у нее и «с перламутровыми»…
Поиски путей согласования системного подхода с компьютерными технологиями хранения, поиска и обработки данных привели к разработке еще двух технологий: объектно-реляционной модели организации хранения данных и модели гетерогенных хранилищ данных (или хранилищ данных — Data Warehouse). Однако по порядку…
Парадигма объектно-реляционных БД объединяет основные преимущества реляционных СУБД и некоторые, унаследованные от объектных СУБД. Заметим, что «объектность» в объектно-реляционных СУБД иная, нежели в объектных СУБД — объектом в них являются данные (именно для манипуляций над ними разрабатываются методы), а не семантика связей реального мира. Это позволяет, с одной стороны, использовать механизмы наследования и переопределения, обращения к объектам с применением специализированных методов, а с другой — решать сложные аналитические задачи, связанные с логическим анализом значений атрибутов.
Одним из представителей этого класса систем является СУБД IBM DB2, обеспечивающая работу с различными классами данных, включая и классы, определенные пользователем. В ней предусмотрен ряд полезных возможностей: анализ совместимости типов данных и указание правил оперирования данными (например, исключающих возможность появления квадратных долларов при умножении стоимости на стоимость и т. д.), указания внешних ссылок на ресурсы, хранимые вне БД, создания лингвистических индексов (по Г.К. Зипфу) для больших текстовых массивов и иные. Не так уж и много, но и немало.
Конечно, такие возможности несколько разочаровывают, но при совершении некоторого «интеллектуального насилия» над СУБД, заключающегося в использовании механизма подключаемых внешних процедур, объектно-реляционная система приобретает те свойства, которые могут быть чрезвычайно полезны при создании информационно-аналитических систем. Например, может быть определен объект типа «модель», правила обращения с которым будут определены во внешних процедурах, что позволит использовать такую БД в качестве системы хранения компонентов моделей, или объектов типа «сценарий», что также весьма ценно… В этом случае СУБД сможет выступать в роли системы, которая помимо функции хранения данных сможет выполнять функции диспетчера, координирующего работу множества прикладных процессов, инициируемых событиями, обработка которых предусмотрена данной СУБД (например, вставка новой записи, изменение данных и т. д.).
Идея хранилищ данных (Data Warehouse) впервые была предложена Б. Инмоном. Сейчас аналитикам многих западных компаний уже трудно представить, как они обходились с дезинтегрированными ресурсами различных баз данных, созданных в различные периоды времени в разных организациях с применением различных технологических платформ… Однако теперь, после внедрения технологии хранилищ данных, столь удачно сочетающейся с концепцией оперативной аналитической обработки данных (OLAP), эти различия перестали быть ощутимыми для потребителей. Хранилища данных прочно заняли одно из почетных мест в инструментарии аналитика. Практика построения хранилищ данных доказала необходимость переноса идеологии виртуальных таблиц, реализованной в реляционных базах данных, на крупномасштабные приложения и развития ее до технологии витрин данных (Data Mart), позволяющих сделать прозрачным доступ к данным, хранимым в технологически неоднородных средах.
За прошедшее десятилетие было разработано около десятка различных архитектур корпоративных информационных систем на основе хранилищ и витрин данных, предназначенных для поддержки принятия решений и аналитических исследований. В создании крупных хранилищ данных лидируют такие фирмы, как IBM, Informix, NCR, Oracle, Red Brick, SAS, Sybase.
С другой стороны, следует понимать, что хранилища данных также используют и объектную идеологию, однако на уровне доступа к макроресурсам, а не отдельным записям баз данных. Основная их задача — организация прозрачного доступа к данным, размещенным в БД, функционирующих под управлением различных СУБД (в том числе, и таких, которые реализованы в соответствии с разными парадигмами). По существу, хранилище данных — это система более высокого уровня, нежели база данных, такая система могла бы назваться базой баз данных. В нем (в хранилище) содержатся объектные описания правил манипулирования информационными объектами включенных в хранилище БД, а также метаданные, описывающие систему логических отношений между объектами учета и их атрибуты.
Использование хранилищ данных в качестве надстройки над системой взаимосвязанных баз данных позволяет преодолеть ограничения парадигм частных СУБД за счет введения систем параллельного учета, разделения объектов учета между СУБД, наилучшим образом приспособленными к решению тех или иных задач, связанных с хранением и анализом данных.
Таким образом, мы логично переходим к технологии распределенного хранения данных с централизованным управлением на основе единой политики информационной безопасности, единого интерфейса доступа и отображения информации на базе распределенных телекоммуникационных сетей. Это идеальный вариант, предполагающий, что все информационные ресурсы принадлежат единой организационной системе, в которой реализованы корпоративные стандарты представления данных и организации информационного взаимодействия. Но существует и иной вариант организации корпоративного информационного ресурса и именно этот вариант на сегодня является наиболее распространенным…
Противоположность идеалу организации корпоративного информационного ресурса являет дезинтегрированный информационный ресурс распределенных телекоммуникационных сетей, образующийся в результате стихийного процесса генерации информации множеством организационно не связанных индивидов. Примером такого варианта хранения данных является ГСТК Интернет. В такой системе особую важность представляют процедуры мониторинга ресурсов их индексации и систематизации. Неслучайно в Интернет существует такое обилие информационно поисковых серверов, предоставляющих различные поисковые интерфейсы.
Такое специфическое информационное пространство живет по законам самоорганизации сложных систем: динамично возникающие и распадающиеся группы и сообщества энтузиастов, более стабильные корпоративные ресурсы профессиональных и научных сообществ, представительские порталы крупных коммерческих и государственных учреждений — все эти ресурсы принципиально не могут быть исполнены в соответствии единым правилам. Единообразие присутствует лишь на уровне группы телекоммуникационных стандартов — остальное же обусловлено неповторимостью сочетания целей, задач и ситуации, в которой пребывают лица и организации, предоставляющие в общее пользование принадлежащие им ресурсы.
Тем не менее, возникновение некоторой группы (пусть даже временной) приводит к выработке если не стандарта, то, хотя бы, некоторого корпоративного стиля. Здесь могут вырабатываться некие правила формализации данных, их логической и физической организации. Темпы пополнения и модификации ресурсов варьируются в широчайших пределах. Как следствие, при сборе информации, а по сути — обслуживании такого неструктурированного хранилища данных, основной упор делается на технологии, экономно использующие ресурсы полосы пропускания каналов связи и ресурсы производительности машины, осуществляющей сбор информации. Представьте себе, что бы стало, если бы на вашем компьютере одновременно запустилось несколько сотен вычислительных процессов, которые, используя канал связи, стали бы загружать из сети на ваш компьютер доступные файлы, выполнять статистические расчеты для составления индексных таблиц, после чего стирать загруженные по каналам связи файлы. Сюрреализм, да и только… при такой технологии каналы связи были бы перегружены запросами поисковых серверов. Поэтому поисковые программы (именуемые поисковыми роботами) исполняются непосредственно на тех компьютерах, на которых расположены ресурсы, которые требуется проиндексировать. Процесс отправки инициируется на поисковом сервере, код программы-робота направляется на удаленный компьютер, там под управлением его операционной системы запускается на исполнение, а результат обработки направляется на поисковую машину. Правда, некоторые поисковые машины в часы спада нагрузки все же выполняют процедуры загрузки файлов из сети с последующим их сохранением в своей подсистеме хранения.
Следует заметить, что такие разобщенные ресурсы не являются исключительным атрибутом больших телекоммуникационных сетей. Они присутствуют и в большинстве сетей масштабов организации — отсутствие дисциплины информационной работы приводит к дестандартизации представления данных, нарушению корпоративной информационной политики, что чаще всего бывает вызвано несовершенством схемы и технологии информационной работы в организации и низкой квалификацией сотрудников. Характерно, что вирусным атакам чаще всего подвергаются именно эти — неорганизованные ресурсы. К сожалению, должностные лица, в ведении которых находятся вопросы соблюдения информационной политики организации, редко вспоминают о феномене существования дезинтегрированного информационного ресурса (откуда, мол, ему быть в локальной вычислительной сети). В результате из-за напластований фрагментов и версий документов происходит снижение темпов деловых процессов, прекращается пополнение корпоративных информационных ресурсов, что приводит к снижению эффективности информационной работы в целом.
Возникновение и рост дезинтегрированного информационного ресурса в малой организации является тревожным симптомом — он говорит о снижении квалификации, отсутствии трудовой дисциплины, неудобстве или устаревании автоматизированных систем поддержки информационной работы или снижении доверия к надежности подсистемы хранения данных. Поэтому в локальной вычислительной сети организации также целесообразно проводить периодическое сканирование рабочих мест на предмет индексации локальных ресурсов, устранения дублирования, а также выявления узких мест в организации и технологическом обеспечении информационной работы.
Особый класс систем хранения данных представляют собой базы знаний и моделей. Если до обращения к тематике объектных и объектно-реляционных баз данных речь шла преимущественно о структурной декомпозиции объектов описания и выделении статических атрибутов, то базы знаний и моделей помимо этих аспектов выделяют и временной аспект функционирования систем и объектов учета. Этот класс систем хранения данных ориентирован на хранение данных о логике причинно-следственных отношений, функциональных зависимостях и иных параметров, в той или иной степени связанных с временем.
Основная задача баз знаний и баз моделей — хранение логически организованной информации, обеспечивающей возможность с применением логического аппарата и системы аксиом различного рода сформулировать вывод о состоянии, тенденции или характеристиках процесса. При этом аксиомы, хранимые в базе знаний или базе моделей, могут носить как характер абсолютных утверждений, так и вероятностных суждений относительно некоторых сущностей и процессов, иметь общую значимость или быть истинными лишь для некоторого класса начальных условий.
Существуют разные подходы к построению баз знаний. Наиболее типичными подходами (моделями представления знаний) являются логические, сетевые, продукционные и фреймовые модели.
Логические модели представления знаний формируются из следующих компонентов:
— множество базовых терминов (например, имен объектов, действий и т. п.);
— множество аксиом (синтаксически и семантически корректных высказываний из базовых терминов);
— множество методов вывода из множества аксиом синтаксически и семантически корректных высказываний;
— множество методов соотнесения терминов с входными терминами;
— множество методов построения синтаксически корректных высказываний из терминов;
— множество методов установления факта принадлежности синтаксически корректных высказываний к множеству синтаксически и семантически корректных высказываний.
Сетевые модели представления знаний формируются из следующих компонентов:
— множество информационных единиц;
— множество типов связей между информационными единицами (временные, причинно-следственные, родо-видовые и т. п.);
— множество связей между информационными единицами.
Такие модели получили название семантических сетей, среди которых, в зависимости от типов связей, принято выделять классифицирующие, функциональные сети, сценарии и семантические сети, не специализированные по типу отношений.
Продукционные модели представления знаний формируются из следующих компонентов:
— семантическая сеть;
— множество правил вывода (продукций).
Такие модели вместо логического вывода на множестве аксиом используют вывод на знаниях.
Фреймовые модели представления знаний формируются из компонентов типа «фрейм». Фрейм представляет собой структуру данных, включающую имя фрейма, имя слота (слотов), значение слота (слотов). На тип значения слота ограничений практически не налагается — ими могут быть числа, математические соотношения, тексты на естественном языке, программы, правила вывода или ссылки на другие слоты данного фрейма или других фреймов. Как следствие, из фреймов может быть построена сложная многосвязная структура, отражающая знания о некоторой предметной области.
В качестве технологической платформы для построения базы знаний могут быть избраны навигационные, реляционные и объектные базы данных, языки гипертекстовой разметки, программы, разработанные на языках логического программирования и обработки символьных данных и программы, разработанные на языках программирования общей семантики. Выбор технологической платформы может быть продиктован как спецификой хранимых знаний, так и наличествующим у разработчика инструментарием (не говоря о требованиях к быстродействию, уровню конфиденциальности знаний и т. д.).
Эксперты высокого класса не всегда есть под рукой, их опыт всегда специфичен, да и ротацию кадров следует учитывать. Технология же экспертных систем позволяет улучшить (если не исправить) ситуацию в кадровой сфере, а также оптимизировать работу экспертов высокого класса, переложив решение рутинных проблем на «плечи» автоматизированных систем. Поэтому экспертные системы нашли широкое применение в современной аналитике. Заметим, что экспертные системы являются инструментом, способным оперировать, в том числе, и знаниями, еще не прошедшими процедуру научного обобщения и формализации — кроме экспертных систем это может делать только человек. К этому следует прибавить, еще и то, что способности человека по оперативному извлечению необходимых знаний и данных из памяти ограничены и подвержены влиянию целого ряда внешних условий (например, стрессовые ситуации, колебания физических параметров среды обитания и т. п.).
В качестве иллюстрации к последнему утверждению приведем курьезный пример. В 1990-е годы в Италии провели интересный эксперимент: специально отобранной группе девушек были предложены для решения два идентичных задания, первое из которых они решали, будучи одеты в одежду делового стиля, а второе — в бикини. Второе задание было решено с чуть ли не в два раза худшими результатами, чем первое. А ведь это всего лишь изменение стиля одежды… Чего же ожидать от человека, если поместить его в действительно экстремальные условия?
В последние десятилетия направление экспертных систем (ЭС) оформилось в самостоятельную (и весьма прибыльную) отрасль теоретических и прикладных исследований в рамках теории искусственного интеллекта. Правда, в силу действия модных течений название специалистов, работающих в этой области, несколько раз менялось: то их именовали специалистами по интеллектуальным технологиям, то инженерами знаний, то когнитологами. Сейчас на западе в ходу термин Knowledge Management (управление знаниями), соответственно, поменялось и название специальности.
Целью деятельности этих специалистов является создание программ и устройств, использующих знания и процедуры вывода для решения задач в заданной предметной области. ЭС не только реализуют заранее разработанные алгоритмы решения задач, но способны самостоятельно вырабатывать «новые» алгоритмы решения возникающих задач.
Следует выделять два направления работ в этой отрасли: направление создания инструментальных средств для создания экспертных систем (программных оболочек экспертных систем) и направление собственно создания ЭС, наполненных конкретными знаниями в некоторой предметной области.
В настоящее время ЭС применяются в различных областях человеческой деятельности. К числу уже устоявшихся, апробированных в научно-исследовательской и деловой практике, можно отнести экспертные системы медицинского, технологического, юридического назначения, экспертные системы, ориентированные на поддержку процессов проектирования в архитектуре, электронике и электротехнике, разработки программного обеспечения, а также в военных приложениях. Их характерной особенностью является то, что они разработаны для тех отраслей человеческой деятельности, в которых проявляются устойчивые закономерности, описания которых и подвергается формальному представлению в базе знаний. Перечислим ряд экспертных систем, принадлежащих к различным отраслям деятельности человека:
— MYCIN- в области медицины;
— Rational Rose — в области разработки программного обеспечения;
— ArchiCAD — в области архитектурного проектирования;
— P-CAD, Or-CAD — в электронике и электротехнике и многие другие.
В зависимости от типов решаемых задач, экспертные системы можно разделить на следующие классы: системы классификации и распознавания объектов, интерпретации данных, диагностики, проектирования, прогнозирования, планирования, мониторинга, отладки, обучения и управления.
Для взаимодействия с пользователем могут использоваться интерфейсы, обеспечивающие взаимодействие с пользователем на подмножестве естественного языка, графические средства, шаблоны ввода/вывода и формальные знаковые системы. При этом интерфейсом могут предусматриваться режимы консультации потребителя, комментария к выводам (объяснение), обучение пользователя правилам из базы знаний и коррекции содержимого базы знаний.
Как явствует из предыдущего предложения, экспертные системы в качестве своего ядра имеют именно базы знаний, построенные в соответствии с одной из описанных нами моделей представления знаний или по комбинированной схеме.
Мы уже указывали на существование «родства» между экспертными системами и теорией искусственного интеллекта. Эта отрасль современной науки, в свою очередь «отпочковалась» от кибернетики и постоянно подпитывается ее идеями, впрочем, теория систем искусственного интеллекта (ИИ) многими своими достижениями обогатила кибернетику. Но кибернетика рассматривает процессы управления и в искусственных, и в естественных системах, в то время, как теория ИИ «вынужденно» исследует естественные системы, поскольку ставит перед собой цель создания «мыслящей» искусственной системы.
При проектировании систем искусственного интеллекта их создатели исходят из соображений, что «способ мышления» системы искусственного интеллекта не обязательно должен копировать способ мышления человека и строение его «мыслительного инструмента». Однако, как бы ни далеки по своему устройству были системы искусственного интеллекта от систем естественных, они вынужденно копируют и используют те закономерности мыслительной деятельности, которые были открыты человеком.
Основное отличие экспертных систем от систем искусственного интеллекта заключается в том, что экспертные системы используют (а иногда и логически достраивают) совокупность знаний, полученных от экспертов, но сами не способны создать нового знания. Новое знание может появиться только при условии, что система располагает комплектом средств сбора информации, может управлять им, способна к самообучению, самоорганизации, а также различает «полезное» и «вредное» для нее или ее пользователя, а экспертные системы в классическом варианте такими способностями не наделяются.
Системы же искусственного интеллекта, как правило, обладают всеми этими способностями или их частью. Благодаря этому, системы ИИ способны выявлять отклонения от текущего эталона, накапливать «черновые» гипотезы и через цепь обратной связи устанавливает их статус и полезность. Цепь обратной связи может быть реализована в виде некоторого вспомогательного инструментального комплекса, реализованного на иных чувствительных элементах, нежели основной комплекс сбора информации, либо представлен учителем, «объясняющим» системе, «… что такое «хорошо» и что такое «плохо». В качестве такого учителя часто выступает человек, снабжающий интерпретантой тот признак96, который был выявлен системой ИИ.
Специалисты в области теории систем ИИ сходятся в мнении, что активность и относительная автономность отдельных подсистем системы искусственного интеллекта способна существенно повысить их эффективность и надежность выводов. Активно развивается направление автономных интеллектуальных агентов — автономных подсистем, наделенных автоматными реакциями на некий комплекс однотипных раздражителей. Поведение таких подсистем по отдельности невозможно назвать интеллектуальным, однако, будучи объединены в комплекс, они оказываются в состоянии обеспечить систему более высокого уровня информацией, необходимой для выработки решения о ситуации и степени ее «полезности» для системы в целом. Такая система обычно строится по иерархическому принципу и располагает сведениями о ценности тех или иных ресурсов, важности удержания значений критических параметров в заданных диапазонах и т. д. — то есть, теми сведениями относительно которых принимается решение о семантике нового признака.
В рамках теории ИИ можно выделить два мощных направления: логическое направление и направление нейронных и нейроподобных сетей.
Логическое направление теории систем искусственного интеллекта основной упор делает на симбиоз логического аппарата и аппарата теории вероятностей. Основное отличие логических систем ИИ от логических экспертных систем состоит в том, что на основе анализа показателей, используемых для вычисления функции полезности (именно с таких позиций осуществляется интерпретация тех или иных состояний и процессов), система способна самостоятельно корректировать аксиоматику: осуществлять ранжирование аксиом, удалять или вводить новые аксиомы. В принципе такая система в состоянии как развиваться, так и деградировать, однако то, какие именно тенденции будут развиты системой, во многом определяется тем, как на этапе синтеза системы была определена функция полезности.
Серьезнейшим недостатком логических систем ИИ является то, что алгоритмы логических рассуждений трудно поддаются распараллеливанию, если на каком-то этапе и удается выделить несколько относительно независимых логических операций и производить их исчисление разными решателями, то в некоторой точке алгоритм, как правило, сходится. А это значит, что наиболее «долгая» ветвь алгоритма будет определять быстродействие системы в целом. С целью сокращении вычислительных затрат изыскиваются методы логического вывода, задачей которых является установление факта нецелесообразности производства дальнейших вычислений. Однако, несмотря на эти ухищрения, объемы вычислений и быстродействие решателя остаются узким местом логических систем ИИ.
Направление систем искусственного интеллекта на базе нейронных и нейроподобных сетей «ближе к природе»: если логика — это порождение человеческого интеллекта, формальная система, выведенная на основе научного обобщения закономерностей человеческого мышления, то нейронные и нейроподобные сети — это попытка сымитировать не процесс мышления, а «процесс чувствования». В основе построения таких систем лежит принцип действия нейрона и нейронной сети, имитирующей строение центральной нервной системы человека.
Для начала разберемся с тем, что представляет собой нейрон… Нейрон — это нервная клетка, состоящая «… из довольно крупного (до 0,1 мм) тела, от которого отходят несколько отростков — дендритов, дающих начало все более и более тонким отросткам, подобно ветвям дерева. Кроме дендритов, от тела нервной клетки отходит еще один отросток — аксон, напоминающий длинный тонкий провод. Аксоны бывают очень длинны — до метра — и заканчиваются, подобно дендритам, древовидным разветвлением. На концах веточек, отходящих от аксона, можно видеть маленькие пластинки или луковички. Луковички одного нейрона близко подходят к различным участкам тела или дендритов другого нейрона, почти прикасаясь к ним. Эти контакты носят название синапсов; через них нейроны взаимодействуют друг с другом. Число луковичек, подходящих к дендритам одного нейрона, может исчисляться десятками и даже сотнями. Таким образом, нейроны очень тесно связаны друг с другом; они образуют нервную сеть[66]». Если не вникать в тонкости, то можно сказать, что нейроны могут пребывать только в двух состояниях: возбужденном состоянии или в покое. При возбуждении на поверхности клетки образуется электрический потенциал, который передается через синапсы других нервных клеток и либо переводит, либо не переводит их в состояние возбуждения. Поэтому исходят из допущения, что нервная сеть — это дискретная система, состоящая из элементарных подсистем — нейронов, способных пребывать в одном из двух состояний. Такой взгляд на нейронную сеть, как иерархически организованную совокупность однотипных элементов со сложным поведением позволяет говорить о том, что это инструмент параллельной обработки данных, в различных сочетаниях поступающих от различных источников. Нейроны обладают способностью к обучению, заключающейся в том, что «проводимость синапса увеличивается после первого прохождения через него возбуждения и нескольких следующих прохождений». В результате этого повторяющиеся комбинации «данных» обучают сеть — настраивая ее на восприятие и распознавание образов ситуации (сэмплов). Как следствие, нейронная сеть, получающая данные об обстановке, поступающие от органов чувств, а также данные о внутреннем состоянии и взаимном расположении частей организма, оказывается в состоянии распознавать множество самых разнообразных состояний. Теперь задача состоит в том, чтобы получить данные, подтверждающие полезность запоминания распознанного сэмпла, что требует от системы определенных логических способностей…
Может показаться, что нейронная сеть без принципиально иной по организации системы обработки логической компоненты, отражающей топологию отношений во времени, пространстве, организационной иерархии или пространстве некой конструкции, пригодна лишь для решения задач распознавания. Но, судя по результатам исследований в области нейрофизиологии, в организме человека отсутствуют специализированные «логические клетки» — то есть, все эти операции реализуются именно на нейронных структурах, которые обладают большой информационной емкостью. Приняв некоторые упрощения, можно утверждать, что многообразие пространственных отношений выражено в терминах временных задержек реакции отдельных нейронов, инерционности отдельных связей нейронной сети. Эти характеристики также являются предметом «запоминания» и учитываются при выработке адаптивного поведения организма. Однако эта способность требует от человека способности абстрактного («знакового») мышления — введения еще одного уровня иерархии, обеспечивающей возможность оперировать информационно-емкими понятиями. Именно эта особенность — наличие второй сигнальной системы — и выделяет человека из числа прочих живых существ и обеспечивает ему возможность запоминания протяженных во времени событий и сценариев, ассоциированных с ними. То есть, логика становится доступной нашему пониманию, если введена знаковая система, запоминание правил которой дается легче, нежели запоминание всех конкретных признаков событий и вероятных путей их развития. Рассуждая логически, мы оперируем не образами ситуаций, а знаками, для запоминания которых требуются гораздо меньшие усилия.
Преимуществом нейронной или нейроподобной сети перед чисто логической системой искусственного интеллекта заключается в гибком сочетании параллельной и последовательной обработки информации, обусловленном иерархической структурой нейронной сети. Однако человеку свойственно оптимизировать свою деятельность — там, где удобнее воспользоваться неким инструментом, имеющимся в его распоряжении, он не станет искать пути применения того инструмента, который не приспособлен для выполнения работы. Пока нейроподобные сети (созданные на искусственных нейронах — перцептронах) и нейронные сети (созданные на нейронах, полученных у простейших организмов), как правило, на этапе манипулирования логической компонентой используют традиционную или несколько модифицированную логику, то есть, переходят от параллельной обработки данных к последовательной обработке. Хотя созданы и средства, которые, оперируя величинами инерционности нейронов, способны осуществлять логическую обработку без перехода к уровню знаковой системы. Сражение за быстродействие систем продолжается и, возможно, что через некоторое время мы станем свидетелями технологического прорыва в этом направлении, который приведет к созданию реальной системы параллельной обработки данных. Однако это не приведет к тому, что формальная логика утратит свои позиции в инструментарии аналитика — для решения каждой специфической задачи требуется свой, индивидуальный, набор инструментальных средств.
Где используются системы ИИ, построенные на нейронных и нейроподобных сетях? Приложений масса: от анализа финансовых котировок и мультисенсорных систем сбора информации до систем распознавания словоформ в компьютерной лингвистике, от систем декодирования помехоустойчивых кодов и криптообработки до систем производства приближенных вычислений — диапазон применения их крайне широк. Современная технология производства нейроподобных сетей уже миновала зачаточную стадию: созданы как аппаратные, так и программные реализации нейроподобных сетей, инструментарий их настройки и обучения, однако функция полезности пока задается извне, да иначе какой смысл в нейроподобных и нейронных сетях, которые сами решают, что им полезно, а что — нет (это все равно, что молоток, который сам решает: то ли ударить по теплому и мягкому пальцу, то ли по твердой и холодной шляпке гвоздя).
Как согласуется все то, что мы говорили о нейронных и нейроподобных сетях с моделями? Любая обученная нейронная или нейроподобная сеть — это по существу и есть модель, выступающая в роли образа ситуации ли, объекта ли — не суть важно. Поэтому можно сказать, что нейроинформатика и нейрокомпьютинг — это развитие идеологии моделирования в направлении дальнейшей автоматизации процесса (равно, как и все, что делается в отрасли искусственного интеллекта). По этой причине можно утверждать, что для аналитика, как потребителя результатов функционирования систем искусственного интеллекта, внутреннее устройство подобной системы непринципиально, хотя и нелишне знать, как устроен и работает тот инструмент, с помощью которого ты решаешь свои задачи.
Существуют ли примеры систем искусственного интеллекта, которые можно пощупать руками, не вставая из-за рабочего стола? Да, существуют и их, если приглядеться, — масса… Достаточно запустить компьютер, на котором установлена всем знакомая операционная система Microsoft Windows, как вы окажетесь в интеллектуальной среде, которая отслеживает массу событий, контролирует состояние множества запущенных процессов и способна выдавать рекомендации, направленные на стабилизацию параметров функционирования операционной системы и компьютера. Если у вас на компьютере установлена система автоматизированного перевода, то это еще один пример системы ИИ, если вы используете сканер и программу автоматического распознавания текста — вот вам и еще один пример. Этот список можно продолжить, однако, остановимся на еще одном приложении систем ИИ, особенно актуальной для касты аналитиков…
В последнее время наблюдается оживление рынка программного обеспечения, предназначенного для ведения интеллектуального анализа данных (в англоязычных источниках — Data Mining, т. е. «раскопка данных»). Для этого класса систем ИИ характерно комплексное использование методов, используемых в логических системах ИИ и нейрокомпьютинге, в сочетании с инструментарием статистического анализа данных и компьютерной лингвистики. Только по состоянию на начало 1999 года на американском рынке интеллектуального программного обеспечения было представлено свыше пятнадцати программных и программно-аппаратных комплексов, относящихся к этому классу[67]. Безусловно, все эти системы нуждаются в обучении, профессиональной настройке и адаптации к предметной области, в которой предполагается их дальнейшее использование. В большинстве своем, они представляют собой системы искусственного интеллекта, ориентированные на решение задач анализа «абстрактных» типов данных (т. е. безотносительно к их семантике), интегрированные со сконфигурированными под потребности заказчика базами данных. Иным вариантом поставки систем data mining является вариант, предполагающий настройку и адаптацию системы искусственного интеллекта (собственно, инструмента Data Mining) под уже существующую подсистему хранения данных заказчика.
В любом варианте поставки по мере функционирования системы она выделяет некие скрытые закономерности в хранимых массивах данных (в том числе — корреляции временных рядов). Такие корреляции не всегда очевидны для аналитика, однако, для систем data mining числа — родная стихия. Системы data mining не имеют обыкновения забывать или упускать из внимания сколь бы то ни было «незначительные детали» и закономерности — это свойство делает их полезным инструментом информационно-аналитической работы.
Принцип функционирования систем интеллектуального анализа данных состоит в том, что на основе анализа потока данных, поступающих от разнообразных источников информации, формируется информационный образ неким образом интерпретируемой ситуации, который в ходе дальнейшей эксплуатации системы может быть «узнан», о чем и информируется потребитель. Отрасль, для которой создается такая система, на этапе разработки, в принципе, не существенна, поскольку важен лишь принцип формирования системы признаков и класс данных, на которые ориентирована данная система (количественные, качественные).
Адаптация к предметной области этого класса программного обеспечения заключается в том, что предметная область подлежит моделированию и описанию в виде совокупности измеримых атрибутов. Поведение этих атрибутов во времени неким (наперед неизвестным) образом характеризует состояние и поведение систем. С точки зрения исследователя интерес представляет именно то, каким образом наблюдаемые ситуации и тенденции отражаются в имеющемся наборе атрибутов, не существует ли неких признаков, характеризующих начальный период зарождения негативной или позитивной тенденции, скатывания к неким сценариям в развитии ситуации и т. п.
Еще раз заметим: системы data mining не работают напрямую с текстами произвольного формата и данными, которые не могут быть непосредственно сопоставлены. Максимум, что они «могут», если не располагают тезаурусом, характерным для данной предметной области — это работа со структурно-статистическими признаками и временными распределениями.
Если разобраться, то, на самом деле, такие системы могут оказаться полезными даже в случае отсутствия интепретанты у впервые проявившегося признака, поскольку системы интеллектуального анализа данных способны лишь акцентировать внимание аналитика на неких всплесках, по совокупности интегральных или частных показателей отличающих ситуацию от эталона нормы. Какую именно интерпретацию получат эти признаки — вопрос квалификации аналитика, поскольку задача систем интеллектуального анализа данных — это выделение сэмпла, но никак не снабжение его некой семантикой. Системы этого типа работают подобно периферийному зрению человека — они реагируют лишь на изменения (периферийное зрение человека обеспечивает только сигнализацию о перемещениях в «опасной» зоне, но за распознавание движущегося объекта оно не берется).
Обращают на себя внимание попытки вхождения на уровень таких, казалось бы, трудно формализуемых отношений, как политика. Подобные системы не пытаются подменить аналитика, взвалив на себя весь интеллектуальный процесс, связанный с формированием политической стратегии (социализацией идей), однако способны выступать в роли хорошего помощника, способного непредвзято оценить пользу от предпринятых политических шагов. Для того, чтобы система смогла стать таким помощником, пользователю нужно «разъяснить» автоматизированной системе преследуемые им цели и рассматриваемые способы достижения этих целей, «проинформировать» систему о тех политических силах, чьи интересы, следует учитывать при решении задачи, отношениях между вероятными политическими сторонниками и противниками, возможных препятствиях на пути достижения целей и вероятных причинах их возникновения. Лишь после этого встроенная экспертная система будет способна оказать пользователю помощь в разработке альтернативных вариантов стратегии достижения целей, сопоставить эти варианты, а также оценить результативность предпринятых политических шагов. Далее начинается работа, собственно, системы искусственного интеллекта, которая на основе поставляемых ей данных (отклики прессы, рейтинги, результаты голосования и т. д.) предпримет попытки оценивания результативности целенаправленной деятельности. По результатам работ обычно предоставляется набор графиков, текстов и диаграмм, обеспечивающих возможность системного видения проблемы и путей ее решения.
Доступным примером, на котором можно испытать возможности такого рода систем, может служить распространяемая на основе лицензии Shareware «облегченная» версия программного обеспечения PolicyMaker Lite (PoliMap, США, http://www.polimap.com). Данный программный продукт специально разработан для ведения политического анализа и позволяет оценивать расстановку действующих политических сил при осуществлении политической активности (например, при продвижении законодательных инициатив, ведении внутрипартийной борьбы или в ходе выборов). И хотя в этой системе (по крайней мере, в той демонстрационной версии, которая предлагается на пробу заинтересованным лицам) явно перевешивает блок экспертных знаний, ознакомление с ней может оказаться весьма поучительным.
Назвать такие системы разумными нельзя, но на звание электронного интеллектуального помощника они вполне могут претендовать. Часто по своим функциями системы этого типа занимают позицию между инструментальными средствами формального моделирования и средствами активизации мыслительной деятельности.
Над решением проблемы визуализации и структурирования данных работали крупнейшие ученые (достаточно вспомнить Аристотеля, ведь логика — это одна из систем визуализации рассуждений). Рассматривая технологии работы с текстами, мы уже уделили немалое внимание проблеме структурирования данных, но позволим себе еще раз вернуться к этой проблеме.
Как часто случается, что после тщетных размышлений над некоторой проблемой в прыгающем на колдобинах ГАЗике, садишься за стол, берешь бумагу, карандаш и… все сложное становится простым (правда, иногда случается и обратное!). И не потому, что в условиях тряски нейроны, вынужденные цепляться своими дендритами, аксонами и синапсами друг за дружку, забывают о своем высоком предназначении (лишь бы не рассыпалась пресловутая нейронная сеть).
Дело в том, что оперировать знаками легче, когда они наблюдаемы, а не роятся в голове вперемешку с мыслями об удержании в себе содержимого желудка. Причем способ наблюдения несущественен: например, еще одним приемом «визуализации» является проговаривание цепочки рассуждений. Дети часто пользуются этим приемом, более того, использовать его рекомендуют и психологи, но мы-то умные, да взрослые, и позволяем себе такое только в одиночестве или в состоянии, когда уже впору идти на прием к доктору. Проворачивать в голове сложные многосвязные структуры знаковой природы очень сложно, а без них, увы, вся логика повисает в воздухе. Знаки же человек привык воспринимать либо с помощью зрения, либо с помощью слуха — вот и вся разгадка (кто на что учился, как принято говорить).
Разберемся с тем, что наизобретали умнейшие… Итак: рисунки и иероглифика, письменность, формальные знаковые системы, таблицы, матрицы, графики, плоскостные развертки, сечения и аксонометрические проекции многомерных графиков, графы, сети, диаграммы, многомерные таблицы и массивы, сетчатые рельефы, псевдотрехмерные текстурные рельефы, виртуальная реальность… Внушительный перечень, но… неполный — одних диаграмм можно насчитать массу разновидностей, не говоря уже о прочих способах визуализации данных.
Собственно, в ряде приложений визуализация данных является одним из эффективных способов упорядочения — зачем проводить сортировку неупорядоченных пар данных, если они могут быть непосредственно нанесены на график и считаны с приемлемой точностью? Более того: таким способом часто восстанавливаются и пропущенные измерения. Другой пример — использование сечений на трехмерной модели рельефа позволяет легко установить зону затопления в весенний паводок, в то время как обсчитать такую модель очень непросто.
Короче говоря, что хорошо аналитику, то программисту — чистая мука. Работа с графикой — одна из тех отраслей, в которой приходится помнить высшую математику с аналитической геометрией, чего не требуется при разработке большинства прикладных программ. По этой причине на рынке программного обеспечения для разработчиков программного обеспечения большой популярностью пользуются библиотеки подпрограмм и программных компонентов, предназначенных для решения задач отображения данных в графическом режиме. Например, на специализированном Интернет-сайте ComponentSource (США, http://www.componentsource.com), где размещаются сведения о коммерчески распространяемых библиотеках подпрограмм и программных компонентах, прошедших тестирование и допущенных к применению в проектах федерального уровня, компоненты подобного сорта, обладающие мощными возможностями — хотя и не редкость, но и стоят недешево (особенно это заметно по стоимости лицензий для использования в ГСТК Интернет).
Если же в вашей организации нет штатных программистов, а заказное программное обеспечение для вас слишком дорого, то на рынке программного обеспечения сегодня присутствует масса программных продуктов, приспособленных для решения задач отображения данных, а также задач разработки и отображения деловой графики. Рассмотрим стандартные возможности некоторой гипотетически доступной потребителю системы такого сорта:
— наличие непосредственной связи с базами данных или возможности выполнения разовых процедур импорта данных из формата хранения наиболее известных баз данных и табличных редакторов;
— наличие возможности редактирования и/или просмотра в табличном режиме данных, поступающих из подключенной базы данных, введенных в ручном режиме или импортированных извне;
— возможность выбора типа диаграммы или графика, используемого для отображения данных, настройки цветов линий и плоскостей на графике (диаграмме и т. п.), ориентации и пределов измерений шкал (координатных осей), подписей и т. д.;
— возможность манипуляции шкалами: нормирование отображаемых величин, установление масштаба отображения, изменение закона распределения делений на шкалах (линейный, экспоненциальный и т. п.);
— возможность вывода на печать и экспорта в другие программы и сохранения в иных форматах представления графики, нежели фирменный;
— возможность считывания данных, соответствующих указанной на теле графического объекта точке (ближайших или интерполированных).
Этому перечню требований на сегодня соответствует большинство подсистем отображения данных, реализованных в средах математического моделирования (MathCAD, MathLab и др.), табличных редакторах (Lotus Notes/Domino, Microsoft Excel и др.), а также в ряде других профессионально исполненных программных продуктов, предназначенных для работы с числовыми или структурированными данными. Довольно часто создатели программного обеспечения используют для решения проблемы отображения данных прием сохранения результатов обработки в формате обеспечивающем возможность их последующего просмотра с применением подсистемы отображения данных наиболее распространенных программных продуктов.
Одной из основных проблем, существующей в ИАР, является сам процесс синтеза модели, так и не получивший технологического обеспечения. До сего момента наиболее весомым достижением в этой сфере стало создание средств визуального моделирования объектов, процессов и отношений (эти технологии получили название WYSIWYG, от фразы what-you-see-is-what-you-get — что видишь, то и получаешь). Благодаря этой технологии инструментарий аналитика составили средства, предоставляющие наборы конструктивных элементов, располагающих совместимыми интерфейсами. Их комбинирование позволяет достаточно легко построить логико-графическую интерпретацию модели. Применение средств визуального моделирования и проектирования на первичном этапе формализации положительно сказывается на процессе моделирования, так как оно:
— стимулирует мыслительные усилия эксперта-аналитика за счет придания абстрактному мыслительному процессу наглядной формы;
— способствует формированию и развитию системного мышления;
— способствует проявлению скрытых логических конфликтов, а также логической неполноты модели (системы умолчаний эксперта);
— позволяет создать основу для развития модели, дальнейшей формализации отношений, перехода от качественных показателей к количественным — к аналитическим методам моделирования;
— позволяет за счет протоколирования процесса построения модели осуществлять обучение системы моделирования, а также адаптировать ее интерфейс к конкретному пользователю, его аналитическим приемам;
— способствует развитию методологии моделирования, поскольку протоколирование процесса синтеза модели позволяет перейти на уровень металогики модели, т. е. анализировать процесс анализа или моделировать процесс моделирования.
Особого упоминания здесь заслуживают системы протоколирования рассуждений, позволяющие отображать в виде графических и логико-лингвистических моделей сценарии и алгоритмы различных процессов, рассуждений экспертов, классификации и иные виды моделей, использующих графические методы отображения связей. Операции, выполняемые с их применением, часто называют майнд-мэппингом (от англ. mind mapping — картографирование мышления). Вообще-то, в русском языке для именования результата работы систем такого типа есть название: «функциональная схема (диаграмма)», но из-за того, что отечественные программные продукты этого класса на рынке практически не представлены, то термин уже изрядно потеснен, если не вытеснен вовсе.
Те, кому уже доводилось решать подобные задачи, знают, сколько времени уходит на разработку с помощью примитивных компьютерных средств, не приспособленных для таких работ, графического представления мало-мальски серьезной классификации. Майнд-мэпперы же практически всю графическую работу берут на себя, заботясь, в том числе, и о размещении элементов на полученной диаграмме. К числу систем этого класса могут быть отнесены: система MindMapper (SimTech, США, http://www.mindmapper.com/), Microsoft Project (Microsoft, США, http://www.microsoft.com/) и другие. Экономия времени от применения подобных программных продуктов даже на относительно простых функциональных схемах (порядка 20 блоков) может составлять около часа на одну схему. Кроме того, следует учесть, что многие системы протоколирования рассуждений прекрасно стыкуются с базами данных и табличными редакторами, способны экспортировать данные в формат языков гипертекстовой разметки, например, XML, что делает эти средства еще и незаменимым инструментом управления проектами и создания действующих макетов баз знаний.
Использование систем майнд-мэппинга для протоколирования мозговых штурмов, сеансов извлечения знаний при создании экспертных систем делает их незаменимым инструментом информационной работы. Кроме того, средства протоколирования рассуждений часто реализуются в многопользовательском режиме и выступают в качестве подсистемы в автоматизированных системах, служащих для коллективной разработки управленческих и проектных решений, а также программного обеспечения. Многие системы этого типа позволяют строить линейные планы-графики Г. Гантта (диаграммы Гантта), а также циклические и сетевые планы-графики, широко используемые в управлении, позволяя решать не только задачи графического отображения, но и производить вычисления затрачиваемых ресурсов и времени, а также решать примитивные оптимизационные задачи.
Существует также и еще один класс программного обеспечения по своей идеологии близкого к системам майнд-мэппинга: это системы презентационной графики, но по этапу применения они ближе к завершению цикла ИАР и могут быть отнесены к классу систем отображения результатов ИАР. Поэтому к их рассмотрению мы обратимся позже.
Если рассматривать системы гибридного интеллекта в самом общем виде, то можно сказать, что системы гибридного интеллекта представляют собой сложный, скорее даже, социальный феномен, возникающий при коллективном ведении интеллектуальной работы. Соответственно, любая организационная система, осуществляющая ИАР, со всеми основаниями может быть названа системой гибридного интеллекта.
По определению В.Ф. Венды[68], «гибридный интеллект — это механизм совместного прогнозирования живых систем в процессе опережающей взаимной многоуровневой адаптации с внешней средой, отличающийся тем, что каждая участвующая система располагает частной, фрагментарной, неполной информацией о динамике внешней среды, а совместно они синтезируют адекватную интегральную модель внешней среды и прогноз процесса взаимной адаптации со средой». Определение, безусловно, мощное, но почему бы тогда этот феномен не назвать иначе — коллективный интеллект?
Ответ прост: для конкретного приложения — для ИАР это определение нуждается в уточнении… Коль скоро понятие системы гибридного интеллекта охватывает феномен коллективной работы по анализу и обработке информации, то рассматривая системы гибридного интеллекта, следует уделить внимание и технологической компоненте ИАР, в частности — ее инструментальной подсистеме. Ведь сегодня для коллективного ведения ИАР широко используются средства телекоммуникационных сетей, различные инструментальные системы (те же майнд-мэпперы, наконец). Эти системы, подобно живым организмам, являются не только носителями информации, но и средствами ее интерпретации.
Собственно, и сам В. Венда ввел понятие систем гибридного интеллекта применительно к эргатическим (человеко-машинным) системам (например, комплексам управления атомными электростанциями и т. п.), но предпочел дать более общее определение. Мы же не можем довольствоваться общим определением — любая система, в которой ведется ИАР, очень чувствительна к качеству инструментального обеспечения, которое определяет виды и параметры информационных взаимодействий в системе, а значит, определяет и свойства системы в целом.
Одной из центральных проблем, осложняющих ведение ИАР, является отсутствие коммуникаций между экспертами. Увы, построение даже самой совершенной телекоммуникационной системы этой проблемы не решает. Человек часто остается один на один с проблемой — даже тогда, когда сидит в комнате, переполненной людьми. Коммуникация в системе ИАР — это, прежде всего, совместный творческий акт, а не возможность такового. Попробуем пояснить эту мысль…
Дело в том, что при общении наличие вопроса не всегда является побудительной причиной акта коммуникации (на момент инициации акта коммуникации вопрос может и не существовать, быть неосознанным). В ходе совместной ИАР вопрос часто становится следствием коммуникации. Осознанная же потребность в коммуникации (мне нужен совет Петровича) при ведении ИАР — это уже «почти ответ» на вопрос, так как вопрос является способом реализации активной стратегии добывания знаний, а отсутствие результата беседы с «Петровичем» способно повлечь за первым актом коммуникации и последующие. По этой причине неинтеллектуальная телекоммуникационная среда может повысить эффективность ИАР лишь в части, касающейся активных стратегий добывания знания.
А как быть с неосознанными, не сформулированными или еще не возникшими вопросами? Существуют ли пассивные стратегии добывания знаний? — Если считать, что ожидание новых данных — это стратегия, то, пожалуй, существуют. Сосредоточенное ожидание новых данных — это тоже вопрос, но вопрос «самого общего плана». В таком вопросе еще нет самого вопросительного слова — ни «что», ни «где», ни «когда».
Увы, очень часто вопрос, не спровоцированный внешними обстоятельствами, в принципе не может быть сформулирован на этапе ИАР. Это означает, что в неявном виде он переходит и в конечную информационную продукцию аналитика. В результате за рамками внимания руководителя остаются, возможно, наиболее существенные аспекты проблемы…
Какие механизмы выявления «незаданных вопросов» известны человеку? — Один из методов борьбы с такими «незаданными вопросами» — это диалог. Диалог — это эффективный способ «визуализации» системы рассуждений и сопоставления их с другой моделью мира.
Деятельность же аналитика «монологична» — в большинстве случаев аргументы и контраргументы формулируются им самим. При логическом анализе активно используется «более молодая» вторая сигнальная система, устойчивость функционирования которой намного ниже, нежели у первой сигнальной системы, опирающейся на рефлексы. Поэтому сам процесс ИАР обладает слабой устойчивостью по отношению к нерегулярным внешним раздражителям (тому, что не может быть «подавлено» на уровне автоматизма). Для многих, если не для большинства аналитиков при ведении напряженной аналитической работы даже поступление новой (а иногда и релевантной потребностям аналитика) информации может явиться тем раздражителем, который способен снизить его работоспособность.
Соответственно, возникает противоречие между потребностью в диалоге (раздражителе) и потребностью в изоляции от раздражителей. И вот тут, похоже, начинает проясняться суть проблемы: видимо, надо рассмотреть какие типы и режимы проявления раздражителей могут восприниматься как желательные, учредить некий регламент общения, а уж далее попытаться подчинить ему всю систему ведения диалога.
Деятельность человека подчиняется так называемому «закону колоколообразных кривых» (их вид показан на рисунке 4.4). Смысл этого закона заключается в том, что любое изменение ситуации приводит к временному снижению эффективности в результате возникновения дезадаптационного стресса.
Если рассматривать, например, процесс внедрения новой техники, программного обеспечения, призванных повысить эффективность решения тех или иных задач, то на протяжении некоторого времени, требующегося для адаптации, система снижает свою эффективность и процесс наращивания эффективности происходит с некоторой задержкой. Когда степень новизны слишком высока, то система после такого стресса может и не вернуться к прежним показателям эффективности (это происходит, когда исходный тезаурус принципиально несовместим с новым и не позволяет системе приспособиться к происшедшим изменениям). Но в целом, если последнее замечание учтено и преемственность тезауруса соблюдена, процесс роста эффективности системы подчиняется закону S-кривых. Аналогичные явления наблюдаются и в момент смены обстановки или появления новой информации.
Однако порог возникновения дезадаптационного стресса может быть повышен за счет специальных мероприятий. Отрицательный эффект от появления новых данных может быть снижен при выполнении следующих условий.
— данные релевантны текущим информационным потребностям аналитика;
— момент появления данных предсказуем;
— проблема интеллектуальной изолированности аналитика преодолена благодаря наличию мощной телекоммуникационной компоненты, обеспечивающей возможность получения доступа к дополнительным информационным массивам и консультаций коллег.
Обеспечить эти условия можно только при условии, что телекоммуникационная среда является «интеллектуальной», то есть, способна отслеживать текущие информационные потребности аналитика. Такая среда должна, по возможности, протоколировать логику рассуждений аналитика по некоторым внешним проявлениям и в фоновом режиме осуществлять поиск и отбор аргументов и контраргументов, потребность в которых еще только назревает.
В настоящее время для интеллектуализации рабочей среды аналитика чаще всего используются экспертные системы, но при анализе процессов, протекающих в организационных, организационно-технических, социальных и экономических системах, обладающих высокой динамикой, полнота эвристик, заложенных в экспертную систему (ЭС), не может быть обеспечена. Для того чтобы обеспечить необходимый уровень интеллектуальной поддержки ИАР, подход к построению баз знаний должен быть пересмотрен: из систем, предназначенных для хранения неизменяемых во времени знаний, они должны превратиться в системы, предназначенные для накопления эволюционирующих знаний.
При этом знания в таких системах должны проходить все этапы эволюции: от выявления факта повторяемости некоторых, еще не имеющих интерпретации, признаков — до установления их семантики и области применимости. Это очень важно, поскольку в обычных базах знаний экспертных систем свое отражение находят лишь те повторяющиеся сценарии, которым сопоставлена некоторая интерпретанта. Как правило, первый прецедент повторения некоторого сценария остается за рамками внимания эксперта, а тем более — неприспособленной для этого ЭС. Поэтому существует феномен латентной (скрытой, не обнаруженной) повторяемости, которую не могут выявить экспертные системы. Вероятно, читатель здесь вспомнит о системах data mining — это вполне логично: именно здесь они были бы весьма кстати.
Это значит, что следует идти по пути интеграции в коммуникационные среды систем искусственного интеллекта, хоть и не способных интерпретировать наблюдаемые явления, но способных распознать повторение некоторого сценария и оповестить об этом аналитика. Нечто похожее делают системы интеллектуального анализа данных при обнаружении отклонений от нормы. В худшем случае такая система лишь укажет аналитику на необходимость инициировать диалог, на существование потребности в консультациях, которые могут быть получены только в результате непосредственного общения с экспертом, а в лучшем — позволит аналитику самостоятельно сопоставить информационный контекст (интерьеры) событий и выдвинуть гипотезу о значении повторно наблюдаемого процесса.
В рамках разработок в области автоматизированных систем поддержки электронного бизнеса класса B2B (Business to Business — уровень взаимодействия корпоративных субъектов экономической деятельности) постепенно начинает формироваться комплекс подходов и технологий, приближающих момент решения этой проблемы. Имеются в виду интеллектуальные приложения на базе автономных программных агентов и языков гипертекстовой разметки, пытающихся учесть специфику поведения и интересов посетителей электронных торговых площадок в ГСТК Интернет, с тем, чтобы адаптироваться к их индивидуальным потребностям, поведению и предоставить им именно те сведения, которые могут потребоваться.
Еще одним немаловажным аспектом ИАР является то, что факт отсутствия ожидаемых данных также является информацией для аналитика. Использование сведений такого рода возможно тогда, когда существует некая модель, определяющая ожидания аналитика относительно момента появления данных, подтверждающих те или иные события. Но часто при построении систем автоматизации ИАР этот аспект работы аналитика игнорируется, а аналитик, увы, не всегда в состоянии помнить о том, что в тот или иной момент времени после события А должно наступить событие Б, сопровождающееся появлением данных Д(Б) — для этого следует помнить не только последовательность событий но и их информационный контекст (интерьеры).
Таким образом, решению проблемы ослабления дезадаптационного стресса, вызываемого неполнотой знаний аналитика и системы эвристик ЭС, могут служить именно системы гибридного интеллекта. «Гибридность» таких систем должна заключаться не только в том, что благодаря системе коммуникаций между отдельными субъектами ИАР формируется коллективный разум, но и в том, что коллективный разум должен включать в себя и те компоненты, которые обеспечиваются средствами автоматизации в виде систем искусственного интеллекта и экспертных систем. С одной стороны, такие системы призваны решать проблему интеллектуальной изолированности аналитика за счет создания среды информационного взаимодействия, а с другой — управлять режимом предоставления данных, брать на себя функции управления поиском и отбором релевантных текущей работе аналитика.
Как это может быть сделано?
Прежде всего, подобная система (система гибридного интеллекта) должна быть интегрирована с инструментами типа майнд-мэпперов, которые должны стать одним из основных инструментов работы аналитика, за счет чего может быть осуществлена формализация системы рассуждений аналитика, включая и ссылки на данные, положенные в основу аргументации. Впрочем, если бы имели место проговаривание рассуждений, их регистрация, распознавание речи, логико-лингвистическая обработка высказываний и автоматическое построение логико-лингвистических структур, отражающих рассуждения аналитика, было бы и того лучше. Такие модели с применением средств лингвистической обработки текстов могут быть подвергнуты автоматизированному анализу, за счет чего система сможет сформулировать поисковые задания для подбора аргументации, провести поиск ранее отмечавшихся сценариев анализа и предложить дополнительные массивы данных, а также сведения о возможных дополнительных источниках информации. Еще одна возможность, представляющаяся вполне реализуемой при современном уровне развития информационных технологий — это возможность отыскания шаблона сценария анализа, характерного для данного аналитика. Что позволяет предложить ему для ознакомления группу сценариев анализа, полученных в результате протоколирования работы других аналитиков.
Кроме того, используя лингвистические технологии, системы гибридного интеллекта способны регламентировать процесс информационного взаимодействия между аналитиками как на уровне представления данных, так и на уровне управления временными параметрами процесса коммуникации. Благодаря первой группе регламентов может быть снят (или ослаблен) стресс дезадаптации, вызванный различиями в способах представления данных, а благодаря введению временных регламентов может быть снижен эффект неожиданности акта коммуникации, сформирована привычка к разбиению ИАР на временные интервалы, посвященные различным видам активности.
Однако и это не все положительные свойства таких систем… Они могут стать мощным инструментом подготовки аналитиков, их ввода в контекст текущей ситуации, формирования рабочих групп в распределенных средах, что очень важно в крупных территориально распределенных информационно-аналитических службах государственного и ведомственного подчинения, диспетчирования информационных потоков по информационным направлениям и так далее.
Комментированному перечислению преимуществ такой идеологии построения систем комплексной поддержки ИАР можно было бы посвятить еще много страниц. Но мы предоставляем читателям возможность, как-нибудь на досуге, самостоятельно поразмышлять в этом направлении.
Класс инструментальных средств поддержки процессов анализа данных — это весьма пестрый по составу класс, объединенный одним свойством входящих в него средств: все они направлены на преодоление проблемы большой размерности. Сущность проблемы заключается в том, что человек, хотя и устроен как мощнейшая система анализа и обработки данных, но система эта обладает недостаточно мощной подсистемой сбора данных. Она, эта подсистема сбора данных, обладает относительно низким разрешением, инерционна и обладает множеством иных недостатков. Отсюда это стремление к созданию все новых инструментальных средств, расширяющих возможности органов чувств… Но, как только очередная проблема этого сорта решена, так сразу появляются проблемы коммуникации с очередным созданным инструментом, преодоления избыточности массива измерений, обеспечения избирательности и иные — то есть, все то, что порождено высокой размерностью массива измерений. Эти проблемы порождены «неинтеллектуальностью» инструментария сбора данных.
В результате человек концентрируется на изыскании путей снижения размерности, выделения именно тех фрагментов данных, которые представляют интерес для решения конкретной проблемы, сведения процесса анализа к оцениванию минимального числа интегральных показателей, позволяющих с заданной точностью решать те или иные задачи.
В принципе, весь инструментарий ИАР может быть по ряду признаков отнесен именно к этому классу, однако лучше всего в этот класс вписываются средства статистической, корреляционной и спектральной обработки результатов наблюдений. Наибольшее распространение получили здесь программные комплексы статистической обработки данных.
Для пользователей, имеющих дело со сверхбольшими объемами данных, характеризующихся высоким уровнем формализации представления, серьезной альтернативы использованию этого класса программного обеспечения пока нет. Сегодня на этом рынке лидируют профессиональные западные пакеты статистической обработки и среды математического моделирования. В большинстве из них реализованы специальные высокоуровневые языки программирования для реализации собственных алгоритмов обработки данных. Их разработка осуществляется путем комбинирования готовых подпрограмм, поставляемых с данным программным продуктом в специализированных библиотеках. При этом задача пользователя состоит, главным образом, в исследовании информативности и выделении наиболее информативных признаков функционирования объекта изучения, установлении взаимосвязи между их изменениями и состоянием объекта. Кроме того, пользователям предоставляется возможность разработки собственных процедур с применением встроенных средств разработки или внешних сред программирования.
Существует условное деление инструментальных средств этого класса на профессиональные (специализированные) и универсальные, не имеющие привязки к отрасли исследований программные продукты. Безусловно, специализированные программные продукты за счет адаптации к классу решаемых задач обладают большей эффективностью при решении прикладных задач в заданной области исследований, но при проведении междисциплинарных исследований универсальным средам альтернативы нет. Поэтому на рынке представлены как специализированные системы обработки данных (например, предназначенные для экономических или социологических исследований), так и универсальные системы.
Универсальные пакеты обладают несколько меньшими возможностями. Но, с другой стороны, их стоимость значительно ниже, чем стоимость профессиональных. Универсальные пакеты во многом схожи по составу методов обработки, реализованы по модульному принципу и за счет обращения к процедурам и функциям операционной системы упрощают работу с графикой и интерфейсными элементами. Однако, при приобретении таких систем следует убедиться, что они действительно реализуют требуемые методы и алгоритмы обработки данных.
Существует около тысячи распространяемых на мировом рынке пакетов, решающих в том или ином виде задачи статистического анализа данных, и реализованные для различных операционных систем.
Среди западных универсальных пакетов наиболее известны и выделяются высоким качеством системы SAS (SAS Institute), SYSTAT, SPSS[69] (SSPS Inc.), Minitab (MiniTab Inc.), Statgraphics (Manugistics, Inc.), Statistica (StatSoft, Inc.). Все эти продукты реализованы на высоко профессиональном уровне, а их производители активно осваивают все новые и новые «ниши» аналитики, обращаясь к технологиям анализа текстов, интеллектуального анализа данных, операционному анализу и иным отраслям, связанным с анализом данных. Заметим, что в последние годы усиливается тенденция к специализации по отраслям — на базе основной версии выпускаются программные продукты, адаптированные к решению задач в медицине, экономике и т. д.
Особый класс программного обеспечения, представленного на рынке, — это специализированные библиотеки подпрограмм обработки данных, предназначенные для встраивания в прикладные программные продукты, разрабатываемые силами собственных отделов автоматизации организаций, нуждающихся в проведении тех или иных исследований. В этом классе несомненными лидерами являются библиотека численных и статистических методов IMSL (Visual Numerics) и библиотека S-Plus (AT&T Bell Labs), сочетающая в себе как библиотеку подпрограмм, разработанных на объектном языке программирования S, так и интерактивную среду-интерпретатор, которая обеспечивает возможность полноценного графического анализа данных. Кроме того, существует масса других библиотек, в том числе, и бесплатно распространяемых через ГСТК Интернет.
Следует заметить, что в СНГ также интенсивно развивается направление, связанное с разработкой программного обеспечения для статистической обработки данных. К классу полу-универсальных могут быть отнесены российские пакеты STADIA[70] (НПО «Информатика и компьютеры»), ОЛИМП (ЗАО «CPS») и белорусский пакет РОСТАН (Белорусский Государственный Университет). Имеются примеры создания специализированных систем для решения задач классификации и снижения размерности, например: КЛАСС-МАСТЕР (Научное изд-во «ТВП»), КВАЗАР (ИММ УрО РАН), PALMODA (ВЦ РАН), Stat-Media (ЗАО «Полихимэкс») и иные. Кроме того, на рынке представлены и статистические экспертные системы, например, СТАТЭКС (РМ и ПК, Казахстан).
Довольно интересный класс программного обеспечения представляют собой системы, ориентированные на решение задач снижения размерности, классификации и анализа данных. Эти системы используют комбинацию методов статистической и нейросетевой104 обработки данных. В этой области столь эффективно работают такие гиганты, как SAS (серия продуктов SAS Data and Text Mining) и SPSS, создающие программные продукты, сочетающие мощь статистических методов обработки с методами нейрокомпьютинга. Среди наших разработчиков следует отметить ВЦ РАН (ЛОРЕГ), ЗАО «Megaputer» (система PolyAnalyst), НПИЦ «Микросистемы» (система TextAnalyst), фирму «Контекст» (пакет «ДА-система») и «MediaLingua» (система Классификатор).
Следует помнить, что сами по себе результаты статистической обработки и статистические данные, без модели их интерпретации, лишены какой бы то ни было ценности. Для аналитика крайне важны не просто некоторые наборы величин (рождаемость ли, стоимость ли «потребительской корзины»), а их динамика во времени, модель эталона или нормы, используемая при проведении анализа, точность и тому подобные сведения.
Рассмотренные ранее классы систем, увы, не могут претендовать на роль аналитика, поскольку таковых моделей не продуцируют. Все эти системы, сколь бы совершенны они ни были, продуцируют лишь данные. Заметим, что человечество уже приблизилось к тому рубежу, когда встала проблема измерения стоимости информационных продуктов типа «знание» и «модель». Именно они определяют функциональные возможности программного обеспечения, стоимость которого на самом деле относительно легко исчислить. Для продуктов же, именуемых этими словами, такой расчет произвести крайне сложно — проблем здесь существует масса: от определения авторства (особенно при коллективной научной деятельности) — до определения реального социально полезного времени, затраченного на синтез нового знания.
В настоящее время на Западе ведутся активные философские (и не только философские, но и с привлечением менеджеров в области научных изысканий и информационного бизнеса) дискуссии на эту тему, вызванные изменением экономических и, прежде всего, социальных приоритетов. Тема, сама по себе, интересная, но она лежит за рамками обсуждаемой в этой книге тематики.
Средства представления и доведения результатов ИАР до потребителя образуют весьма своеобразный класс инструментальных средств, находящихся «на вооружении» аналитика. С одной стороны, они имеют много общего со средствами визуализации и отображения данных, и лишены «самостоятельности», поскольку часто интегрированы в иные инструменты. Но если взглянуть на эти средства с другого ракурса, то убеждаешься в том, что это совершенно самостоятельный комплекс инструментов.
Да если попытаться классифицировать эти системы по типу данных, которые должны быть представлены посредством этих систем, то получится довольно жалкая картина: получим спектр от видео до аудио с переходом через мультипликацию, неподвижную графику, текст и бегущую строку.
Символьные и не символьные данные, статические и динамические… Становится ясно, что речь идет о предельных возможностях подсистемы отображения, поскольку именно ее возможности определяют то, в каких сочетаниях эти данные могут быть представлены потребителю. До изобретения граммофона, кинематографа и способа построчного считывания графических данных речи о динамике и быть не могло. Ну, а когда была изобретена электронно-лучевая трубка, подвижная графика стала приобретать все большее значение. Компьютерные системы, сменив принцип отображения данных (отказавшись от знакосинтеза в пользу графики), позволили совершить резкий скачок от прежних способов представления результатов анализа к новейшим, использующим гипертекстовую технологию. Именно они сделали возможным, оптимальным способом сочетая все эти типы данных, быстро и дешево создавать документы, обладающие высокой выразительностью.
Итак, какие инструменты подготовки отчетной документации, представления и доведения результатов работы до потребителей имеются в распоряжении аналитика? Перечислим по группам:
1. Средства поиска данных и подбора аргументации:
— поисковые программы (MS Fast Find (поиск файлов), Следопыт, поисковые машины ГСТК Интернет и т. д.);
— системы сканирования графики и распознавания текстов (сканеры, ABBY Fine Reader, CuneiForm и др.);
— системы автоматического перевода (Magic Goody, Promt, Socrat, Stylus и др.);
— системы автоматического реферирования и классификации (TextAnalyst, TextMiner и др.).
2. Стандартные средства разработки текстовых документов:
— обычные и профессиональные текстовые редакторы и процессоры (MS Word, TeX, Lexicon, Adobe PageMaker и др.);
— табличные процессоры (MS Excel, Lotus Notes и др.);
— интеллектуальные редакторы (поиск и подбор синонимических пар + эмоциональная аттестация — программы «Приемы журналистики и public relations», «HeadLiner/Заголовщик» фирмы TRIZ Chance);
— редакторы формул (TeX, LaTeX, MathType и др.);
— графические редакторы (Adobe PhotoShop, Adobe Illustrator, Corel Draw и др.).
3. Средства эмоциональной аттестации документов:
— средства контент-анализа текстов (V AAL и др.);
— интеллектуальные редакторы с элементами контент-анализа.
4. Средства иерархического упорядочения данных:
— системы протоколирования рассуждений типа майнд-мэпперов;
— системы автоматизированнной классификации и реферирования.
5. Средства разработки гипертекстовых документов:
— редакторы с поддержкой языков гипертекстовой разметки SGML, XML и HTML с сетевой ссылочной структурой и поддержкой мультимедиа;
— текстовые процессоры последних поколений (в том числе, MS Word).
6. Средства генерации стандартных формализованных отчетов:
— стандартные генераторы отчетов СУБД;
— интеллектуальные надстройки над СУБД с возможностью автоматического размещения и аранжировки полей вывода.
7. Средства построения графиков и диаграмм (интегрированные и специализированные).
8. Средства разработки электронных презентаций, деловой графики и анимации (PowerPoint, Lotus Freelance, Visio, Corel Draw, Adobe Premiere и др.).
9. Средства переноса документов на материальные носители и отображения электронных документов.
Как видим, арсенал инструментов внушительный… Более того, технологии мультимедиа сделали возможным использование основных каналов ввода информации в систему типа «человек» с низкими временными и финансовыми затратами. Но пока эти технологии привязаны к системе отображения — к компьютеру. А это значит, что еще долгое время бумага и ее заменители сохранят свои позиции в качестве основного носителя данных, для которого не требуются специализированные средства считывания. Поэтому вернемся к «бумажному» документу, как основному посреднику между аналитиком и потребителем.
При существовании длительного и стабильного взаимодействия с потребителем аналитической продукции крайне важно сформировать некий стандарт ее представления. Здесь, при условии, что тематика исследований является традиционной и не требует введения в проблему, могут быть широко использованы шаблоны, формальные метки и табличное представление данных. При этом потребитель уже располагает моделью интерпретации документа, обращает внимание именно на те его фрагменты и рубрики, которые отвечают его потребностям. «Контрольные точки» документа могут быть опрошены в кратчайшее время, что, безусловно, удобно.
Однако сохранение формы подачи материалов при изменении ситуационного контекста способно сыграть с потребителем (да и с аналитиком) злую шутку. Приученный к системе стандартных «контрольных точек» потребитель может пропустить момент смены семантики полей, важную информацию, размещенную вне «зоны внимания». Таким образом, отчет, содержащий новые положения должен выделяться по стилистике и правилам формализации из общего потока данных, поступающих к заказчику. Всякая стандартизация имеет как положительные, так и отрицательные последствия… К примеру, тот же ГОСТ… с одной стороны, его соблюдение при оформлении документов (в том числе, проектно-конструкторской документации) крайне важно, поскольку упрощает процессы интерпретации и обработки данных (особенно при использовании автоматизированных систем обработки информации), а с другой — делает задачу выделения важной информации крайне сложной. Трудно представить себе, сколько аварий и поломок аппаратуры произошло по вине… выполненных в соответствии с ГОСТом инструкций по эксплуатации, отпечатанных «слепым» машинописным шрифтом!
Иерархизация представления и выделение формальной структуры релевантности текста — один из путей решения проблемы «сановного невежества». Очень часто наших руководителей упрекают в этом грехе (вернее, упрекали — теперь-то принято искать злой умысел). Представьте себе текст, сплошь составленный из пунктов формально равной значимости… — его следует читать целиком, без пропусков и ослабления внимания (а таких текстов — тьма-тьмущая). Обнаружив, что автор документа в начале списка поместил важный пункт и перешел к частностям, читатель формулирует гипотезу о дальнейшем снижении значимости по мере продвижения к концу перечня, и пропускает его оставшуюся часть. Введение в документ элементов, подчеркивающих иерархическую структуру текста позволяет потребителю (тому самому начальнику), следуя исключительно формальным правилам анализа структуры релевантности текста, принимать решение о необходимости погружения в систему аргументов, раскрывающих положения верхнего уровня. Способов выделения формальной структуры релевантности текста — масса: начиная от манипуляции отступами и введения пиктографических обозначений, и заканчивая введением специального раздела, в графическом виде отражающего структуру документа.
По сравнению с так называемой «hardcopy» — бумажной копией документа, электронные документы обладают большей гибкостью и выразительностью. Начиная от возможностей управления начертанием и атрибутами шрифтов, комбинирования способов представления данных в диапазоне от статики до динамики, от видео до аудио, и заканчивая реализацией диалогового режима и способности документа с применением вызовов системных функций реагировать на события — все эти возможности могут быть использованы квалифицированным исполнителем документа. Встраивание в документ фрагментов аудио и видео записей, элементов анимации стало по силам даже непрофессиональному пользователю.
Все то, что было сказано о документах на бумажном носителе, может быть отнесено и к электронным документам, но с учетом их расширенных возможностей. Структура релевантности здесь может быть подчеркнута за счет использования древовидного представления списков с возможностью их свертывания и раскрытия, с применением гипертекстовых ссылок в документ может быть интегрирован глоссарий, вызов которого может быть осуществлен щелчком кнопки манипулятора «мышь». Кроме того, широко используются панели навигации, возможности управления стилями и иные технологические изыски.
В зависимости от формы взаимодействия с потребителем (передача отчетного документа на том или ином типе носителя, собеседование, публичный доклад, защита проектного решения) для доведения результатов работы до сведения потребителя могут быть избраны различные средства (начиная от самого документа и заканчивая плакатами, проекционной аппаратурой и т. д.). Например, в крупных аналитических центрах и организациях, регулярно потребляющих разноплановую аналитическую продукцию, широко используются специально оборудованные ситуационные центры, конференц-залы и визуализарии[71]. Интересно, что часто, увлекаясь идеей максимального использования технических возможностей подсистемы отображения, докладчик теряет контроль над аудиторией. Виной тому — неспособность рассчитать, а иногда и обеспечить необходимое время экспозиции на экране презентационной техники отдельных положений доклада. Следствием этого может стать очень интересный результат: в целом доклад прошел хорошо и вызвал благоприятное впечатление, но идеи докладчика восприняты не были — осталось лишь это приятное впечатление от доклада (формы, внешней оболочки)… Иными словами излишний динамизм и глянцевитость доклада могут привести к замещению его сути. Как часто ответом на вопрос: «Есть ли вопросы к докладчику?» становится тишина — докладчик съел свой доклад — жаль (если, конечно, это не было его целью).
Как видим, и здесь ничто не может заместить живое участие автора документа. Но что же тогда действительно способны дать эти новые технологии аналитику, для которого этап представления и доведения результатов анализа до заказчика является чуть ли не более ответственным и напряженным, чем вся предшествовавшая работа? — И много и мало — скорость и комфорт (то есть, то, за что человек сражается многие столетия), да в некоторых случаях еще и возможность предсказать реакцию усредненной аудитории.
Создано ли что-нибудь принципиально новое, способное многократно повысить восприимчивость потребителя аналитической продукции к выводам аналитика? — Странно, но ответить однозначно не получается… И «да» и «нет». По существу, пусть и не на том технологическом уровне, но все способы доведения (именно, доведения!) результатов работы аналитика до сведения потребителя существуют уже много веков. Эти методы активно эксплуатируются со времен античного театра (!), и не «просто так», а с опорой на науку[72]. Речь об этом зашла неслучайно: получив в распоряжение методы и средства динамического отображения данных, аналитик может использовать «театральные» методы с разной эффективностью. Если хотите, по окончании доклада, так же, как и после театрального действа потребитель информации должен ощутить катарсис (переводя слова Аристотеля на современные «понятия» — духовное очищение, сопровождающееся готовностью творить). Благодаря знанию закономерностей восприятия данных различного типа можно даже жалкие результаты представить так, что они будут приняты с исключительным вниманием и вызовут желаемую реакцию. Но точно так же, безграмотное использование выразительных возможностей этих средств может загубить самые ценные выводы, полученные путем проведения сложных и дорогостоящих исследований.
Умение использовать психологические особенности потребителя на этапе доклада способно многократно улучшить произведенное впечатление, добиться лучшего усвоения и большей убедительности выводов. Доклад должен содержать интригу, кульминацию и развязку, а средства отображения должны работать на докладчика, а не против него. Например, при использовании средств динамического отображения длительность экспозиции значимых данных должна быть максимальной (этим правилом часто пренебрегают при проектировании слайдов в программах разработки презентационной графики), длительность же экспозиции аргументов, приводимых в подтверждение основных утверждений, может быть меньшей. Преждевременное появление на экране новых сведений способно снизить внимание к докладу, а частая смена слайдов может вызвать раздражение. Демонстрация видеоролика отвлекает внимание, поэтому на время его демонстрации лучше прервать доклад (комментарии по ходу показа допускаются, хотя часто техника стоп-кадра оказывается предпочтительнее). Очевидно, что рекомендаций можно дать массу. Но никакие технические ухищрения не смогут исправить впечатление, испорченное отсутствием логики в повествовании, стилевыми или композиционными ошибками.
Представьте себе презентацию, посвященную проблемам борьбы с терроризмом, в которой для пометки пунктов перечня мероприятий, направленных на стабилизацию обстановки, используются значки типа бомбы с зажженным запалом или — еще «лучше» — черепа с перекрещенными костями. Но неужели в других приложениях это будет воспринято намного лучше? Может быть, в фармацевтике или в строительном бизнесе? Но сколько ни убеждай людей, что эти значки имеют собственный смысл, стиль и эмоциональную нагрузку, что не имеет смысла вставлять абы что, лишь бы «украсить» графикой — нет-нет, да и нарвешься на такой шедевр (и чем глубже автор презентации закопался в своей отрасли знаний, тем чаще это случается!).
Даже традиционные носители символьных данных, с которыми мы привыкли обращаться легко и непринужденно, и те таят в себе часто нераскрытый потенциал воздействия, управления процессом чтения.
Достаточно ознакомиться с книгами, посвященными теоретическим основаниям техники быстрого чтения, как начинаешь понимать, что в знаковых системах есть все, что требуется для управления не только «трансляцией», но и ее темпами. Используя те закономерности, которые мешают читать быстро и вызывают регрессии (возврат фокуса зрения в уже пройденную точку), автор способен заставить читателя менять режим чтения, например:
— перевести в «пошаговый режим» чтения;
— повысить, понизить или выровнять скорость чтения;
— дать возможность выбора степени детализации;
— создать ему условия для мгновенного отбора «важных положений».
Цифры, аббревиатуры, разреживание и шрифтовые выделения, ширина отступа «красной строки», буквица, высота абзаца, междустрочный интервал, авторская пунктуация, намеренные (но простительные!) ошибки, сужение и расширение колонки текста (в том числе из-за «произвольного» размещения рисунка), композиция (линейная, циклическая, мозаичная) — вот далеко не полный перечень инструментов управления процессом чтения.
Здесь мы сочли нужным остановиться. Технологий создано множество — обо всех не расскажешь… Ничего удивительного в этом нет — статистика показывает, что ежемесячно в области компьютерных технологий появляется порядка 300 устойчивых терминов и того больше — аббревиатур. И появляются они не просто так — за каждым стоит нечто новое и, возможно, полезное для аналитика. Другое дело, что это новое, скорее всего, укладывается в тот или иной пункт классификации, совершенствует ту или иную технологию из числа пусть вскользь, но рассмотренных нами.
Мы не ставили перед собой задачи рассказать все и на таком высоком профессиональном уровне, что «бери паяльник, садись и ваяй, как по нотам». Но многие идеи и концепции, представленные в данной книге во многом уникальны по содержанию и, как нам кажется, изложены достаточно ясным языком.
Но все же, для практика самое ценное в аналитике — это те методики, которые прошли многократную апробацию, доказали свою эффективность при решении конкретных задач. Как мы ни старались систематизировать все методы, технологии, методики, все равно многие прикладные методики попали в главы общетеоретического значения, а изрядная порция теории прокралась в технологический блок. Такова аналитика — в ней практика тесно переплетена с теорией, а технические науки и информатика — с философией. Видимо в этом и заключена ее прелесть.