Журнал «Компьютерра» №39 от 25 октября 2005 года - читать бесплатно онлайн полную версию книги автора Журнал 611 Компьютерра (ГОЛУБЯТНЯ: Возвращение поросячьего восторга. Часть первая) #13

ГОЛУБЯТНЯ: Возвращение поросячьего восторга. Часть первая

Одноименная «Голубятня» засветилась в эфире пять лет назад. Тогдашние пограничные переживания навеял текстовый редактор Ильи Ульянова CryptEdit (ныне - PolyEdit). От читателей наверняка не ускользнуло, что колонка наша страдает повышенной эмоциональной неуравновешенностью, однако подлинные срывы (как в положительную, так и в отрицательную стороны) случаются редко. Сегодня аккурат тот самый случай. Программа, о которой пойдет речь, - ContentSaver, сразила меня не столько своей функциональностью, сколько мистической провиденцией. Сейчас поясню.

Когда незнакомые люди спрашивают: «Чем вы занимаетесь в жизни?», сразу теряюсь, бормочу нечленораздельное, заикаясь отшучиваюсь. В самом деле, что сказать-то? Ращу сына? Пишу статьи о компьютерных программах и книги об аферистах? Преподаю биржевой трейдинг? Страдаю астрологией и бриджем? Это, однако, частности. По гамбургскому счету своим главным занятием в жизни полагаю изыскание, накопление, обработку и анализ информации - все вместе Data Mining (оборотик хоть и гаденький, английский, но уж больно емкий). Между прочим, занятие это самым недвусмысленным образом прописано в моем гороскопе: Асцендент в Близнецах и там же Меркурий, увешанный гроздьями аспектов. Короче, если долго объяснять, то что-то путное и получится, а так, на лету, незнакомым людям разве ж можно ответить: «Видите ли, я датамайнингист»? Либо сразу прибьют, либо заподозрят в нетрадиционных сексуальных домогательствах.

Возвращаюсь к провиденции. Конечно, лопатя тонны софтверного навоза, с годами удалось отыскать ослепительные диаманты и в Data Mining. Особенно повезло с обработкой и анализом информации, поскольку судьба подарила нам такое бесценное сокровище, как Cros, о котором писал, пишу и не перестану писать как о лучшей программе для создания структурированных информационных архивов и поиска в них. К превеликому сожалению, разработчики Cros практически прекратили совершенствовать свое детище, что печалит несказанно: какой бы замечательной ни была программа, работы в ней еще непочатый край - и радикальное преобразование наижутчайшего интерфейса, и непременное расширение функциональности, и глобальное переосмысление концепции в сторону user-friendly. Остается лишь удивляться гигантскому заряду мощности, заложенному в Cros уже сегодня, коли даже все перечисленные недостатки не в состоянии сместить колосса со своего пьедестала The Best.

Неизмеримо хуже обстояли дела с программным обеспечением стартового этапа Data Mining - накоплением информации[Как вы догадываетесь, стадию изыскания я сознательно опустил, поскольку процесс этот субъективный и зависит не от софтверного обеспечения, а от таланта и опыта датамайнингиста (прости господи!)]. За долгие годы поиска не удалось найти ничего лучше китайской MyBase - программы во всех отношениях убогой, хотя и выделяющейся из когорты еще более убогих аналогов. От херема MyBase спасал удачный модуль WebCollect, позволяющий собирать информацию из MSIE. Этим летом разработчики (Wjjsoft) добавили модуль WebCollect для браузера FireFox, однако у меня он так и не заработал. Да и с Opera MyBase взаимодействовать не научился.

Провиденция ContentSaver заключается в том, что программа блеснула на моем горизонте аккурат в момент, когда недостатки MyBase стали доводить меня даже не до отчаяния, а до белого каления. Из-за врожденной концептуальной ущербности китайская программа медленно, но верно привела все мои информационные архивы в состояние безнадежной энтропии и бардака. Какой, к черту, MyBase архивный систематизатор! Самый банальный накопитель заметок, к тому же подленький по натуре.

Поначалу жизнь кажется в шоколаде: находим какую-нибудь интересную заметку в Интернете, выделяем часть текста или страницу целиком, вызываем контекстное меню (опция Save to MyBase) и сохраняем заметку в уже существующем либо новом документе MyBase, который теоретически должен объединить в будущем данные общей тематики. Внутри своего документа MyBase организует информацию в банальной древовидной форме. Возможности динамической обработки материалов мизерны: можно экспортировать заметки из документа в файлы html, txt или другой файл MyBase либо перетащить заметку из одной ветки дерева в другую. Всё! Поиск в Mybase реализован чудовищно - достаточно сказать, что отсутствует функция выделения (хайлайтинга), поэтому отыскать что-либо в какой-нибудь заметке килобайт под пятьдесят нереально: программа открывает ее целиком, а дальше рой сам!

Неудивительно, что я всегда использовал MyBase в качестве незамысловатого контейнера a-la CHM: скидываешь всю информацию в документ MyBase только ради того, чтобы ничего не потерялось по ходу. Затем экспортируешь все заметки из документа в какое-нибудь место на жестком диске и загоняешь их в Cros для индексирования и последующего быстрого поиска по ключевым словам и фразам. Никакой самостоятельной ценности в качестве архивного систематизатора MyBase не имеет.

Подобная схема работы туда-сюда приемлема для выполнения единичных задач, например сбора материалов для статьи. Скажем, все свои аналитические «предпринимательские поэмы» в «Бизнес-журнале» я подготавливаю именно таким образом: собираю в документ MyBase материалы из множества разноплановых источников (газетные заметки, журнальные обзоры, протоколы судебных заседаний, рекламные проспекты и т. п.), все это перечитываю, перевариваю, формулирую собственную концепцию и видение предмета, затем сажусь писать. Если забываю дату или фамилию, тут же извлекаю ее из индексированного архива Cros, который создаю из заблаговременно экспортированных из MyBase файлов. Сдав статью в редакцию, благополучно забываю обо всем и через две недели готовлю новые материалы.

Прошли месяцы, прошли годы… Что же я получил на сегодняшний день? Сотни файлов с расширением NYF (документы MyBase), никак между собой не связанные, не обработанные, не осмысленные и абсолютно бесполезные для какого бы то ни было применения. Вопреки возлагаемым поначалу надеждам документы MyBase оказались такой же макулатурой, что и несчетные документы html, doc и txt, сваленные в кучу и годами пылящиеся на антресолях директории «Documents» на одном из жестких дисков. Тоскливые памятники впустую растраченным интернет-часам, подхваченным, поматрошенным и брошенным благим намерениям, начинаниям и инициативам. Кладбище несбывшихся амбиций, одним словом.

***

А все почему? Все потому, что подлинный архивный систематизатор должен обладать гораздо большей функциональностью, нежели примитивная древовидная система хранения материалов. Навскидку: праздно шатаясь по Интернету, бывает, наталкиваешься на информацию, которой в настоящий момент не находишь никакого применения, однако чувствуешь, что в перспективе она очень пригодится для самых разных тематических исследований. Вопрос: в каком документе MyBase следует эту информацию сохранить? Разумеется, ни о каком документе не должно быть и речи. Требуется полноценный объединенный архив, наделенный функцией категориальной индексации, что позволяет соотносить одни и те же данные с различными тематиками.

Пример из личной практики: как-то раз, собирая материалы о «Маттел» (деловой мамке куклы Барби), наткнулся на статью об использовании детского труда на китайской фабрике компании. Тема эта показалась мне чрезвычайно фактурной, однако никаким боком не вписывалась в задуманную канву сюжета, посему я отложил ее до лучших времен, сохранив в документе MyBase под названием Mattel.hyf. И что же? Прошло три года, и буквально на прошлой неделе, работая над статьей для «Бизнес-журнала» о так называемом китайском экономическом чуде, я вдруг вспомнил о рабовладельческой тематике, которая как нельзя кстати вписывалась в новую историю. Открываю Mattel.nyf и нахожу добрые полтораста заметок и файлов, собранных в кучу без всякого разбора. Битый час ищу барбийных детишек-рабов и… не нахожу! Почему? Потому что их нет в этом документе MyBase. Пятнадцать минут недоуменно ионического (типа - баранного) созерцания потолка таки навели на истину: дело в том, что тема использования детского и рабского труда всплывала в моих исследованиях раз пятнадцать! Да чего уж там: практически все пиндосские фирмы закрывают глаза на трудовые безобразия, творимые китайскими менеджерами на своих заводах. Сорокачасовая рабочая неделя, смехотворная зарплата, отобранные паспорта, колючая проволока вокруг предприятия, проживание здесь же на территории завода в бараках по пятьдесят человек - все это вполне житейские и банальные составляющие великого китайского экономического прорыва.

Ну да черт с ним, с прорывом: куда я запихал материалы? С трудом вспоминаю, что года полтора назад, когда количество информации перешло в качество, решил его перескладировать и, собрав воедино все китайские ужастики, экспортировал в какой-то другой документ MyBase… А вот в какой - убей, не помню!

Что можно сказать об этом безобразии? Позор! А ведь путаницы можно было элементарно избежать, если бы вместо MyBase у меня был полноценный архивный систематизатор, способный производить категориальную индексацию всех собранных материалов. Тогда бы изначально я сохранил статью про китайские фабрики «Маттел» в нескольких категориях: «Маттел», «Китай», «детский труд» и т. п. Добавьте сюда полноценный поисковый аппарат с (как минимум) возможностью перекрестного поиска по разноплановым архивам, и вы получите настоящую составляющую взрослого Data Mining для накопления информации!

Короче говоря, такая недетская софтина нашлась - это немецкое чудо по имени ContentSaver, программа столь разнообразная и могучая, что для ее описания я запланировал по меньшей мере две колонки. Овчинка, поверьте, выделки стоит. Если бы я ограничился поверхностной презентацией, типа: «Вот вам тут одна замечательная прога, качайте ее и кайфуйте!», велика вероятность, что читатель просто прошел бы мимо, не оценив всей масштабности и универсальности ContentSaver. Между тем это не очередная поделка на тему «авоськи для веб-серферов», а (как, надеюсь, мне удалось ее позиционировать сегодня) революционная компьютерная программа, заполняющая собой вопиющую брешь в единой цепи Data Mining. Именно так и никак иначе.

Помимо этого, ContentSaver - программа довольно сложная и требует обстоятельного представления. Только не нужно пугаться: сложность эта совершенно иного порядка, чем недружелюбный в плане пользовательского интерфейса Cros. Работать с ContentSaver бесконечно просто и приятно: установил и уже через пять минут поехал. Вот только без должной подготовки и представления ехать придется со скоростью детского трехколесного велосипеда. Дело в том, что в ContentSaver есть огромное количество функций, которые в первом приближении полностью скрыты от глаз неподготовленного пользователя. Поскольку легкость и удобство работы с программой феноменальны, велик шанс, что самостоятельно до всех этих тонкостей ContentSaver вы никогда и не доберетесь - не по наивности, разумеется, а от изнеженности: «Чего, мол, огород городить, коли и так все замечательно?» Вот только неправильно это: использовать болид «Формулы-1» в качестве самоката! Так что - продолжим через неделю.

Линки, помянутые в «Голубятне», вы найдете на домашней странице internettrading.net/guru.