alex_odessa (alex_odessa) wrote,
alex_odessa
alex_odessa

История одного расследования

Не единственно пикап является моей областью интереса. Ранее об этом я особо не писал. А сейчас хочется рассказать об одном интересном расследовании, которое я однажды произвел (а таких периодически я произвожу иногда) - и просто хочеться поделиться некоторыми философскими и теоретическими выводами.


Однажды...

Однажды понадобилась мне такая функция майкрософтовской программы WORD - как замена слов в тексте, во всех его словоформах. Ну к примеру (а поисковые оптимизаторы догадаются о дополнительных задачах) нужно мне обработать большой массив своего собственного текста и сменить слово "телка" на слово "женщина". Причем не только прямая замена, которую ворд с легкостью решает. А нужно, чтобы слово телка поменялось на "женщина" во всех его склонениях: "телку"-"женщину", "телкой"-"женщиной" - ну и т.д. В ВОРДЕ - это функция якобы предусмотрена давно, но на самом деле она не работает.

2000 ворду для этого - не хватает одного маленького файлика mswds_RU.lex, которого в инете врообще нет нигде и который является - пор всей вероятности не много ни мало - автоматическим средством грамматической обработки текста.

У меня возник вопрос. Почему во всем огромном рунете (и не только) нет нигде этого маленького файлика, и почему эту функция не способна реализовать ни одна современная программа, находящаяся в открытом доступе???

И тут я наталкиваюсь на упоминание об исторических разработках отечественных разработчиков - которые достигли в этом направлении успехов еще в далеких 1994 годах...


Далекие 94-ые...

А, оказывается, в эти годы, пока что я снимал телок, и играл в "ворд-лордов" (предвестников апупительных "героев"), и не менее знаменитый "Doom", а также "Абрамс" и прочее прочее... умный и образованный народ штурмовал вершины...

Не могу отвлечься от воспоминаний. Когда появились "386" компьютеры, кстати, я один из немногих в те годы около 1992, счастливых обладателей того чуда (у друга на работе поставили и мы все ночи просиживали там) - начал свое знакомство с ним с помощью всего нескольких программ: незабываемый "Диггер", оболочка для Доса - "Нортон", "Ворд", и отличная прога для написания мультиков по тем временам - "фантавижн" (интуитивно научился с нею работать). Наверное в память об этом, я все же нашел время пару лет назад - научиться делать анимация на "Флэше".

Имея гуманитарное образование, все же - когда-то я любил точные науки и притяжение и любовь к компу - испытал почти сразу. Тогда - это было более необычно чем сейчас. И мне тоже удивительно встречать людей таких как например - мой приятель итальянец, который у себя в Италии - был одним из первой 100 пользователй инетом, уже очень давно... Жаль языковый барьер мешает полностью понять то, что понимает он - чисто философиски.

Итак я отвлекся и просто хотел обрисовать ситуацию прошлого, чтобы понять, что происходило в те годы и откуда выросли ноги у многих современных миллионных капиталов - да и вообще - как развивается прогресс, и как угадывать вовремя тенденции рынка.


И дым отечества нам сладок и приятен...

Итак отечественные разработки. Заголовки тех лет:

Российские пользователи получают мощные средства обработки русскоязычных текстов...
-------------------------------------------------------------------------------------------------------------------------------

сочетающего возможности текстового редактора среднего класса со средствами грамматического анализа текстов. С точки зрения лингвистических алгоритмов и предоставляемых пользователю функций обработки документов новый продукт отечественного производителя не уступает текстовым процессорам ведущих зарубежных компаний.

Если в области таких прикладных систем, как базы данных, средства коллективной работы или автоматизации деловых процедур, на рынке (в том числе и российском) сегодня господствуют известные западные компании, то поддержка русского языка и создание средств обработки русскоязычных текстов - одна из немногих областей, в которой отечественные программисты чувствуют себя достаточно уверенно. Выпуск пакета "Пропись 4.0" можно рассматривать в качестве еще одного свидетельства справедливости этого утверждения.

Разработка четвертой версии заняла в общей сложности полтора года. Как сообщил на состоявшейся пресс- конференции Андрей Коваленко, руководитель проекта фирмы "Агама", компания ставила своей целью создание принципиально нового продукта, обладающего значительно расширенными функциональными возможностями.

Главным достоинством программы являются средства анализа и обработки русскоязычных текстов. Помимо стандартных функций проверки орфографии (включая непрерывный контроль текста, вводимого с клавиатуры, и возможность настройки на автоматическое исправление типичных ошибок, выдаваемых системами OCR), расстановки переносов и поиска синонимов и антонимов, в версию 4.0 добавлены грамматический корректор, основанный на синтаксических алгоритмах, средства поиска и замены слов, с учетом всех допустимых словоформ, а также средства формального статистического анализа текста. Кроме того, в комплект поставки входит электронный вариант "Толкового словаря русского языка" С.И.Ожегова, обратиться в которому можно непосредственно из программы.
-------------------------------------------------------------------------------------------------------------------------------

Вот тут находиться - эта историческая программа http://www.compreview.ru/catalog.php?position_id=30588 - которая в далеких 90-ых умела то, что не умеет на настоящий момент ни одни текстовый редактор. Только купить её, скорее всего уже невозможно.

Почему так произошло? Давайте копать дальше.


Агама и Информатик

Одновременно с компанией "Агама", на те времена существовала еще одна российская команда "Информатик" - находящаяся на рынке с 1989 года, которая в 1995 году - перехватила Майкрософтовский заказ у "Агамы" на разработку словаря для русификации "Ворда".

На их страничке http://www.informatic.ru/ - можно в конце увидеть, что и 12 лет спустя - тот морфологический блок, которым по тем временам обладала "Агама" - до сих пор имеет спрос, и её старые конкуренты до сих пор продают то, что не смогли сделать в рамках русификации "Ворда" - см. внизу их главной страницы:

-------------------------------------------------------------------------------------------------------------------------------МОРФОЛОГИЧЕСКИЕ МОДУЛИ
Морфологические модули - программные модули для разработчиков, которые предназначены для решения широкого класса задач, требующих средств поиска и анализа текстовой информации. В морфологических модулях компании «Информатик» используются передовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использованы для контекстного поиска документов с учетом всех словоформ, нахождения синонимов, проверки грамматики, проверки орфографии и для решения задач, построенных на основе анализа информационных массивов.
-------------------------------------------------------------------------------------------------------------------------------


Эпопея 95-97

Возвращаемся к 1995-1997 годам:

Майкрософт всегда отличалась своей агрессивной политикой и норовила всунуть свои недоделанные продукты, расчитывая что в процессе развития - потом как-нибудь все это доделает. Главное забрать бабки. И убить другие перспективные ветки:

из 1997 года... "донельзя на Word разозлившись, с особым вниманием отнесся к описанию альтернативных текстовых редакторов. Увы, я уже сижу "на игле"... если дальше пойдет, как идет сейчас, другие ветки, пожалуй, засохнут и завянут, отстанут и захиреют. Microsoft все-таки выпускает операционную систему, под которой работает чертова туча юзеров, и каждому из них справедливо кажется логичным, что продукт автора ОС лучше к ней приспособлен, чем аналогичный продукт стороннего производителя." (http://www.computerra.ru/offline/1997/211/740/)

Продукция и политика тогдашней компании "Информатик" была схода с майкрософтом, отобрав рынок текстовых редакторов и занявшись русификацией "Ворда" - они начали плодить свои чудеса с майкрософтовским размахом:

"если по несчастному случаю вам в текст залетало "э" просто ("Э", - сказали мы с Иваном Ивановичем. Н. Гоголь. "Ревизор"), то спеллинг останавливался, и ничем невозможно его было сдвинуть с места, а только выключить, перескочить курсором за сакраментальную букву и запустить заново. Особенно обаятельно на этом фоне выглядели уверения программистов из "Информатика", что это такой плохой Word, и что никак это не побороть. Что они, дескать, сто раз уже обращались в Microsoft, а их не слушают..."

Итак читаем дальше статью. Чем дальше тем удивительнее:

"Программы "Прописи" больше нету. То есть она, конечно, есть, там даже модули какие-то перекомпилировали под 32-разрядный код, но она больше не развивается. Невыгодно… Не получается… Нету денег… Я даже в деталях не стал разбираться..."

На самом деле зря автор не стал разбираться. Ибо отсюда пошла найинтереснейшая ветка бизнеса, которая на сегодняшний момент (в своем западном воплощении) - представляет наиболее сильную угрозу "Майкрософту" на смежном секторе рынка.

Об этой ветке - позже. А пока закончим эпопею с "Вордом" и "Информатикой".

"... к тому шло уже с того момента, когда Microsoft для своего Office лицензировала лингвистические модули не "Агамы", а "Информатика". Я не думаю, что решение было принято исключительно "по качеству продукта", - должно быть, сыграли роль и какие-то "боковые" обстоятельства. Но не ропщу. Поскольку пути прогресса в огромной мере определяются именно боковыми обстоятельствами. Даже по преимуществу боковыми. Так что, возможно, их и боковыми-то звать не следует.."

Не будем об этих боковых. Просто примем к сведению, что пользователь значительно больше уважал продукцию "Прописи" - от "Агамы", нежели "Орфо" или "Ворд" - от "Инорматики"...

"Но вот грянул Microsoft Office 97. ... Установил. Word вылетать перестал, хотя, как в предыдущей версии русский тезаурус не вызывался, так и здесь: "Не нахожу, - признавался не то Word, не то "ОРФО", - такого-то файла по такому-то пути! Не нахожу - и все тут!" Я уж и глаза продирал, и Norton Commander для верности (в пандан к Проводнику) запускал: был файл, по этому точно пути - был! Чудеса, да и только."

АГА!!!!! Этого файла как не было тогда, так нету и сейчас!!! 10 лет спустя!!! Чудеса - да и только!!!

"вдруг навалилась необходимость отредактировать старые статьи, дополнить их до книжки, а книжку в виде оригинал-макета сдать в краткий срок - так что уже человек-корректор, вроде, и не успевал просмотреть... Мне и надо было от "ОРФО" всего только громко заявленной еще с прошлой и позапрошлой версий способности добавлять в пользовательский словарь не слова, а словоформы (то есть, не добавлять "окно", "окна", "окне", "окну", а лишь однажды - "окно", чтобы потом оно узнавалось во всех формах)..."

Что же это за функция такая расчудесная, что с таким трудом - её можно было добиться???

Дальнейшие приключения автора с программой и визита в офис "Информатик" - можно почитать тут http://www.computerra.ru/offline/1997/211/740/ , а мы идем дальше, чтобы понять рынок тех лет и зачаточные тенденции породившие современный интернет в таком виде, как он есть.


Пропись - ЯДРО

Итак вернемся к программе "Пропись". Не может быть, думал я, чтобы такая важная компонента (которую даже сейчас днем с огнем не сыщишь), можно сказать ядро той программы - могло бы пропасть не оставив никакого следа, исчезнув в умирающей от конкуренции ветке текстовых редакторов.

Не мог так просто сдохнуть модуль, не имеющий аналогов на тот момент. И не мог он и дальше продаваться за 59 у.е. в недре копеечной программы... Не зря с тех пор этот инструмент пропал и не возродился... Думая об этом я ПОНЯЛ, что должен был появиться продукт, который бы использовал этот модуль - на совершенно новом уровне!

И на самом деле он появился - этот новый продукт, в тогдашнем прошлом, всего пол-годика спустя:

-------------------------------------------------------------------------------------------------------------------------------
генеральный директор компании Сергей Королев выразил мнение, что разработанные его фирмой технологии грамматического и лингвистического анализа текстов могли бы найти более широкое применение. В связи с этим "Агама" объявила о готовности опубликовать интерфейсы низко- и высокоуровневых функций, реализованных в версии " Пропись 4.0 ", для их использования независимыми разработчиками. Уже в ближайшее время фирма планирует установить Web- сервер, на котором будет предоставлено место и другим производителям аналогичного ПО.
-------------------------------------------------------------------------------------------------------------------------------


Зарождение поисковой машины АПОРТ

Поисковая машина "Апорт" была впервые продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Тогда она искала только по сайту russia.agama.com. Потом она начала искать по четырем, потом по шести серверам...

Короче, день рождения и фактический старт системы сильно "размазались" по времени, а официальная презентация "Апорта" состоялась только 11 ноября 1997 года. К тому времени в его базе был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов.

Создателем системы выступила компания "Агама" - разработчик программного обеспечения для платформы Windows, главным из которых являлся корректор орфографии "Пропись". Лингвистические разработки "Агамы" использовались при создании поисковой машины, в которой, скажем, в отличие от "Рамблера" или "Яндекса", изначально учитывалась морфология слов и осуществлялась по желанию клиента проверка орфографии запроса.


Волшебный модуль

Итак волшебный модуль из банального текстового редактора - перекочевал в поисковую машину нового поколения. Которая учитывает морфологию слов. Лишь сравнительно недавно, другие поисковые машины - смогли интегрировать эту способность в свои алгоритмы.

Мог ли и далее такой мощный элемент, представляющий собой конкурентное преимущество и далее оставаться доступным в дешевой программе для правки текста????

Только тот, кто когда-то интересовался этим вопросом, может представить себе тот титанический и объемный труд, который необходимо проделать, чтобы создать подобный модуль.

У меня возникло ощущение, что я смахивая пыль времени, прикасаюсь к чему-то значительному, и наблюдаю прямо на глазах развертку невероятно интересных процессов - которые привели к сегодняшнему интернет-бизнесу - основанному на поиске и поисковой оптимизации и вообще всего веба...

Вы наверное в курсе, что сегодняшний интернет-гигант "Google" - скупающий и подбирающий под себя (вот уже и YOUTUBE за $1,5 млрд) наиболее перспективные интернет проекты, все ближе подбирается ко другому гиганту "Майкрософту" по своим доходам, рыночным объемам и претензиям на мировое господство. Так что вездесущий Билл Гейтс, собирается подавать (или уже подал) на них в суд по поводу разворачивания монополии...

Поисковый бизнес на сегодняшний момент - рыночный сегмент только в России - приносит ежегодно - от 70 до 100 млн. долларов в год, с ростом рынка до 100-200% каждый год. (текст презентации РИФ-2007, взято с SE)

Огромный разрастающийся спрут интернета, нуждается в том, чтобы осуществлять адекватный поиск, по бесчисленному множеству документов и страниц, также - как живое существо нуждается в нервной системе...

И одним из аспектов работы над этими поисковыми машинами, является изучение и анализ структуры языка, для улучшения алгоримтов поиска.


Школьные уроки русского...

Тут я снова задумался и вспомнил о том, как раздражали меня уроки русского языка в школе, а затем в институте, когда меня заставлял разбирать по составу слова, предложения и прочее... Я никак не мог взять в толк, нахрен это все было нужно. Все объяснения были на этот счет путанны, и неясны.

Нахрен вообще была нужна эта наука о языке, которая так глубоко лезла в состав слова, как ни одному здравомыслящему человеку - было не нужно и не интересно? Зачем все эти тонны словарей, лексический, морфемных, синтаксических, синонимических, словообразовательных, да и толковых вместе со сленговыми??? Зачем поколения и поколения наших предков - совершали титанические усилия собирая в словари всю эту информацию годами??? Накапливая, никому в общем-то не нужные, и не имеющие коммерческой выгоды и практического приложения - знания???? Зачем были нужен был труд всех этих Ожеговых, Далей, Ушаковых, и многих и многих?

А вот затем, чтобы их вековой труд - воплотился в космических прибылях тех, кто сумел эти словари поставить на важную и нужную работу!!!! Машинный язык особенно сильно нуждается в алгоритмизации словообразовательных и смыслообразовательных правил!!!!

Только благодаря нашим предкам, кто-то сегодня зарабатывает миллионы. Это было заложено еще ними. Это просто еще один чудесный факт, как разивается прогресс, и кому на самом деле обязаны те, кто поднялись на волне новых технологий.

-------------------------------------------------------------------------------------------------------------------------------Ни для кого не секрет, что все существующие русские морфологические анализаторы приходятся "детьми" или, в крайнем случае, "внуками" "Грамматического словаря" величайшего русского лингвиста А.А.Зализняка. Ярким представителем поколения "внуков" является анализатор Андрея Коваленко, первая версия которого появилась около восьми лет назад в системе контроля русской орфографии и грамматики "Пропись 4.0". (Олег Тараканов)
-------------------------------------------------------------------------------------------------------------------------------


Продажи и миллионы

Далее история развития "Апорта" как первой русской поисковой машины, использующей морфологию русского языка - начинает двигаться через пень-колоду, отчего чисто коммерчески - это преимущество не было реализовано вовремя...

К 1998 году в апреле - можно сравнить рынок - у Апорта было все, с точки зрения программного обеспечения, чтобы победить:

http://www.rocit.ru/seminars/98/index.php3?path=pr98-04

На этой конференции можно встретить много ныне известных фамилий рунета...

Однако В ноябре 1998 года компания "Агама" была продана владельцем за 55 тысяч (!!!!) долларов гражданину Израиля Джозефу Авчуку (с сохранением торговых марок "Апорт" и "Агама").

По нынешнему признанию И. Ашманова (http://www.ashmanov.com/):
"„Апорт“ был в свое время лучшим по качеству поиска. А отстал он потому что неправильно развивался."

Никто не помнит что произошло в конце лета - начале осени 1998 года??? Тогда произошел мощный финансовый кризис - резкое падение рубля и рост доллара. Скорее всего, как это обычно бывает - он был инциирован, и кто-то на нем нажился. Но значит кто-то и разорился.

По всей вероятности - это не случайность - что "Апорт" бы продан так дешево. Виною был скорее всего именно этот кризис... В тот момент я сам имел развивающийся бизнес и кризис меня тоже затронул. Настроения бизнесменов очень упали в плане переспективности ведения бизнеса в такой стране - и мне, который развивался на рекламном рынке - это было заметнее всего. Ибо рынок рекламы держится на позитивных ожиданиях бизнеса, что нужно вкладывать сегодня, чтобы завтра было лучше чем вчера.

Всего через 2 года - "Апорт" был вновь перепродан на пике интернет-лихорадки - компании Golden Telecom за $25 миллионов долларов (!!!)

Вот это бизнес! :-))) За 2 года с 55.000 до 25.000.000 долларов - увеличить капитал в 453,5 раза!!!!
:-))))))


Имена

Аплодисменты тому, кто имеет мозги - гражданину Израиля Джозефу Авчуку - который видит будущие тенденции, в том, что еще не развилось до своего предела и умеет покупать на миниммуме и продавать на максимуме!!! Тому кто видит тенденции - даже не обязательно заниматься программными разработками.

Потому что еще одно важное имя, которое связано с этой темой - это Андрей Коваленко, именно тот, кто и разрабатывал это самое морфологическое ядро, сначала для "Прописи", потом для "Апорта", потом обеспечении ядра для машинных переводов, затем в компании "Рамблер" (!!!), а ныне в компании ashmanov.com. :-)))

Украинская поисковая машина МЕТА - тоже основана на все тех же алгоритмах все того же ядра, от того же разработчика. :-)))


Поисковики

Я люблю поисковые машины. Когда мне было 17 лет - я вручную копался картотеке научной библиотеки им Горькова (обманом проникнув туда, т.к. только написанием научной работы - можно было по тем временам получить туда доступ - научным сотрудникам и аспирантам). И пользовался я только поиском по названию книги (на карточке) и кем-то составленном кратком описании.

Теперь поиск можно производить сквозной даже по словам. И по такому кол-ву материалов, которое мне раньше и не снилось. И не переписывать вручную конспекты, а использовать мгновенное сохранение.

Поэтому я и люблю поиск. А еще я люблю его за то, что используя знание о его алгоритмах, можно организовывать любые торговые площадки, создавая оживленные торговые точки - в любых произвольных местах или отраслях. Умение организовывать такие торговые точки - это многого стоит.

Не знаю осилил ли кто-то эту статью до конца. Но я рассказываю именно то, что мне интересно. Хотелось просто этим поделиться....


Возвращаясь к началу

А что касается этой самой функции замены слова в соответствии с морфологией - так в "Ворде" даже - самом последнем - это все еще не реализованно. Ай да компания "Информатик" вместе с Билом Гейтсом!!!

То что было сделано и давно используется на полную мощность, они все еще трудятся над улучшением своего софта.

А может тут не все чисто? И попадание такого инструмента в определенные руки, мы получим генерирование бесконечных мегатон машинного "креатива" - при хорошем качестве ядра, в текст неотличимый от человеческого? И прощай тогда адекватный поиск?

Безусловно, ядро поисковой машины должно работать на таких алгоритмах и базах, которые недоступны рядовому пользователю. Или это мои фантазии?


Ссылки по теме:

- страничка Андрей Коваленко - http://linguist.nm.ru/

- интервью с Андреем Коваленко - http://www.searchengines.ru/articles/003736.html

- О поисковой машине МЕТА и украинском поисковом рынке http://www.topmag.com.ua/news65069.html

- Истории 3-ех русских поисковиков http://www.rambler.ru/db/rumetrica/otherstat.html?mid=1746576

- Каталог лингвистических программ Рунета http://www.rvb.ru/soft/catalogue/index.html

- Текстовый редактор Иероглиф - ориентированный на серьезную работу с русскими текстами http://www.adelaida.net/hieroglyph/

- Программы-генераторы текстов: http://www.muzoborudovanie.ru/forum/view.php?site=mo&bn=mo_offtopic&key=1170948512

- Сайт об автоматической обработке текстов с инструментами он-лайн http://aot.ru/download.php

- Виртуальный машинный ГУРУ - словно сошедший из романа Лэма - Электрибальд Трурля - http://rosd.org.ru/

P.S.

Цитата:
Что такое человеческая история Рунета?
Это история о том, как Леша Кривенков написал Мыло, а потом ушёл из него.
Это история о том, как Дима Крюков в одно рыло писал Рамблер и Топ100, пока Стек торговал порнухой по пересылке.
Это история о том, как Королев и Коваленко и Киреев писали Апорт , и как они ушли из него, а Киреев остался и как Апорт был за гроши куплен Авчуком.
Это история о том, как Сегалович убедил Воложа сделать Яндекс, а Волож убедил совладельцев Комптека закрывать глаза на побочный мелкий бизнес, и вот Сегалович в одно рыло написал Яндекс и они разрезали ленточку перед экраном компьютера на Софтуле.
Это - история.

(http://www.nigma.ru/terapevt.html)

Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 43 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →