Новости

Прощание с Андреем Зализняком назначили на 28 декабря

Автор Дата 15.01.2018

Обряд академика Андрея Зализняка пройдут в Москве 28-го декабря, сверху Троекуровском кладбище. Проститься с Андреем Зализняком можно брось в здании Российской академии наук.

Андрей Зализняк скончался 23-го декабря в Москве для 82-м году жизни. Хотя общественности он вяще всего известен как исследователь «Слова о полку Игореве» и новгородских берестяных грамот, вкладывание Андрея в создание российских лингвистических сервисов невозможно взглянуть иными глазами.

По словам Игоря Ашманова, сделанный Зализняком книга содержал в себе грамматическую модель русского языка, которая позволяла, суще перенесенной в цифровой вид, создавать поисковые машины и, хоть бы, программы для проверки орфографии. «Вообще говоря, грамматическая натурщица это вещь, которая есть не для каждого языка. Угоду кому) английского и немецкого, например, точно есть». Игорь Ашманов использовал механический словарь Зализняка при создании проверки орфографии «Орфо» пока в 1987-м году.

Словарь же Зализняка использовали будущие создатели «Яндекса» около создании проверки орфографии для международного классификатора изобретений (МКИ), в дальнейшем для его базе создавался поисковый алгоритм самой поисковой аппаратура «Яндекс».

Рассказывает Аркадий Волож: «МКИ, который пишущий эти строки делали в 1989-90 годах, был первым опытом скрещивания поиска с русской морфологией: наша сестра использовали там спелл-чекер, морфологию которого написал Аря Борковский на основе словаря Зализняка. В 1990-м Борковский уехал в Америку. А 1991-м в наше малое концерн „Аркадия“ пришел Илья Сегалович. Через общих знакомых я вышел нате лабораторию Юрия Дерениковича Апресяна в Институте проблем передачи информации РАН, идеже Лёня Иомдин, Игорь Богуславский, Владимир Санников и некоторые люди уже работали над морфологическим словарем. Мы пришли в ИППИ с Сегаловичем, Сережей Трифоновым и Мишей Якубовым. И по вине два года мы уже придумывали название интересах новой Илюшиной версии морфологии, которая была сделана для основе работы с лабораторией Апресяна. При этом возлюбленная умела строить гипотезы по словообразованию неологизмов и имен собственных, используя описанные в словаре Зализняка словообразовательные типы, и умещалась в мнемозина персоналки (640 Кб). Мы назвали эту новую морфологию „Яndex“».

Аркадьюшка Борковский пояснил, что создание словаря намного паче сложная работа, чем перевод его в машинный обличие: «В конце 80-х я для машинной морфологии упростил систему парадигм — у Зализняка конкорданс и парадигмы с учетом ударения, в письменном языке ударение без- отражается, и морфология проще. Имплементация помещалась в память персонального компьютера и использовалась в реализованном мной спелл-чекере редактора „Лексикон“. Спустя некоторое время была пара ошибок — например не было именительного падежа суесловие „заяц“ (было „зайц“). По этой ошибке не грех было проверить, моя это морфология или блистает своим отсутствием.
Работы Зализняка и его учеников над словарем получи и распишись порядки превосходит программистские усилия на представление этой информации в виде работающей программы. В любом случае, в основе русской морфологии, использовавшейся в «Яндексе» долгие годы лежали вот то-то и есть эти данные. Со стороны программирования большая действие была в расширении покрытия на слова, отсутствующие в словаре».

Леся Лейбович Иомдин, и.о. заведующего лабораторией компьютерной лингвистики Института проблем передачи информации РАН (праздник самой команды Апресяна) вспоминает, что их поделка начиналась без словаря Андрея Зализняка:
«Морфологический словарик русского языка мы разрабатывали сами, не имея словаря Зализняка. Мебель морфологических объектов придумали сначала И. А. Мельчук, Н. А. Еськова и В. З. Санников, которые опубликовали куцый препринт, а потом Санников создал готовую рабочую версию. Когда-никогда морфология уже была готова, появился словарь Зализняка в машиночитаемом виде, и дьявол был полностью туда влит, для чего Санников написал очень закомуристый алгоритм перехода от парадигм Зализняка к нашим парадигмам. Сие вливание продолжалось года полтора. Некоторые решения были другими и остаются другими (главные заслуги — превращение приставочного словообразовательного вида в словоизменительный и композитная форма). Илья Сегалович и Аркадий Волож пришли к нам в начале 1990-х и купили отечественный словарь, в нашем варианте, который потом и лег в основу поиска. Основа словаря Зализняка там уже был (в нашей форме). Таким образом, форма Яндекса основана на словаре Зализняка, обработанном в нашей лаборатории».

Борюля Иомдин, заведующий сектором теоретической семантики Института русского языка РАН, язычник Школы анализа данных Яндекса упоминает, что «ухватывание» машиной текста возможно именно благодаря труду Зализняка:

«Коллеги в Яндексе знают, словно именно благодаря Зализняку Яндекс понимает русские болтовня независимо от той формы, в которой они стоят, — не более и не менее его Грамматический словарь лег в основу компьютерной морфологии, для которой работают и Яндекс, и многие другие системы автоматической обработки естественного языка. Же, описывая систему русского словоизменения, Зализняк, конечно, и отнюдь не предполагал, что его работа будет встроена в состояние компьютеров и телефонов. Главным для него был разведка научной истины, а не пути ее дальнейшего применения.

С момента появления морфологии, основанной получи словаре Зализняка, лингвистический компонент Яндекса постоянно совершенствуется. Хотя и сейчас можно заметить следы технологии автоматического определения форм слов, которых да и только в словаре. Вчера Яндекс.Навигатор предложил мне свернуть „на Барклую улицу“. В Яндекс.Картах есть „улица Барклая“, а так, что здесь не прилагательное „барклой“, а существительное (род российского полководца шотландского происхождения, Михаила Барклая-дескать-Толли) в родительном падеже — факт, который надо вывести вручную. Ручная работа, конечно, неизмеримо сложнее, нежели автоматическая, и делается медленнее. Но надо помнить, зачем Зализняк в свое время составил свой словарь не что иное вручную, описав сто тысяч русских слов держи карточках из тонкой бумаги и определив тип склонения иначе спряжения для каждого из них. Все словоблудие уникальны, и каждое из них составляет миниатюрную лингвистическую задачу (а в Зализняк придумал жанр самодостаточных лингвистических задач, по причине которым родилась и распространилась по всему миру воспевающая небо по лингвистике). Сто тысяч карточек — это сто тысяч озарений, бери которые пока не способны даже мощные нейросети. Храбрый Анатольевич был еще и увлеченным автомобилистом, и этот веселый казус ему наверняка бы понравился. Теперь безвыгодный расскажешь».

В Яндекс.Книге есть отрывок с описанием того, подобно ((тому) как) возникла идея сотрудничества Яндекса с командой Андрея Анатольевича Зализняка:

«В Вотан прекрасный день Волож пришел в „последнее купе“ CompTek с безумной идеей — посметь в Институт проблем передачи информации РАН и за бешеные копейка купить там легальную электронную копию орфографического словаря русского языка. Глупость этого поступка заключалось в том, что за интеллектуальную аллод тогда не платил никто. Более бесплатным был точию воздух.

— В этом НИИ работала команда академика Юрия Дерениковича Апресяна, сие великий человек, один из крупнейших наших лингвистов, — говорит Илюха Сегалович. — Когда они поняли, что вот сии молодые люди пришли, чтобы легально купить их следствие, они были так шокированы, что сразу скинули цену сверху порядок. Каким-нибудь японцам институт продавал данный словарь за 10 тысяч долларов, нам — в таком случае ли за 600, то ли за 800, я сейчас точно не помню. И даже еще потом помогали консультациями и ценными советами.
— А охота вам вам вообще этот словарь был нужен? И с каких щей именно этот, а не какой-нибудь другой?
— Так чтоб улучшить поиск, усовершенствовать систему морфологического распознавания слов. В сущности, данный словарь был улучшенной версией знаменитого Обратного словаря Андрея Зализняка. Его перевели в электронный обличие еще в середине восьмидесятых в Вычислительном центре Академии наук — и этой версией да мы с тобой располагали давно. Но так как Аркадий Борковский нас покинул и развивать. Ant. портить ту модель было некому, мы решили кооперироваться с командой Апресяна, которая, в свою очередь, тоже занималась совершенствованием Обратного словаря. Держи тот момент это была, пожалуй, лучшая ледовая дружина лингвистов в стране.
< ...>
Сотрудничество с командой Апресяна дало вновь и импульс работе „Аркадии“. Михаил Маслов, Дмитрий Тейблюм, Серёня Трифонов — в команде появились новые люди, которые сплотились округ новой задачи.

— Словарь купили, надо с ним что же-то делать. Аркаша посмотрел на меня и говорит: «Давай», — вспоминает тетуня дни Сегалович. — Я занялся плотно морфологией, лингвистикой, стал марать поисковую часть. И совершенно расхотелось куда бы так ни было уезжать. А когда поисковая часть была написана, остался Вотан вопрос, на который надо было найти решение: что бы такого проиндексировать?».

===

Первые поисковые алгоритмы Яндекса были основаны получи и распишись грамматическом словаре и умели находить начальную форму суесловие — это отличало точность Яндекса от других систем. В целях неизвестных, отсутствующих в словаре слов строилась гипотетическая словарная сторно, которая позволяла строить их формы аналогично известным. Яндекс почти что сразу научился работать с неизвестными словами — очень редкими, составными, неологизмами, собственными именами и т. п. — и сие было уникальным свойством поиска. Этих слов изначально безграмотный было в системе, но Яндекс строил гипотезы и использовал словоизменительные типы, описанные в Грамматическом словаре Зализняка. Большая) часть новых слов изменяются регулярно, по тем но законам, что и старые слова — исключения и необычные комплекция встречаются обычно в самых частотных словах, сохраняющих подонки более древнего состояния языка. Гипотезы, которые строил Яндекс исполнение) неизвестных слов, используя словарь Зализняка, оказывались грамматически корректны и осмысленны.

Источник: roem.ru

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *