Яндекс улучшил свой казахский
Поисковик Яндекса обзавелся новым алгоритмом, который позволяет улучшить поиск на казахском языке.
Яндекс работает с морфологией казахского языка с 2009 года — с открытия yandex.kz. Знание морфологии позволяет искать не только по точной форме слова (как в запросе), но также и по всем формам. Так, лучший рассказ про выставку автомобилей [автокөлік көрмесі] может оказаться на странице с формой «автокөліктер» или «автокөліктердің». До сих пор Яндекс учитывал в поиске только наиболее частотные формы слов, которые были ему известны. С помощью нового алгоритма можно построить все формы любого слова.
Алгоритм работает на основе казахской грамматики. Он определяет, к какой части речи относится слово, и изменяет его по всем правилам языка. Например, для каждого казахского существительного алгоритм строит около 200 форм, а для глагола — около 2500. Теперь поиск знает более 14 миллионов казахских словоформ.
Помимо учета морфологии, Яндекс умеет также исправлять опечатки в запросах на казахском и работать с синонимами. Так, если пользователя интересуют [песни на казахском], Яндекс будет искать и те документы, где речь идет о балладах. Кроме того, поиск понимает слова, в которых специфические для казахского языка символы (например, қ) заменены на буквы русского алфавита.
Комментарии