Следите за новостями

Цифра дня

Ветроэлектростанцию на 100 мВт построят в Туркестанской области

    В Казахстане хотят создать аналог Yandex

    Казахский аналог популярного российского поисковика планируют создать отечественные лингвисты Назарбаев Университета.

    13 августа 2014 15:34, Profit.kz
    Рубрики: Интернет

    В Казахстане хотят создать аналог YandexКазахский аналог для Yandex планируют создать отечественные лингвисты Назарбаев Университета. Об этом BNews.kz рассказал стажер исследователя лаборатории компьютерных наук NURIS (Nazarbayev University Research and Innovation System) Назарбаев Университета Ислам Сабыргалиев.

    «Сфера нашей деятельности называется вычислительной лингвистикой. Мы применяем математические компьютерные модели к языкам и пытаемся формализовать правила языка так, чтобы компьютер мог оперировать ими. Планы по созданию казахского аналога «Яндекса» есть, но этим должны заниматься не только мы. Хотя, на самом деле, мы уже сейчас сделали многое для создания собственного поисковика», — сказал Ислам Сабыргалиев.

    Однако он уточнил, что они только исследователи и не делают коммерческий продукт, а значит, для продвижения такой идеи нужен человек или предприятие, которое этим заинтересуется.

    «Для этого мы создали проект под названием «Открытый Корпус Казахского Языка». Подробнее о нем можно узнать на сайте kazcorpus.kz. Например, корпус русского языка был создан в начале 2000-х исследователями при помощи компании «Яндекс». Чтобы улучшать свои результаты в поисках той или иной темы, поисковик должен понимать язык. Мы по своим потребностям создали корпус казахского языка», — сообщил исследователь.

    В корпусе, по его словам, собраны документы к пяти условным жанрам, таким как публицистика, научные статьи, литература, свободная речь, законотворчество. Основным источником данных стал интернет.

    «Допустим, самый наглядный пример, когда вы ищите в «гугле» что-нибудь, но написали с ошибкой, то он вам сам предлагает другой вариант. Такой же алгоритм и у нас. Как это все делается? Эта сфера относится к компьютерной лингвистике. В апреле этого года мы опубликовали статью по проверке правописания. Данные мы как раз использовали из корпуса. Для этого мы провели скрупулезную работу и разметили множество документов, были размечены корни, суффиксы каждого слова. Кстати, нашей работой заинтересовались в «Яндексе», потому что они напрямую работают с казахстанским рынком. Отмечу еще раз, что мы не разрабатываем конечную программу. Мы делаем платформу для разработчиков», — подчеркнул Ислам Сабыргалиев.

    По его словам, работу над проектом начали в 2010 году, сайт с общественным доступом запустился в 2013 году.

    «В базе на сегодня у нас 440 тысяч документов по всем 5 жанрам, по всем этим документам около 135 миллионов слов, а также 1 300 000 словоформ, словосочетаний. Сайт полностью на английском. Сейчас делается перевод на казахский язык. В течение полугода уже, думаю, появится казахский вариант», — добавил лингвист.

    Кроме того, он сказал, что с момента запуска сайта была создана карта посетителей, с помощью которой можно отследить историю просмотров, а также с каких стран чаще заходят на страницу.

    «В основном им часто пользуются из Москвы. С нами уже связывались с факультета филологии МГУ. Мы также заметили такую активность из Бразилии. Возможно, у них ведутся работы по корпусу своего языка. Потому что при создании такого корпуса изучается опыт других стран», — отметил стажер исследователя лаборатории компьютерных наук.

    Подписывайтесь на каналы Profit.kz в Facebook и Telegram.