Следите за новостями

Цифра дня

3 млн активных соцаккаунтов в Казахстане

Трудности перевода

Интервью с доктором технических наук, профессором, академиком Международной академии информатизации Алтынбеком Шарипбаевым о проблеме компьютерной обработки казахского языка.

28 июля 2011 15:28, Любовь Артымович, Литер
Рубрики: Общество

Общение с цифровыми устройствами с каждым годом развивается в сторону использования естественного человеческого языка. Конечно, эти устройства, хотя и появились практически в каждой казахстанской семье, являются сложными техническими системами, в которых все должно быть жестко стандартизировано и запрограммировано. Проблема языковой коммуникации «человек и компьютер, говорящие на казахском языке» не один год изучается группой ученых Евразийского национального университета имени Л. Гумилева под руководством доктора технических наук, профессора, лауреата Государственной премии в области образования, науки и техники, академика Международной академии информатизации Алтынбека Амировича Шарипбаева. Он посвятил изучению данного вопроса более 15 лет своей жизни.

Алтынбек Шарипбаев— Алтынбек Амирович, как вы начали заниматься этой проблемой?

— Я до развала СССР активно занимался проблемами верификации (проверки функциональной правильности) и синтеза (порождения заведомо правильных) компьютерных программ, участник многих закрытых проектов, в том числе и проекта по созданию интеллектуальных машин V поколения. Известно, что эти проблемы решаются на основе синтаксиса и семантики языков программирования — искусственных языков, на которых писались программы для решения тех или иных задач с помощью компьютера. Но, увы, в 90-е годы результаты этих работ в нашей стране не были востребованы. Поскольку исследования искусственных и естественных языков похожи между собой и идеалом программирования является обучение компьютера общению на естественном языке, то вскоре я нашел другое применение своим знаниям. Здесь следует отметить, что английским языком интересуется почти весь мир, русским языком — многие из бывшего СССР, а казахский язык нужен только нам — казахстанцам. Поэтому я начал заниматься проблемой компьютерной обработки казахского языка.

— Вы можете перечислить основные результаты своей работы?

— Сначала мною были созданы государственные стандарты кодировки казахских букв и соответствующие программы перекодировки из любой нестандартной кодировки в стандартные, которые позволили в конце 90-х годов избавиться от непонятных представлений одного и того же текста на казахском языке на различных компьютерах. Затем я разработал математические модели морфологических и синтаксических правил казахского языка, которые позволили создать программы для автоматизации порождения и анализа письменных слов и предложений. Также я разработал госстандарты кодировки и расположения казахских букв на клавиатуре телефонных аппаратов и терминалов мобильной связи, которые позволят унифицировать подготовку и прием кратких сообщений (SMS) на казахском языке. Сейчас мы подготовили проект госстандарта фонетики казахского языка, который позволит правильно перевести устную казахскую речь в текст и наоборот — перевести казахский текст в устную речь. По существу мы создали речевую технологию казахского языка.

— Что позволило вам добиться таких успехов?

— Казахский язык, как и другие тюркские языки, обладает рядом уникальных свойств. Например, словоформы получаются путем добавления суффиксов и окончаний к корневому слову в строго определенном порядке, что позволяет из одного слова получить до 60 новых словоформ. Но среди тюркских языков наиболее типичным языком, в котором закон сингармонизма действует в полной мере, является казахский. Например, в узбекском или азербайджанском языках этот закон не действует. Это объясняется тем, я подчеркиваю, что это моя гипотеза, хотя казахская письменность начинается с древнетюркских рунических записей, но в определенное время казахский язык развивался устно и поэтому все негармоничные сочетания звуков утратились. Кроме того, в казахском языке практически нет исключений, как в английском, где не все подчиняется аксиомам и правилам. Указанные свойства казахского языка позволяют систематизировать и формализовать его морфологические и синтаксические правила, что облегчит его превращение в компьютерный язык.

— Где применимы ваши достижения и какие социальные последствия ожидаются?

— Область применения речевой технологии казахского языка обширна. Разработанные математические модели, алгоритмы позволяют казахскоязычному населению воспользоваться современными достижениями в области компьютерной лингвистики применительно к устному общению с цифровыми устройствами и получению устных электронных услуг, в том числе электронного правительства. Это расширит сферу применения казахского языка в различных отраслях, значительно повысит его роль и укрепит государственный статус, а также повлияет на развитие и использование казахского языка в различных отраслях интеллектуальной деятельности в Казахстане, а также поспособствует организации единого культурного и информационного пространства этнических казахов. Результаты будут использоваться при автоматическом устном переводе с казахского языка на другой и наоборот, а также позволят разработать интерфейсы для пользователей с нарушениями зрения или моторных функций. Но пока мы создали только прототипы программ распознавания и синтеза речи, т. е. мы имеем математические модели, алгоритмы и демонстрационные программы, обученные на одного диктора. Чтобы запустить наши результаты в промышленную эксплуатацию, нам надо создать национальные текстовые и акустические корпуса казахского языка. Создание таких корпусов требует большого финансирования, поскольку нужно собрать образцы текстов и акустические базы с учетом звуковых частот, тембров и других характеристик различных дикторов.

— Кто будет ими пользоваться?

— Потенциальными пользователями результатов проекта будут являться широкие слои казахскоязычного населения, в первую очередь те, кто имеет доступ к информационным технологиям. Результаты могут внедряться в средние школы, высшие учебные заведения, различные учебные центры и другие государственные и негосударственные организации, а также дипломатические корпусы, международные организации и компании при удаленном голосовом доступе к базам данных и знаний, диктовке текста компьютеру, управлении процессом с помощью голоса, интерактивном обучении казахскому языку и получении других электронных услуг.

— С этими проектами вы как инициатор обращались в разные инстанции, однако пока нигде не нашли поддержку. Вы не теряете надежду, что наработка будет востребована на родине?

— Теоретически эта система работает, но нам нужна финансовая поддержка, чтобы внедрить новые технологии. В данный момент мы энтузиасты, у нас даже нет условий для работы. В то же время во всем мире компьютерная лингвистика переживает период бурного развития: создаются и активно развиваются коммерческие системы обработки естественных языков, распознавания и синтеза речи, машинного перевода, распознавания символов. Прогресс в этих направлениях приносит незамедлительные результаты во всех сферах человеческой деятельности, которые поддаются компьютеризации. Поэтому во многих странах, не говоря о США, Японии и России, например, в Белоруссии и Украине, созданы крупные научные центры искусственного интеллекта или речевых технологий. Здесь следует особо отметить, что для создания речевых технологий уйгурского языка и диалектов других тюркских языков при Синьцзянском университете (Урумчи) создан мультиязыковой центр, который имеет 5–6 лабораторий, где постоянно работают по 10–15 человек. Они полностью отдаются науке, поскольку у них больше ни о чем голова не болит, все условия для них созданы государством, которое живет под лозунгом «Завоюем мир не товаром, а технологией», поэтому государством адресно выделяются огромные средства на науку и инновации. Обидно, что в нашей стране не ценят своих специалистов.

— Что вы можете предложить для реализации вашего или других подобных проектов?

— Президент Казахстана дает четкие и правильные поручения по развитию науки и технологии, но вот исполнение научно-технических проектов (НТП) отдается на откуп ведомостей, а их руководители или не знают механизма их реализации, или часто меняются. Один начинает проект, другой продолжает или отказывается от его реализации, поддерживая другие новые проекты. Нет системности и преемственности в этом вопросе. Мне кажется, что акцент нужно ставить не на ведомство, а на конкретного ученого — инициатора НТП. Под него нужно создать, если ее нет, нужную научно-производственную структуру, а ведомства должны оказывать организационно-финансовую поддержку реализации проекта, и не более того. К примеру, как это делалось в бывшем СССР: для создания ядерной бомбы — на И. В. Курчатова, космических ракет — на С. П. Королева и электронной вычислительной машины — на С. А. Лебедеваи т. д. Тогда будет с кого спросить за конечный результат и подготовить отечественные кадры, которые смогут эффективно обеспечивать весь жизненный цикл создаваемых технологий или научной продукции.

— Казахстанские программисты могут составить конкуренцию зарубежным коллегам? Насколько я знаю, вы возлагаете большие надежды на молодых специалистов.

— Сейчас студенты факультетов информационных технологий качественно изменились. Если раньше приходили те, кто не поступил в вузы международных отношений или права, то сейчас дети с малых лет решают связывать свою жизнь с информационными технологиями (ИТ). В наш университет поступают очень талантливые ребята, они имеют чутье к компьютерной науке и быстро осваивают современный уровень ИТ, а иногда уровень знаний некоторых студентов по ряду вопросов ИТ даже выше, чем у отдельных преподавателей. Конечно, это не говорит о том, что они уже готовые специалисты, их нужно еще обучать, дать новые теоретические и практические знания по информатике. Поэтому преподавателям-информатикам приходится постоянно усовершенствовать свои знания и навыки.

Комментарии