Следите за новостями

Цифра дня

48 комплексов Starlink направило МЦРИАП в регионы ЧС
  • Доходность
    17,2%за 2023 год
  • Стоимость чистых активов
    29,5млрд тенге
  • Доходность
    14,12%с начала управления
  • Доходность
    17,2%за 2023 год
  • Стоимость чистых активов
    29,5млрд тенге
  • Доходность
    14,12%с начала управления

В Казахстане появилась технология распознавания казахской речи

Директор компании «Изет» Изетали Тилешев заявил, что в Казахстане впервые разработана технология компьютерного преобразования звучащей казахской речи в текстовый формат.

13 ноября 2009 12:20, Анна Шатерникова, Панорама
Рубрики: Софт

Фирма «Изет» завершила работу над технологией распознавания слитной казахской речи на 30000 словоформ. Работа над проектом, открывающим новые возможности для общения человека с техникой на казахском языке, длилась на протяжении более чем трех лет. Собственные и заимствованные инвестиции в разработку данной технологии оцениваются в $200000.

Технология распознавания речи, пояснил директор «Изет» Изетали Тилешев, создавалась с учетом фонетических и грамматических особенностей казахского языка. Существующие в западных странах системы предназначены исключительно для работы с другими популярными языками и малоприменимы в случае с казахской речью. Казахский язык отличает большое количество аффиксов, порождающих множество словоформ, что значительно усложняет математическое моделирование.

Разработчики отечественной технологии создали научно-исследовательскую группу, в состав которой вошли специалисты по лингвистике, фонетике, математике, эксперты в области обработки сигналов и программирования. Был сформирован собственный набор речевых баз данных, включающий около 500 часов записей, надиктованных более чем 60 дикторами. Эти базы использовались для создания акустической модели звуков казахской речи. Для выработки языковых моделей была собрана текстовая база казахского языка на 20 млн. слов. Поскольку образование качественной системы распознавания невозможно без масштабных экспериментальных исследований, в астанинском офисе фирмы был развернут вычислительный кластер. Важная часть проекта связана с созданием базового речевого декодера, который, используя оригинальные акустическую и языковую модели казахского языка, преобразовывает речевой сигнал в текст.

«Мы проделали большую работу по разработке акустической модели казахского языка, по внедрению языковых правил в эту модель, и благодаря приложенным усилиям нам удалось поднять уровень точности до 80–85%. Однако предстоит еще немало потрудиться для достижения коммерческой точности. К весне следующего года надеемся выпустить версию с точностью распознавания 95%. Кроме того, наибольший эффект данная технология демонстрирует при персональном использовании, адаптированном под голос конкретного пользователя, его манеру говорить. Ее применение несет и обучающий момент, ведь для того чтобы программа поняла того, кто к ней обращается, человек должен говорить грамотно», — отметил г-н Тилешев.

Сфера применения данной технологии только вырисовывается, и, несмотря на то, что сегодня она ограниченна, в будущем спектр ее использования может возрасти. Еще несколько лет назад подобные разработки в теории существовали в лабораториях крупных компаний-вендоров, однако там речь шла о совершенно других вычислительных мощностях и финансовых средствах. Сегодня в наш повседневный обиход вошли ноутбуки, карманные компьютеры, имеющие достаточно высокую производительность, для того чтобы решить задачу если не распознавания слитной речи, то хотя бы команд на естественном языке в словаре на 200–400 слов. Большая область употребления данной технологии, говорят разработчики, связана с поиском в Интернете информации, записанной в виде аудио- или видеофайлов. В настоящее время «Изет» реализует проект по использованию технологии распознавания казахской речи в системе судопроизводства. С недавнего времени в залах судебных заседаний осуществляется аудио- и видеозапись процессов, соответственно, возникла необходимость поиска данных внутри этих записей. Промышленное внедрение технологии распознавания также открывает новые возможности голосового управления компьютерной и бытовой техникой, службами и сервисами по телефону. В перспективе компания-разработчик планирует создание на базе технологии распознавания и синтеза карманного переводчика устной русской и казахской речи.

Подписывайтесь на каналы Profit.kz в Facebook и Telegram.

Комментарии