Ученые разработали базу по цифровизации государственного языка

Теперь перед отечественными лингвистами стоит задача по разработке собственного ИИ на основе LLM.

9 декабря 2025 10:28, Profit.kz

Казахстанские ученые-лингвисты создали Национальный корпус казахского языка — цифровую базу выверенных текстов Qazcorpus.kz. Благодаря этому многие мировые искусственные интеллекты высокого уровня (такие, например, как ChatGPT) грамотно владеют казахским языком. НККЯ — это обширное электронное собрание текстов, включающее миллионы словоупотреблений, полностью охватывающее лексико-грамматическую систему. Это «умный» специализированный фонд знаний, аккумулирующий всю информацию о казахском языке. НККЯ в настоящее время состоит из 16 специально разработанных подкорпусов, передает Kazpravda.kz.

Теперь перед отечественными лингвистами стоит задача по разработке собственного ИИ на основе LLM — Large Linguistic Model. По словам директора Института языкознания им. Ахмета Байтурсынова Анар Фазылжановой, возглавляемое ею учреждение совместно с научными центрами КазГУ им аль-Фараби, ННПЦ «Тіл-Қазына», Института вычислительных технологий и Назарбаев-университета разрабатывает большую языковую модель для создания собственного ИИ в соответствии с особенностями казахского языка и культуры.

«Например, мы раскрываем глубинную семантику казахских пословиц, поговорок, устойчивых словосочетаний и фразеологизмов, которые скрыты от простого носителя языка», — сообщила она.

Подписывайтесь на каналы Profit.kz в Facebook и Telegram.