Следите за новостями

Цифра дня

Более 44 тыс. деклараций на товары оформлено через KEDEN

    Ученые разработали базу по цифровизации государственного языка

    Теперь перед отечественными лингвистами стоит задача по разработке собственного ИИ на основе LLM.

    9 декабря 2025 10:28, Profit.kz

    Казахстанские ученые-лингвисты создали Национальный корпус казахского языка — цифровую базу выверенных текстов Qazcorpus.kz. Благодаря этому многие мировые искусственные интеллекты высокого уровня (такие, например, как ChatGPT) грамотно владеют казахским языком. НККЯ — это обширное электронное собрание текстов, включающее миллионы словоупотреблений, полностью охватывающее лексико-грамматическую систему. Это «умный» специализированный фонд знаний, аккумулирующий всю информацию о казахском языке. НККЯ в настоящее время состоит из 16 специально разработанных подкорпусов, передает Kazpravda.kz.

    Теперь перед отечественными лингвистами стоит задача по разработке собственного ИИ на основе LLM — Large Linguistic Model. По словам директора Института языкознания им. Ахмета Байтурсынова Анар Фазылжановой, возглавляемое ею учреждение совместно с научными центрами КазГУ им аль-Фараби, ННПЦ «Тіл-Қазына», Института вычислительных технологий и Назарбаев-университета разрабатывает большую языковую модель для создания собственного ИИ в соответствии с особенностями казахского языка и культуры.

    «Например, мы раскрываем глубинную семантику казахских пословиц, поговорок, устойчивых словосочетаний и фразеологизмов, которые скрыты от простого носителя языка», — сообщила она.

    Подписывайтесь на каналы Profit.kz в Facebook и Telegram.