Казахский язык адаптируют к ИИ и нейросетям

Казахский язык адаптируют к ИИ и нейросетям
Национальный словарный фонд казахского языка планируют создать в Казахстане. Соответствующий проект подготовило Министерство науки и высшего образования. Проект размещен на портале "Открытые НПА" для публичного обсуждения до 19 марта 2025 года.

Фонд будет формироваться на основе академических и переводческих словарей, Национального корпуса казахского языка, терминологической базы и дата-сетов, включающих совокупность данных различных форматов.

"Важным аспектом проекта является то, что Национальный словарный фонд казахского языка станет общедоступной государственной информационной системой, что позволит максимально эффективно использовать его в образовательных и научных целях, а также для развития технологий обработки казахского языка", - указано в документе.

Вице-министр науки Дархан Ахмед-Заки ранее заявлял, что IT-специалисты уже работают над Национальным словарным фондом и Национальным корпусом казахского языка. По его словам, их сделают базой для казахской языковой модели ИИ.

В  проекте используются следующие основные понятия:

генерация – процесс автоматического создания нового контента (текста, изображения, звука) на основе данных и заранее установленных правил;
модели искусственного интеллекта (ИИ) – процесс внедрения технологий и алгоритмов ИИ для обработки данных на казахском языке в различные системы, приложения или платформы;
обработка естественного языка – технология машинного обучения, которая дает компьютерам возможность интерпретировать, манипулировать и понимать человеческий язык.

Цели формирования Национального словарного фонда:

???? сохранение, защита и развитие казахского языка как культурной ценности;
????укрепление статуса государственного языка;
????накопление ресурсов, охватывающих все сферы применения казахского языка;
????упорядочение, цифровизация и генерация действующего лексического состава языка;
????адаптация казахского языка к искусственному интеллекту и современным технологиям;
????автоматизация процессов обработки языковых данных.

Некоторое время назад мы сообщали о том, что Министерство науки и высшего образования Республики Казахстан совместно с Институтом умных систем и искусственного интеллекта при Назарбаев Университете (ISSAI NU), а также научными институтами и высшими учебными заведениями провели работу по созданию корпуса казахского языка для национальной языковой модели KazLLM.

Это позволит создать эффективные решения для обработки, перевода и анализа текстовой информации на казахском языке, а также интегрировать казахский язык в современные технологии. В условиях глобализации и стремления сохранить культурную самобытность страны этот проект приобретает особую актуальность.

На данный момент доступна версия KazLLM с открытым исходным кодом на платформе https://huggingface.co/issai.