В Казахстане разработали большую языковую модель KazLLM - Центр цифровых прав

В соответствии с поручением главы государства Касым-Жомарта Токаева Министерство науки и высшего образования Республики Казахстан совместно с Институтом умных систем и искусственного интеллекта при Назарбаев Университете (ISSAI NU), а также научными институтами и высшими учебными заведениями провели работу по созданию корпуса казахского языка для национальной языковой модели KazLLM.

Это позволит создать эффективные решения для обработки, перевода и анализа текстовой информации на казахском языке, а также интегрировать казахский язык в современные технологии. В условиях глобализации и стремления сохранить культурную самобытность страны этот проект приобретает особую актуальность.

На данный момент доступна версия KazLLM с открытым исходным кодом на платформе https://huggingface.co/issai.

В разработке корпуса казахского языка для KazLLM приняли участие более 140 учёных и сотрудников 26 ведущих научных институтов и вузов страны. Они подготовили большие объёмы данных по экономике, финансам, математике, истории, биологии, химии, медицине, технологиям и другим 115 областям науки на казахском языке.

Например, Казахский национальный университет имени аль-Фараби подготовил данные по философии, этике, PR, астрономии, астрофизике и информационным технологиям, Институт математики и математического моделирования — по математике, Институт истории и этнологии имени Ш. Уалиханова — по истории, а медицинские университеты — по медицине.

Сотрудничество с научными и образовательными учреждениями позволило создать уникальный контент на казахском языке, что обеспечит качественную и эффективную разработку модели.

Ранее глава Минцифры Казахстана Жаслан Мадиев говорил, что разработка модели будет завершена к концу 2024 года.

Министр не назвал сумму, которую тратят на разработку модели, но отметил, что у этого проекта также есть спонсоры, а расходы государства — это, в основном, зарплаты инженеров и разработчиков, которые тестируют модель перед запуском в открытый доступ.

«Эту модель еще надо поддерживать, потому что как только она будет выпущена на публику, будет одновременное обращение к ней от 10 до 50 тысяч пользователей. Она должна работать, не лежать. Ее можно будет применять на других платформах, к примеру, Яндекс, Googlе. То есть она должна быть в открытом доступе, и ее должны пользоваться все стартапы, компании и платформы», — подчеркнул глава МЦРИАП.