Казахстан открывает будущее для искусственного интеллекта благодаря своей Первой масштабной языковой модели

АСТАНА — Институт интеллектуальных систем и искусственного интеллекта (ISSAI) Назарбаев Университета представил президенту Касым-Жомарту Токаеву первую в Казахстане крупную языковую модель (LLM), что стало важной вехой в продвижении страны на мировую арену искусственного интеллекта (ИИ).

Основанный на технологии нейронных сетей, проект служит основой для казахской версии ChatGPT.

“KazLLM — это краеугольный камень, на котором казахстанское ИТ-сообщество может создавать будущие продукты и услуги, используя отечественные инновации”, — сказала Мадина Абдрахманова, заместитель директора ISSAI по внешним связям и ведущий специалист по обработке данных, в интервью Казинформу.

Она подчеркнула острую необходимость разработки модели на национальном языке и указала на риски, связанные с использованием бесплатных версий ChatGPT. 

“Бесплатные версии работают по принципу, что вы платите своими данными, а не деньгами. Данные — это новое золото. Многие не осознают рисков, особенно для государственных учреждений. Государственные органы должны использовать сертифицированные приложения, размещенные на территории Казахстана”, — сказала Абдрахманова.

Казахстан присоединяется к таким странам, как Южная Корея, Китай, Объединенные Арабские Эмираты, Великобритания и Франция, в разработке языковых моделей, адаптированных к их культурному и историческому контексту.

Искусственный интеллект с местным уклоном

Основанная в 2019 году, ISSAI начинала с небольшой команды, которая занималась исследованиями в области искусственного интеллекта и созданием наборов данных для казахского языка. Работа над KazLLM началась в апреле 2024 года, и из-за отсутствия собственной серверной инфраструктуры команда использовала облачных провайдеров для обучения.

“Около 95% данных было получено из открытых источников, а дополнительные данные были получены путем перевода с использованием наших лучших практик. В нашу команду входят инженеры по машинному обучению и квалифицированные лингвисты”, — сказала Абдрахманова.

Команда собрала более 150 миллиардов токенов для проекта, который основан на моделях на основе transformer, требующих миллиардов параметров. Они разрабатывают две версии: модель с 8 миллиардами параметров и модель с 70 миллиардами параметров.

“Наша модель понимает казахский, русский, английский и турецкий языки и может выполнять такие задачи, как перевод и обобщение текста, которые особенно полезны для аналитической работы”, — сказала она.

Абдрахманова отметила, что в планах института — дать модели возможность обрабатывать голос и изображения. “Во всем мире многие продукты сочетают языковые модели с пониманием изображений, но гораздо меньшее количество продуктов предназначено для обработки звука. Это еще более сложная задача, но мы работаем над ней”, — сказала она.

Ранее команда ISSAI разработала приложение Soyle, первое в Казахстане многофункциональное речевое приложение. В отличие от исследовательского проекта KazLLM, приложение Soyle является полностью разработанным продуктом, основанным на более ранних исследованиях, и было запущено 20 ноября.

Приложение Soyle может переводить с казахского, русского, английского и турецкого языков, преобразуя речь в текст и текст в речь из текста в речь. Хотя оно еще не работает в режиме реального времени, ведется дальнейшая разработка.

Возможности и проблемы

Абдрахманова подчеркнула важность сохранения местных талантов. В проекте KazLLM участвуют студенты Назарбаев университета, Астанинского IT-университета, выпускники программы «Болашак» и других местных учебных заведений.

“Многие талантливые студенты уезжают из Казахстана в поисках возможностей за границей. Проекты, подобные этому, позволяют нам удерживать их, привлекая к интересной и значимой работе”, — сказала она.

По словам Абдрахмановой, в рамках проекта была обучена команда из 70 человек. 

“Разработка крупных языковых моделей является редкостью во всем мире. Возможность поделиться этим опытом и обучить нашу молодежь была бесценной. Наши молодые люди уникальны — они мотивированы, быстро учатся и способны добиваться больших успехов”, — сказала она.

Абдрахманова выделила данные, человеческий капитал и оборудование в качестве трех важнейших компонентов разработки искусственного интеллекта. 

“В настоящее время мы являемся единственной академической организацией в Центральной Азии, располагающей серверами Nvidia, основным поставщиком чипов и инфраструктуры для искусственного интеллекта. Однако проблемы с поставками препятствуют нашему прогрессу”, — сказала она.

Она добавила, что, хотя финансирование и талантливые специалисты могут быть обеспечены, потребность в современных отечественных серверах является существенным узким местом. 

“Если мы приобретем серверы для Казахстана, то приобретем не только опыт обучения моделям, но и умение работать с этими серверами”, — сказала Абдрахманова.

Смотрите также

Предыдущая запись Объем Товарооборота Между Казахстаном И США Достиг Рекордных 3,3 Млрд Долларов
Следующая запись Казахстану предстоит важный переход к низкоуглеродным технологиям