Казахстан открывает будущее для искусственного интеллекта благодаря своей Первой масштабной языковой модели
АСТАНА — Институт интеллектуальных систем и искусственного интеллекта (ISSAI) Назарбаев Университета представил президенту Касым-Жомарту Токаеву первую в Казахстане крупную языковую модель (LLM), что стало важной вехой в продвижении страны на мировую арену искусственного интеллекта (ИИ).
Основанный на технологии нейронных сетей, проект служит основой для казахской версии ChatGPT.
“KazLLM — это краеугольный камень, на котором казахстанское ИТ-сообщество может создавать будущие продукты и услуги, используя отечественные инновации”, — сказала Мадина Абдрахманова, заместитель директора ISSAI по внешним связям и ведущий специалист по обработке данных, в интервью Казинформу.
Она подчеркнула острую необходимость разработки модели на национальном языке и указала на риски, связанные с использованием бесплатных версий ChatGPT.
“Бесплатные версии работают по принципу, что вы платите своими данными, а не деньгами. Данные — это новое золото. Многие не осознают рисков, особенно для государственных учреждений. Государственные органы должны использовать сертифицированные приложения, размещенные на территории Казахстана”, — сказала Абдрахманова.
Казахстан присоединяется к таким странам, как Южная Корея, Китай, Объединенные Арабские Эмираты, Великобритания и Франция, в разработке языковых моделей, адаптированных к их культурному и историческому контексту.
Искусственный интеллект с местным уклоном
Основанная в 2019 году, ISSAI начинала с небольшой команды, которая занималась исследованиями в области искусственного интеллекта и созданием наборов данных для казахского языка. Работа над KazLLM началась в апреле 2024 года, и из-за отсутствия собственной серверной инфраструктуры команда использовала облачных провайдеров для обучения.
“Около 95% данных было получено из открытых источников, а дополнительные данные были получены путем перевода с использованием наших лучших практик. В нашу команду входят инженеры по машинному обучению и квалифицированные лингвисты”, — сказала Абдрахманова.
Команда собрала более 150 миллиардов токенов для проекта, который основан на моделях на основе transformer, требующих миллиардов параметров. Они разрабатывают две версии: модель с 8 миллиардами параметров и модель с 70 миллиардами параметров.
“Наша модель понимает казахский, русский, английский и турецкий языки и может выполнять такие задачи, как перевод и обобщение текста, которые особенно полезны для аналитической работы”, — сказала она.
Абдрахманова отметила, что в планах института — дать модели возможность обрабатывать голос и изображения. “Во всем мире многие продукты сочетают языковые модели с пониманием изображений, но гораздо меньшее количество продуктов предназначено для обработки звука. Это еще более сложная задача, но мы работаем над ней”, — сказала она.
Ранее команда ISSAI разработала приложение Soyle, первое в Казахстане многофункциональное речевое приложение. В отличие от исследовательского проекта KazLLM, приложение Soyle является полностью разработанным продуктом, основанным на более ранних исследованиях, и было запущено 20 ноября.
Приложение Soyle может переводить с казахского, русского, английского и турецкого языков, преобразуя речь в текст и текст в речь из текста в речь. Хотя оно еще не работает в режиме реального времени, ведется дальнейшая разработка.
Возможности и проблемы
Абдрахманова подчеркнула важность сохранения местных талантов. В проекте KazLLM участвуют студенты Назарбаев университета, Астанинского IT-университета, выпускники программы «Болашак» и других местных учебных заведений.
“Многие талантливые студенты уезжают из Казахстана в поисках возможностей за границей. Проекты, подобные этому, позволяют нам удерживать их, привлекая к интересной и значимой работе”, — сказала она.
По словам Абдрахмановой, в рамках проекта была обучена команда из 70 человек.
“Разработка крупных языковых моделей является редкостью во всем мире. Возможность поделиться этим опытом и обучить нашу молодежь была бесценной. Наши молодые люди уникальны — они мотивированы, быстро учатся и способны добиваться больших успехов”, — сказала она.
Абдрахманова выделила данные, человеческий капитал и оборудование в качестве трех важнейших компонентов разработки искусственного интеллекта.
“В настоящее время мы являемся единственной академической организацией в Центральной Азии, располагающей серверами Nvidia, основным поставщиком чипов и инфраструктуры для искусственного интеллекта. Однако проблемы с поставками препятствуют нашему прогрессу”, — сказала она.
Она добавила, что, хотя финансирование и талантливые специалисты могут быть обеспечены, потребность в современных отечественных серверах является существенным узким местом.
“Если мы приобретем серверы для Казахстана, то приобретем не только опыт обучения моделям, но и умение работать с этими серверами”, — сказала Абдрахманова.
Смотрите также
- Кафе Tary привносит казахскую культуру в сердце Чикаго
- Машиностроительный сектор Казахстана удваивает инвестиции
- Результаты работы водного сектора: Казахстан развивает водную инфраструктуру для устойчивого будущего
- Казахстан обсуждает с Wabtec производство экологически чистых локомотивов
- Казахстан открывает будущее для искусственного интеллекта благодаря своей Первой масштабной языковой модели
- Казахстан создаст единого оператора по авиатопливообеспечению и модернизирует транспортную инфраструктуру
- КазМунайГаз» и итальянская Eni приступают к строительству гибридной электростанции в Жанаозене
- Казахстан и Синьцзян стремятся удвоить торговлю, создают Совет сотрудничества с Гонконгом
- Инвестиции в облигации Министерства финансов Казахстана достигли рекордно высокого уровня
- Австралийские компании готовы развивать горнодобывающий и металлургический комплекс в Казахстане