Искусственный интеллект начал лучше понимать редкие и малоизвестные языки

Фото: Freepik

Опубликовано: 18.04.2026, 17:33

Большие языковые модели искусственного интеллекта значительно продвинулись в работе с редкими и малоизвестными языками. К таким выводам пришли аналитики компании RWS, результаты исследования которых приводит TechRadar.

Одним из примеров стал язык киньяруанда, на котором говорят около 12 миллионов человек в Руанде, Уганде и Демократической Республике Конго. Модель Google Gemini Pro получила высокие оценки качества работы с ним — более 4,5 балла из 5.

Эксперты связывают прогресс с тем, что современные ИИ-модели используют общие закономерности разных языков. Это позволяет им частично компенсировать нехватку данных для редких языков за счет межъязыкового переноса знаний.

Дополнительным фактором называют развитие токенизаторов — систем, которые разбивают текст на небольшие элементы для обработки. Улучшения в этой области помогают моделям эффективнее работать с языковыми структурами.

В ходе исследования также выявлен эффект «дрейфа бенчмарка», при котором показатели моделей меняются при переходе между версиями. В отдельных задачах более новые системы могут уступать предыдущим поколениям.

Отмечается, что эффективность токенизации может значительно различаться между моделями — в некоторых случаях разница достигает 3,5 раза при работе с конкретными языками.

Исследователи подчеркивают, что прежний акцент разработчиков был сосредоточен на английском и нескольких крупных языках. Сейчас подход постепенно меняется в сторону расширения языкового охвата и поддержки более широкой аудитории.

При этом эксперты отмечают, что высокие оценки не всегда отражают реальное владение языком. Тем не менее развитие ИИ постепенно снижает языковые барьеры и расширяет возможности цифровой коммуникации.

Техносовет