Студенты Санкт-Петербургского государственного университета аэрокосмического приборостроения (ГУАП) создали тренажер для улучшения произношения на английском языке с использованием технологий нейронных сетей. Об этом сообщает «Газета.Ru».
Созданная система основана на нейросети Wav2Vec2, которая преобразует речь пользователя в цифровой формат. Это достигается путем анализа акустических сигналов и применения технологий автоматического распознавания речи. Используются модели, обученные на больших объемах данных, для идентификации фонем, слов и фраз.
Пользователи могут записывать произношение, получать автоматическую транскрипцию и сравнивать свои результаты с эталонными версиями. Программа помогает выявлять ошибки, предоставляет рекомендации и отслеживает успехи в обучении.
«Мы собрали датасет с аудио и соответствующими фонемными транскрипциями. После этого был создан прототип системы CAPT, который позволяет точно распознавать произношение на уровне фонем. Система анализирует акустические данные и сравнивает их с эталонной моделью. Она генерирует обратную связь для пользователя, указывая на ошибки в произношении отдельных звуков, а также выделяя проблемные слова или части фраз. Дополнительно система может воспроизводить эталонное произношение для подражания», – пояснил «Газете.Ru» один из авторов разработки Михаил Дорохин.

Использование модели Wav2Vec2 дает возможность точно распознавать речь и качественно анализировать фонетическую транскрипцию. Этот тренажер окажется полезным для изучающих английский язык, позволяя им улучшить разговорные навыки независимо от наличия преподавателя или носителя языка.
В будущем разработчики намерены расширить функциональные возможности системы, интегрировать её с другими образовательными инструментами и усовершенствовать алгоритмы обратной связи для более глубокого анализа ошибок в произношении.