В «VK Видео» улучшили распознавание речи с помощью алгоритмов ИИ

Компания VK, известная ранее как Mail.ru Group, представила новое обновление, касающееся интеллектуальных функций на платформе «VK Видео». Внедрение усовершенствованных алгоритмов искусственного интеллекта позволило значительно улучшить автоматическое распознавание речи и создание субтитров для видеоконтента, включая шоу и клипы.

Дайджест нового функционала впечатляет: точность расшифровки улучшилась на 25%. Более того, нейросети овладели множеством новых слов, среди которых попались мемы, имена собственные и специальные термины. 

Представители компании сделали комментарий:

Автоматически создаваемые субтитры формируются с помощью ML-моделей. Эти модели не только генерируют текст, но и расставляют необходимые знаки препинания, синхронизируя всё это с видеопотоком. Процесс обработки аудио состоит из нескольких этапов. В первую очередь нейросеть удаляет посторонние шумы, затем распознаёт речь, и только потом преобразует её в текст. После этого вступают в дело модели, отвечающие за пунктуацию и денормализацию, которые превращают нагромождение слов в читаемый формат. В финале текст синхронизируется с аудиодорожкой, что улучшает восприятие как профессиональных, так и любительских роликов.

Изображение: vk.com

В обозримом будущем нейросети дополнительно приобретут возможность разделять речи разных спикеров, что упростит восприятие субтитров.

Источник: VK

Рассказываем про новые гаджеты и технологии ВКонтакте, подпишись! 

Техносовет