Компания VK, известная ранее как Mail.ru Group, представила новое обновление, касающееся интеллектуальных функций на платформе «VK Видео». Внедрение усовершенствованных алгоритмов искусственного интеллекта позволило значительно улучшить автоматическое распознавание речи и создание субтитров для видеоконтента, включая шоу и клипы.
Дайджест нового функционала впечатляет: точность расшифровки улучшилась на 25%. Более того, нейросети овладели множеством новых слов, среди которых попались мемы, имена собственные и специальные термины.
Представители компании сделали комментарий:
Автоматически создаваемые субтитры формируются с помощью ML-моделей. Эти модели не только генерируют текст, но и расставляют необходимые знаки препинания, синхронизируя всё это с видеопотоком. Процесс обработки аудио состоит из нескольких этапов. В первую очередь нейросеть удаляет посторонние шумы, затем распознаёт речь, и только потом преобразует её в текст. После этого вступают в дело модели, отвечающие за пунктуацию и денормализацию, которые превращают нагромождение слов в читаемый формат. В финале текст синхронизируется с аудиодорожкой, что улучшает восприятие как профессиональных, так и любительских роликов.
В обозримом будущем нейросети дополнительно приобретут возможность разделять речи разных спикеров, что упростит восприятие субтитров.
Источник: VK