Google разрабатывает систему для определения языка жестов при видеозвонках

Последнее обновление Май 9, 2022

Google работает над технологиями, которые делают видеозвонки более доступными, и разработала новую систему, которая позволяет в реальном времени определять, когда участник использует язык жестов, с целью выделения их в групповых видеозвонках.

Большинство служб видеосвязи используют системы для выделения людей, которые говорят вслух на групповых собраниях, что неудобно для людей с проблемами слуха при общении с помощью языка жестов.

Чтобы решить эту проблему, группа исследователей из Google Research разработала модель определения языка жестов в реальном времени, основанную на оценке поз, которые позволяют идентифицировать людей как говорящих при общении с этим языком.

Система, разработанная Google и представленная на европейской конференции по компьютерному зрению ECCV'20, имеет облегченный дизайн, который снижает нагрузку на ЦП, необходимую для ее запуска, чтобы не влиять на качество связи.

Инструмент использует модель для оценки поз рук и кистей, известную как PoseNet, которая сокращает данные изображения до ряда маркеров на глазах, носу, руках и плечах пользователей, среди прочего, чтобы их можно было обнаружить. также движение.

Модель Google показывает почти 80-процентную эффективность в обнаружении людей, говорящих на языке жестов, когда она использует только 0,000003 секунды данных, в то время как при использовании предыдущих 50 кадров эффективность возрастает до 83,4 процента. сотня.

Точно так же исследователи добавили к модели дополнительный уровень архитектуры долговременной и краткосрочной памяти, который включает «память за предыдущие временные шаги, но без возврата», и с помощью которого достигается эффективность 91,5%. цент всего за 3,5 миллисекунды.

Чтобы улучшить доступность платформ видеоконференцсвязи, исследователи сделали свой инструмент совместимым с ними, чтобы его можно было использовать для обозначения тех, кто использует язык жестов, как «говорящих».

Эта система излучает ультразвуковые звуковые волны, когда предупреждает человека, использующего этот язык, так что люди не могут их воспринимать, но их технологии обнаружения речи могут, таким образом выделяя пользователя в видеозвонках.

Исследователи опубликовали свою модель обнаружения с открытым исходным кодом на платформе GitHub и надеются, что их технология может быть «использована, чтобы люди, говорящие на жестовом языке, могли более удобно использовать видеоконференции».

—

По информации Excelsior / EUROPA PRESS

Фотография: Pixabay

Источник записи: https://www.globalmedia.mx