Сергею Петрину рассказали, как подготавливают Воронеж к новому отопительному сезону

© Изображение создано ИИ "Регина"
Исследователи Сбербанка, Института AIRI и МФТИ представили новый AI-инструмент, который значительно улучшает качество работы контакт-центров. Модель под названием Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER) демонстрирует высокую точность распознавания эмоций человеческой речи, достигнув 74,6% на сложном датасете IEMOCAP.
Инновационная система сначала выявляет ключевые характеристики речи, а затем анализирует звуковые параметры, такие как громкость и тональность. Эти данные соединяются с помощью специального механизма, что позволяет более точно определять эмоции говорящего.
Он поможет решать проблемы несоответствия между аудиоданными и эмоциональными датасетами, что делает инструмент полезным для голосовых чат-ботов, кол-центров и приложений для мониторинга психологического здоровья. Исходный код модели доступен в открытом доступе, что позволяет другим исследователям проводить эксперименты и адаптировать модель для различных языков и условий использования. К примеру, инструмент можно использовать в голосовых помощниках и контакт-центрах.