日本語タイトル#
人間のフィードバックに基づく動的音声感情認識
英文タイトル#
Human Feedback Driven Dynamic Speech Emotion Recognition
日本語要約#
この研究は、動的音声感情認識の新しい分野を探求することを目的としています。従来の方法とは異なり、各オーディオトラックは異なる瞬間に活性化される一連の感情に関連付けられていると仮定します。この研究は特に感情の 3D アバターのアニメーションに焦点を当てています。古典的な音声感情認識モデルの訓練、感情シーケンスの合成生成、そして人間のフィードバックに基づくさらなるモデル改善を含む多段階の方法を提案します。さらに、ディリクレ分布に基づく感情混合モデリングの新しいアプローチを導入します。これらのモデルは、3D 顔アニメーションデータセットから抽出された真実の感情に基づいて評価されます。私たちは、スライディングウィンドウ法と比較します。実験結果は、感情混合のモデリングにおけるディリクレベースのアプローチの有効性を示しています。人間のフィードバックを取り入れることで、モデルの品質がさらに向上し、簡素化されたアノテーションプロセスを提供します。
英文要約#
This work proposes to explore a new area of dynamic speech emotion recognition. Unlike traditional methods, we assume that each audio track is associated with a sequence of emotions active at different moments in time. The study particularly focuses on the animation of emotional 3D avatars. We propose a multi-stage method that includes the training of a classical speech emotion recognition model, synthetic generation of emotional sequences, and further model improvement based on human feedback. Additionally, we introduce a novel approach to modeling emotional mixtures based on the Dirichlet distribution. The models are evaluated based on ground-truth emotions extracted from a dataset of 3D facial animations. We compare our models against the sliding window approach. Our experimental results show the effectiveness of Dirichlet-based approach in modeling emotional mixtures. Incorporating human feedback further improves the model quality while providing a simplified annotation procedure.
文章ページ#
PDF 取得#
抖音でスキャンしてさらに素晴らしいコンテンツを確認