「話者分離」に関する研究記事 5 件を、新しい順に掲載しています。
音声認識モデルWhisperに話者ラベル付きのテキストを「お手本」として渡すだけで、誰が話したかを区別しながら文字起こしできることがわかりました。
複数人の声が混ざった音声から、事前に「お手本の声」を登録しなくても、各話者の特徴を自動で見つけ出す手法を提案しました。
テレビ放送のニュース映像を、音声認識・話者分離・映像解析を組み合わせたAIパイプラインで自動分類する手法が提案されました。
背景の会話と主となる話者を区別し、誰が話しているかをリアルタイムで特定する新しい技術が提案されました。
テキストの台本から、複数人が自然に対話する音声を最大60分間も生成できる新しいAI技術が提案されました。
ブックマークするには Google アカウントでログインしてください。端末をまたいで同期されます。