「Whisper」に関する研究記事 5 件を、新しい順に掲載しています。
音声認識モデルWhisperに話者ラベル付きのテキストを「お手本」として渡すだけで、誰が話したかを区別しながら文字起こしできることがわかりました。
音声認識で広く使われるWhisperのエンコーダを、環境音や音楽も理解できるように再学習させた「Whisper-AuT」が提案されました。
音声AIの弱点は推論能力ではなく、推論の前段階で音の手がかりを失ってしまう「証拠ボトルネック」にあることを明らかにしました。
音声認識AIモデル Whisper のエンコーダーから層を2つ削っても、認識誤り率の悪化はわずか2〜4%に留まることが200回以上の実験で確認されました。
複数の人が同時に話す音声をリアルタイムで文字起こしする際、処理の遅延や精度低下という課題がありました。
ブックマークするには Google アカウントでログインしてください。端末をまたいで同期されます。