「音声認識」に関する研究記事 15 件を、新しい順に掲載しています。
音声認識モデルWhisperに話者ラベル付きのテキストを「お手本」として渡すだけで、誰が話したかを区別しながら文字起こしできることがわかりました。
人間の自然な「言い直し」「言い淀み」を含む音声で音声AIを評価する新しいベンチマークが提案されました。
運動直後の息切れや途切れを含む音声に対して、主要な音声認識モデルの精度がどれだけ低下するかを体系的に検証した研究です。
テレビ放送のニュース映像を、音声認識・話者分離・映像解析を組み合わせたAIパイプラインで自動分類する手法が提案されました。
音声認識AIモデル Whisper のエンコーダーから層を2つ削っても、認識誤り率の悪化はわずか2〜4%に留まることが200回以上の実験で確認されました。
背景の会話と主となる話者を区別し、誰が話しているかをリアルタイムで特定する新しい技術が提案されました。
多くのスマホでAIを学習させる「連合学習」では、端末ごとの性能差が処理速度のボトルネックになるという課題がありました。
短い音声と長い音声では、最適なAIモデルの構造が異なることが示されました。
現代のAIで広く使われるTransformerモデルの計算コスト問題を解決するため、計算量が少ない新機構「LPA」を提案しました。
音声認識AIは、人にはノイズにしか聞こえない特殊な音をマイクで拾うと、誤った文字起こしをしてしまう脆弱性があります。
スマートフォンなどでのリアルタイム音声認識は、処理の遅延が大きな課題でした。
リアルタイム音声認識(ストリーミングASR)は、未来の音声が聞けないため、文脈を捉えきれず精度が落ちやすいという課題がありました。
リアルタイム文字起こしと録音データの一括処理、両方に対応できる統一音声認識モデル「TC-BiMamba」が提案されました。
リアルタイムで音声を文字起こしする新しい音声認識モデル「Voxtral Realtime」が開発されました。
AIは音声と映像(口の動き)を組み合わせることで、騒がしい場所でもより正確に言葉を認識します。
ブックマークするには Google アカウントでログインしてください。端末をまたいで同期されます。