音声認識の研究記事 | 音声AI論文研究室

音声認識モデルWhisperに話者ラベル付きのテキストを「お手本」として渡すだけで、誰が話したかを区別しながら文字起こしできることがわかりました。

Whisper 話者分離音声認識

2026年5月16日公開

音声処理

2026年

音声AIは「言い直し」や「割り込み」にどこまで対応できるのか？——リアルな会話を再現するベンチマークが明かす現在地

人間の自然な「言い直し」「言い淀み」を含む音声で音声AIを評価する新しいベンチマークが提案されました。

運動直後の息切れした声を、音声AIはどこまで正しく聞き取れるのか？

運動直後の息切れや途切れを含む音声に対して、主要な音声認識モデルの精度がどれだけ低下するかを体系的に検証した研究です。

テレビ放送の自動分類から見える、音声認識×マルチモーダルAIの「モデルサイズと精度」の現実

テレビ放送のニュース映像を、音声認識・話者分離・映像解析を組み合わせたAIパイプラインで自動分類する手法が提案されました。

Whisperエンコーダーの「層」を減らしても精度は保てるか？——SLAM-ASRにおけるモデル軽量化と復元の実験的検証

音声認識AIモデル Whisper のエンコーダーから層を2つ削っても、認識誤り率の悪化はわずか2〜4%に留まることが200回以上の実験で確認されました。

スマホで動く、賢い耳 - 複数人の会話をリアルタイムで区切る軽量AIモデル

背景の会話と主となる話者を区別し、誰が話しているかをリアルタイムで特定する新しい技術が提案されました。

スマホの性能差は乗り越えられる？プライバシーを守りながら音声AIを育てる新技術

多くのスマホでAIを学習させる「連合学習」では、端末ごとの性能差が処理速度のボトルネックになるという課題がありました。

連合学習オンデバイスAI プライバシー保護

2026年3月24日公開

音声処理

2026年

長い会話も賢く理解する新技術『HELIX』- MambaとAttentionの良いとこ取りでAIは進化する

短い音声と長い音声では、最適なAIモデルの構造が異なることが示されました。

スマホでの音声認識を高速化する新技術『LPA』：精度と速度のトレードオフを探る

現代のAIで広く使われるTransformerモデルの計算コスト問題を解決するため、計算量が少ない新機構「LPA」を提案しました。

オンデバイスAI 音声認識 Transformer

2026年3月22日公開

プライバシー・セキュリティ

2026年

聞こえない攻撃から音声AIを守るには？ Wav2Vecモデルへの敵対的攻撃とその対策

音声認識AIは、人にはノイズにしか聞こえない特殊な音をマイクで拾うと、誤った文字起こしをしてしまう脆弱性があります。

スマホでのリアルタイム音声認識を高速化する新技術『Moonshine v2』

スマートフォンなどでのリアルタイム音声認識は、処理の遅延が大きな課題でした。

リアルタイム文字起こしの精度向上へ。過去の会話から文脈を補う新技術『SENS-ASR』

リアルタイム音声認識（ストリーミングASR）は、未来の音声が聞けないため、文脈を捉えきれず精度が落ちやすいという課題がありました。

リアルタイムも一括処理もこれ一つ。スマホで動く次世代音声認識『TC-BiMamba』

リアルタイム文字起こしと録音データの一括処理、両方に対応できる統一音声認識モデル「TC-BiMamba」が提案されました。

リアルタイム音声認識の新星『Voxtral Realtime』- Whisperに匹敵する精度を低遅延で実現

リアルタイムで音声を文字起こしする新しい音声認識モデル「Voxtral Realtime」が開発されました。

ノイズに強い音声認識の秘密：AIは「声」と「口の動き」をどう使い分けているのか？

AIは音声と映像（口の動き）を組み合わせることで、騒がしい場所でもより正確に言葉を認識します。

音声認識マルチモーダルAI 説明可能AI

2026年3月14日公開

「音声認識」の研究記事

Whisperに「話者ラベル付きプロンプト」を与えるだけで、文字起こしと話者分離を同時にこなせるか？

音声AIは「言い直し」や「割り込み」にどこまで対応できるのか？——リアルな会話を再現するベンチマークが明かす現在地

運動直後の息切れした声を、音声AIはどこまで正しく聞き取れるのか？

テレビ放送の自動分類から見える、音声認識×マルチモーダルAIの「モデルサイズと精度」の現実

Whisperエンコーダーの「層」を減らしても精度は保てるか？——SLAM-ASRにおけるモデル軽量化と復元の実験的検証

スマホで動く、賢い耳 - 複数人の会話をリアルタイムで区切る軽量AIモデル

スマホの性能差は乗り越えられる？プライバシーを守りながら音声AIを育てる新技術

長い会話も賢く理解する新技術『HELIX』- MambaとAttentionの良いとこ取りでAIは進化する

スマホでの音声認識を高速化する新技術『LPA』：精度と速度のトレードオフを探る

聞こえない攻撃から音声AIを守るには？ Wav2Vecモデルへの敵対的攻撃とその対策

スマホでのリアルタイム音声認識を高速化する新技術『Moonshine v2』

リアルタイム文字起こしの精度向上へ。過去の会話から文脈を補う新技術『SENS-ASR』

リアルタイムも一括処理もこれ一つ。スマホで動く次世代音声認識『TC-BiMamba』

リアルタイム音声認識の新星『Voxtral Realtime』- Whisperに匹敵する精度を低遅延で実現

ノイズに強い音声認識の秘密：AIは「声」と「口の動き」をどう使い分けているのか？