音声処理の研究記事 | 音声AI論文研究室

音声認識モデルWhisperに話者ラベル付きのテキストを「お手本」として渡すだけで、誰が話したかを区別しながら文字起こしできることがわかりました。

Whisper 話者分離音声認識

2026年5月16日公開

音声処理

2026年

「声」と「合言葉」で本人確認 ― テキスト依存型話者照合の軽量アンサンブル手法

「誰の声か」と「何を言ったか」を同時に確認するテキスト依存型話者照合で、最小検出コスト 0.0461・等価エラー率 1.3% という高精度を達成しました。

話者照合テキスト依存型検証アンサンブル学習

2026年5月16日公開

音声処理

2026年

音声AIは「言い直し」や「割り込み」にどこまで対応できるのか？——リアルな会話を再現するベンチマークが明かす現在地

人間の自然な「言い直し」「言い淀み」を含む音声で音声AIを評価する新しいベンチマークが提案されました。

運動直後の息切れした声を、音声AIはどこまで正しく聞き取れるのか？

運動直後の息切れや途切れを含む音声に対して、主要な音声認識モデルの精度がどれだけ低下するかを体系的に検証した研究です。

「誰の声？」を事前登録なしで聞き分ける――混合音声から話者埋め込みを直接予測する新手法

複数人の声が混ざった音声から、事前に「お手本の声」を登録しなくても、各話者の特徴を自動で見つけ出す手法を提案しました。

「口の動き」を読むAIで、騒がしい場所でも音声認識の精度が劇的に向上する

音声認識AIに「口の動きの形（ビゼム）」を明示的に学習させることで、騒音下での認識精度が大幅に向上することが示されました。

音声AIが「聞き落とす」問題を解決する ── 証拠ファーストの音声理解アーキテクチャ EvA

音声AIの弱点は推論能力ではなく、推論の前段階で音の手がかりを失ってしまう「証拠ボトルネック」にあることを明らかにしました。

テレビ放送の自動分類から見える、音声認識×マルチモーダルAIの「モデルサイズと精度」の現実

テレビ放送のニュース映像を、音声認識・話者分離・映像解析を組み合わせたAIパイプラインで自動分類する手法が提案されました。

Whisperエンコーダーの「層」を減らしても精度は保てるか？——SLAM-ASRにおけるモデル軽量化と復元の実験的検証

音声認識AIモデル Whisper のエンコーダーから層を2つ削っても、認識誤り率の悪化はわずか2〜4%に留まることが200回以上の実験で確認されました。

視覚言語モデルで議会演説を読み解く――歴史的文書のOCR精度と話者識別を大幅改善

スキャンされたイタリア議会議事録に対し、視覚言語モデル（VLM）を用いた新しいパイプラインで従来のOCRよりも高精度な文字起こしを実現しました。

Vision-Language Model OCR 話者識別

2026年4月1日公開

音声処理

2026年

スマホで動く、賢い耳 - 複数人の会話をリアルタイムで区切る軽量AIモデル

背景の会話と主となる話者を区別し、誰が話しているかをリアルタイムで特定する新しい技術が提案されました。

長い会話も賢く理解する新技術『HELIX』- MambaとAttentionの良いとこ取りでAIは進化する

短い音声と長い音声では、最適なAIモデルの構造が異なることが示されました。

AIが家族の対話を「声」で再現する未来：複数話者・長時間対応の音声合成技術『MOSS-TTSD』

テキストの台本から、複数人が自然に対話する音声を最大60分間も生成できる新しいAI技術が提案されました。

スマホでの音声認識を高速化する新技術『LPA』：精度と速度のトレードオフを探る

現代のAIで広く使われるTransformerモデルの計算コスト問題を解決するため、計算量が少ない新機構「LPA」を提案しました。

オンデバイスAI 音声認識 Transformer

2026年3月22日公開

音声処理

2026年

「あなただけの合言葉」をAIが聞き分ける：軽量・高精度な個人向けキーワード検出技術

誰の声かを識別する「話者検証」と、特定の言葉を聞き取る「キーワード検出」を、一つの軽量なAIモデルで同時に学習する新手法を提案しています。

キーワードスポッティングマルチタスク学習話者検証

2026年3月22日公開

音声処理

2026年

スマホでのリアルタイム音声認識を高速化する新技術『Moonshine v2』

スマートフォンなどでのリアルタイム音声認識は、処理の遅延が大きな課題でした。

リアルタイム文字起こしの精度向上へ。過去の会話から文脈を補う新技術『SENS-ASR』

リアルタイム音声認識（ストリーミングASR）は、未来の音声が聞けないため、文脈を捉えきれず精度が落ちやすいという課題がありました。

複数人の同時会話もリアルタイムで文字起こし：Whisperベースの並列処理システム「SWIM」の提案

複数の人が同時に話す音声をリアルタイムで文字起こしする際、処理の遅延や精度低下という課題がありました。

リアルタイムASR Whisper スケーラビリティ

2026年3月15日公開

音声処理

2026年

リアルタイムも一括処理もこれ一つ。スマホで動く次世代音声認識『TC-BiMamba』

リアルタイム文字起こしと録音データの一括処理、両方に対応できる統一音声認識モデル「TC-BiMamba」が提案されました。

リアルタイム音声認識の新星『Voxtral Realtime』- Whisperに匹敵する精度を低遅延で実現

リアルタイムで音声を文字起こしする新しい音声認識モデル「Voxtral Realtime」が開発されました。

「なぜ」を学習するAI：声の感情表現を自在に操る新技術

テキスト読み上げAIが、文章の内容と感情を分離して学習する新しい手法が提案されました。

ノイズに強い音声認識の秘密：AIは「声」と「口の動き」をどう使い分けているのか？

AIは音声と映像（口の動き）を組み合わせることで、騒がしい場所でもより正確に言葉を認識します。

AIはいつ話すべき？家族の会話で「沈黙」を学ぶ技術

現在のAIアシスタントは、複数人が参加する会話において、話すべきタイミングと黙るべきタイミングの判断が苦手という課題があります。

対話システム大規模言語モデル自然言語処理

2026年3月14日公開

Whisperに「話者ラベル付きプロンプト」を与えるだけで、文字起こしと話者分離を同時にこなせるか？

「声」と「合言葉」で本人確認 ― テキスト依存型話者照合の軽量アンサンブル手法

音声AIは「言い直し」や「割り込み」にどこまで対応できるのか？——リアルな会話を再現するベンチマークが明かす現在地

運動直後の息切れした声を、音声AIはどこまで正しく聞き取れるのか？

「誰の声？」を事前登録なしで聞き分ける――混合音声から話者埋め込みを直接予測する新手法

「口の動き」を読むAIで、騒がしい場所でも音声認識の精度が劇的に向上する

音声AIが「聞き落とす」問題を解決する ── 証拠ファーストの音声理解アーキテクチャ EvA

テレビ放送の自動分類から見える、音声認識×マルチモーダルAIの「モデルサイズと精度」の現実

Whisperエンコーダーの「層」を減らしても精度は保てるか？——SLAM-ASRにおけるモデル軽量化と復元の実験的検証

視覚言語モデルで議会演説を読み解く――歴史的文書のOCR精度と話者識別を大幅改善

スマホで動く、賢い耳 - 複数人の会話をリアルタイムで区切る軽量AIモデル

長い会話も賢く理解する新技術『HELIX』- MambaとAttentionの良いとこ取りでAIは進化する

AIが家族の対話を「声」で再現する未来：複数話者・長時間対応の音声合成技術『MOSS-TTSD』

スマホでの音声認識を高速化する新技術『LPA』：精度と速度のトレードオフを探る

「あなただけの合言葉」をAIが聞き分ける：軽量・高精度な個人向けキーワード検出技術

スマホでのリアルタイム音声認識を高速化する新技術『Moonshine v2』

リアルタイム文字起こしの精度向上へ。過去の会話から文脈を補う新技術『SENS-ASR』

複数人の同時会話もリアルタイムで文字起こし：Whisperベースの並列処理システム「SWIM」の提案

リアルタイムも一括処理もこれ一つ。スマホで動く次世代音声認識『TC-BiMamba』

リアルタイム音声認識の新星『Voxtral Realtime』- Whisperに匹敵する精度を低遅延で実現

「なぜ」を学習するAI：声の感情表現を自在に操る新技術

ノイズに強い音声認識の秘密：AIは「声」と「口の動き」をどう使い分けているのか？

AIはいつ話すべき？ 家族の会話で「沈黙」を学ぶ技術

AIはいつ話すべき？家族の会話で「沈黙」を学ぶ技術