音声処理 の研究記事 23 件を、新しい順に掲載しています。
音声認識モデルWhisperに話者ラベル付きのテキストを「お手本」として渡すだけで、誰が話したかを区別しながら文字起こしできることがわかりました。
「誰の声か」と「何を言ったか」を同時に確認するテキスト依存型話者照合で、最小検出コスト 0.0461・等価エラー率 1.3% という高精度を達成しました。
人間の自然な「言い直し」「言い淀み」を含む音声で音声AIを評価する新しいベンチマークが提案されました。
運動直後の息切れや途切れを含む音声に対して、主要な音声認識モデルの精度がどれだけ低下するかを体系的に検証した研究です。
複数人の声が混ざった音声から、事前に「お手本の声」を登録しなくても、各話者の特徴を自動で見つけ出す手法を提案しました。
音声認識AIに「口の動きの形(ビゼム)」を明示的に学習させることで、騒音下での認識精度が大幅に向上することが示されました。
音声AIの弱点は推論能力ではなく、推論の前段階で音の手がかりを失ってしまう「証拠ボトルネック」にあることを明らかにしました。
テレビ放送のニュース映像を、音声認識・話者分離・映像解析を組み合わせたAIパイプラインで自動分類する手法が提案されました。
音声認識AIモデル Whisper のエンコーダーから層を2つ削っても、認識誤り率の悪化はわずか2〜4%に留まることが200回以上の実験で確認されました。
スキャンされたイタリア議会議事録に対し、視覚言語モデル(VLM)を用いた新しいパイプラインで従来のOCRよりも高精度な文字起こしを実現しました。
背景の会話と主となる話者を区別し、誰が話しているかをリアルタイムで特定する新しい技術が提案されました。
短い音声と長い音声では、最適なAIモデルの構造が異なることが示されました。
テキストの台本から、複数人が自然に対話する音声を最大60分間も生成できる新しいAI技術が提案されました。
現代のAIで広く使われるTransformerモデルの計算コスト問題を解決するため、計算量が少ない新機構「LPA」を提案しました。
誰の声かを識別する「話者検証」と、特定の言葉を聞き取る「キーワード検出」を、一つの軽量なAIモデルで同時に学習する新手法を提案しています。
スマートフォンなどでのリアルタイム音声認識は、処理の遅延が大きな課題でした。
リアルタイム音声認識(ストリーミングASR)は、未来の音声が聞けないため、文脈を捉えきれず精度が落ちやすいという課題がありました。
複数の人が同時に話す音声をリアルタイムで文字起こしする際、処理の遅延や精度低下という課題がありました。
リアルタイム文字起こしと録音データの一括処理、両方に対応できる統一音声認識モデル「TC-BiMamba」が提案されました。
リアルタイムで音声を文字起こしする新しい音声認識モデル「Voxtral Realtime」が開発されました。
テキスト読み上げAIが、文章の内容と感情を分離して学習する新しい手法が提案されました。
AIは音声と映像(口の動き)を組み合わせることで、騒がしい場所でもより正確に言葉を認識します。
現在のAIアシスタントは、複数人が参加する会話において、話すべきタイミングと黙るべきタイミングの判断が苦手という課題があります。
ブックマークするには Google アカウントでログインしてください。端末をまたいで同期されます。