オンデバイスAI の研究記事 | 音声AI論文研究室

連合学習は端末からデータを出さずに学習できる一方、「全体最適なモデル」と「各端末に特化したモデル」を両立しにくいという根本的な課題を抱えています。

連合学習 Mixture-of-Experts プライバシー保護

2026年5月21日公開

音声処理

2026年

スマホで動く、賢い耳 - 複数人の会話をリアルタイムで区切る軽量AIモデル

背景の会話と主となる話者を区別し、誰が話しているかをリアルタイムで特定する新しい技術が提案されました。

スマホの性能差は乗り越えられる？プライバシーを守りながら音声AIを育てる新技術

多くのスマホでAIを学習させる「連合学習」では、端末ごとの性能差が処理速度のボトルネックになるという課題がありました。

連合学習オンデバイスAI プライバシー保護

2026年3月24日公開

音声処理

2026年

長い会話も賢く理解する新技術『HELIX』- MambaとAttentionの良いとこ取りでAIは進化する

短い音声と長い音声では、最適なAIモデルの構造が異なることが示されました。

低遅延で家族の声を聞き取りやすく。雑音に強い『離散音声表現』技術

音声データを数値の連続ではなく『トークン』という離散的な単位に変換し、音声とノイズをより明確に分離する新技術が提案されました。

スマホでの音声認識を高速化する新技術『LPA』：精度と速度のトレードオフを探る

現代のAIで広く使われるTransformerモデルの計算コスト問題を解決するため、計算量が少ない新機構「LPA」を提案しました。

オンデバイスAI 音声認識 Transformer

2026年3月22日公開

音声処理

2026年

「あなただけの合言葉」をAIが聞き分ける：軽量・高精度な個人向けキーワード検出技術

誰の声かを識別する「話者検証」と、特定の言葉を聞き取る「キーワード検出」を、一つの軽量なAIモデルで同時に学習する新手法を提案しています。

キーワードスポッティングマルチタスク学習話者検証

2026年3月22日公開

機械学習

2025年

スマホでAIを動かす新潮流？パラメータ効率に優れた『Sprecher Networks』

新しいAIアーキテクチャ「Sprecher Networks」は、従来のモデルよりはるかに少ないパラメータ（部品）で動作します。

AIが『耳を澄ます』技術：変化する雑音に動的に適応する軽量ノイズ除去モデル

伝統的な信号処理とAIを融合させ、軽量でリアルタイムに動作する新しい音声ノイズ除去技術を提案しました。

スマホでのリアルタイム音声認識を高速化する新技術『Moonshine v2』

スマートフォンなどでのリアルタイム音声認識は、処理の遅延が大きな課題でした。

スマホAIを1000倍省エネに？物理アナログKANが拓く、次世代オンデバイス処理の可能性

AIの計算を物理的なアナログ回路（RNPU）で行う、新しいAIアーキテクチャ「アナログKAN」を提案しました。

オンデバイスAI 省エネルギーハードウェア

2026年3月15日公開

音声処理

2026年

リアルタイム文字起こしの精度向上へ。過去の会話から文脈を補う新技術『SENS-ASR』

リアルタイム音声認識（ストリーミングASR）は、未来の音声が聞けないため、文脈を捉えきれず精度が落ちやすいという課題がありました。

リアルタイムも一括処理もこれ一つ。スマホで動く次世代音声認識『TC-BiMamba』

リアルタイム文字起こしと録音データの一括処理、両方に対応できる統一音声認識モデル「TC-BiMamba」が提案されました。

リアルタイム音声認識の新星『Voxtral Realtime』- Whisperに匹敵する精度を低遅延で実現

リアルタイムで音声を文字起こしする新しい音声認識モデル「Voxtral Realtime」が開発されました。

大規模AIモデルを33%軽量化、スマホでの動作を最大50%高速にする新技術

大規模言語モデルを「枝刈り」と「知識蒸留」という2段階の手法で、パラメータ数を33.4%削減することに成功しました。

「何をしていたか」は残し、「誰が」は隠す。AIがプライバシーを仕分ける新技術

AIがセンサーデータから「活動内容」と「個人を特定しうる情報」を自動で仕分ける新しい技術が提案されました。

追加通信ゼロで実現する、各家庭に最適化されたAIモデル学習法

各端末のデータを集めずにAIを賢くする連合学習は、端末ごとのデータ内容の偏り（不均質性）が課題でした。

映像から空間を学ぶAI—連続する家族の会話を理解し続けるためのヒント

本研究は、テスト時（推論時）にAIモデルを適応させ、連続する映像から空間情報を捉え続ける新手法「Spatial-TTT」を提案しました。

ストリーム処理コンテキスト理解オンデバイスAI

2026年3月14日公開

「オンデバイスAI」の研究記事

「みんなのモデル」と「あなた専用のモデル」を両立する：FedCoE が示す連合学習の新しい設計

スマホで動く、賢い耳 - 複数人の会話をリアルタイムで区切る軽量AIモデル

スマホの性能差は乗り越えられる？プライバシーを守りながら音声AIを育てる新技術

長い会話も賢く理解する新技術『HELIX』- MambaとAttentionの良いとこ取りでAIは進化する

低遅延で家族の声を聞き取りやすく。雑音に強い『離散音声表現』技術

スマホでの音声認識を高速化する新技術『LPA』：精度と速度のトレードオフを探る

「あなただけの合言葉」をAIが聞き分ける：軽量・高精度な個人向けキーワード検出技術

スマホでAIを動かす新潮流？パラメータ効率に優れた『Sprecher Networks』

AIが『耳を澄ます』技術：変化する雑音に動的に適応する軽量ノイズ除去モデル

スマホでのリアルタイム音声認識を高速化する新技術『Moonshine v2』

スマホAIを1000倍省エネに？物理アナログKANが拓く、次世代オンデバイス処理の可能性

リアルタイム文字起こしの精度向上へ。過去の会話から文脈を補う新技術『SENS-ASR』

リアルタイムも一括処理もこれ一つ。スマホで動く次世代音声認識『TC-BiMamba』

リアルタイム音声認識の新星『Voxtral Realtime』- Whisperに匹敵する精度を低遅延で実現

大規模AIモデルを33%軽量化、スマホでの動作を最大50%高速にする新技術

「何をしていたか」は残し、「誰が」は隠す。AIがプライバシーを仕分ける新技術

追加通信ゼロで実現する、各家庭に最適化されたAIモデル学習法

映像から空間を学ぶAI—連続する家族の会話を理解し続けるためのヒント