「オンデバイスAI」に関する研究記事 18 件を、新しい順に掲載しています。
連合学習は端末からデータを出さずに学習できる一方、「全体最適なモデル」と「各端末に特化したモデル」を両立しにくいという根本的な課題を抱えています。
背景の会話と主となる話者を区別し、誰が話しているかをリアルタイムで特定する新しい技術が提案されました。
多くのスマホでAIを学習させる「連合学習」では、端末ごとの性能差が処理速度のボトルネックになるという課題がありました。
短い音声と長い音声では、最適なAIモデルの構造が異なることが示されました。
音声データを数値の連続ではなく『トークン』という離散的な単位に変換し、音声とノイズをより明確に分離する新技術が提案されました。
現代のAIで広く使われるTransformerモデルの計算コスト問題を解決するため、計算量が少ない新機構「LPA」を提案しました。
誰の声かを識別する「話者検証」と、特定の言葉を聞き取る「キーワード検出」を、一つの軽量なAIモデルで同時に学習する新手法を提案しています。
新しいAIアーキテクチャ「Sprecher Networks」は、従来のモデルよりはるかに少ないパラメータ(部品)で動作します。
伝統的な信号処理とAIを融合させ、軽量でリアルタイムに動作する新しい音声ノイズ除去技術を提案しました。
スマートフォンなどでのリアルタイム音声認識は、処理の遅延が大きな課題でした。
AIの計算を物理的なアナログ回路(RNPU)で行う、新しいAIアーキテクチャ「アナログKAN」を提案しました。
リアルタイム音声認識(ストリーミングASR)は、未来の音声が聞けないため、文脈を捉えきれず精度が落ちやすいという課題がありました。
リアルタイム文字起こしと録音データの一括処理、両方に対応できる統一音声認識モデル「TC-BiMamba」が提案されました。
リアルタイムで音声を文字起こしする新しい音声認識モデル「Voxtral Realtime」が開発されました。
大規模言語モデルを「枝刈り」と「知識蒸留」という2段階の手法で、パラメータ数を33.4%削減することに成功しました。
AIがセンサーデータから「活動内容」と「個人を特定しうる情報」を自動で仕分ける新しい技術が提案されました。
各端末のデータを集めずにAIを賢くする連合学習は、端末ごとのデータ内容の偏り(不均質性)が課題でした。
本研究は、テスト時(推論時)にAIモデルを適応させ、連続する映像から空間情報を捉え続ける新手法「Spatial-TTT」を提案しました。
ブックマークするには Google アカウントでログインしてください。端末をまたいで同期されます。