And Family Voice 研究所
音声処理

リアルタイムも一括処理もこれ一つ。スマホで動く次世代音声認識『TC-BiMamba』

📄 TC-BiMamba: Trans-Chunk bidirectionally within BiMamba for unified streaming and non-streaming ASR

✍️ She, Q., Peng, J., Fang, Y., Xi, Y., Yu, K.

📅 論文公開: 2026年2月

音声認識 ストリーミング処理 Mamba オンデバイスAI モデル軽量化

3つのポイント

  1. 1

    リアルタイム文字起こしと録音データの一括処理、両方に対応できる統一音声認識モデル「TC-BiMamba」が提案されました。

  2. 2

    新しい学習方法により、AIモデルの開発に必要な時間と計算資源(メモリ)を大幅に削減できる可能性が示されています。

  3. 3

    このモデルは、より少ない計算コストで、既存の高性能なモデルと同等以上の認識精度を達成しました。

論文プロフィール

  • 著者 / 発表年 / 掲載先: Qingshun She, Jing Peng, Yangui Fang, Yu Xi, Kai Yu / 2026年 / arXiv
  • 研究対象: ストリーミング(リアルタイム)と非ストリーミング(一括処理)の両方に対応する統一 音声認識 モデル
  • 研究内容: 新手法「TC-BiMamba」を提案し、従来のモデルと比較して学習効率(速度・メモリ)と認識精度がどのように向上するかを検証しました。

エディターズ・ノート

家族の会話は、短い相槌から長いお話まで様々です。本論文は、どんな長さの音声もスマートフォンのような端末上で効率よく、かつ高精度に認識するための新しいアプローチを提案しています。これは、And Family Voice の根幹技術である オンデバイス処理 の未来を考える上で、重要な示唆を与えてくれます。

実験デザイン

本研究では、提案手法である「TC-BiMamba」が、既存の有力な音声認識モデル(U2++, LC-BiMamba)と比較して、どれだけ優れているかを評価しました。

評価のポイントは主に2つです。

  1. 学習の効率: AIモデルを開発する際にかかる時間と、必要な計算資源(メモリ)の量。
  2. 認識の精度: 音声をどれだけ正確にテキストへ変換できるか。一般的にWER(Word Error Rate:単語誤り率)という、値が低いほど高性能な指標で評価されます。

実験の結果、TC-BiMambaは従来のチャンク(音声の断片)ごとに処理する手法に比べ、学習速度を1.3倍に高め、必要なメモリを50%削減したと報告されています。

学習に必要なメモリ量の比較(概念図) 0 20 40 60 80 100 必要メモリ量(相対値) 100 従来手法 50 TC-BiMamba
学習に必要なメモリ量の比較(概念図)
項目 必要メモリ量(相対値)
従来手法 100
TC-BiMamba 50
学習に必要なメモリ量の比較(概念図)

さらに、認識精度においても、既存の高性能モデルを上回るか、より小さなモデルサイズで同等の性能を達成したとされています。

音声認識エラー率の比較(概念図)。値が低いほど高精度。 0 2 4 6 8 10 単語誤り率(WER) 10 既存の高性能モデル 8.5 TC-BiMamba
音声認識エラー率の比較(概念図)。値が低いほど高精度。
項目 単語誤り率(WER)
既存の高性能モデル 10
TC-BiMamba 8.5
音声認識エラー率の比較(概念図)。値が低いほど高精度。
🔍 音声認識における「チャンク」とは?

リアルタイムで音声を文字起こしする場合、延々と続く音声を一度に処理することはできません。そこで、音声を数秒程度の短いかたまりに区切って処理します。この処理単位を「チャンク」と呼びます。

本研究の画期的な点は、このチャンクの長さを固定せず、動的に変えながら効率よく学習させる「Trans-Chunk」という仕組みを考案した点にあります。これにより、リアルタイム処理(短いチャンク)と一括処理(長いチャンク)の両方に1つのモデルで対応できるようになったのです。

技術的背景

この研究の核心には「Mamba」という、比較的新しいAIの基本構造(アーキテクチャ)があります。

近年、多くのAIは「Transformer」という構造をベースに作られていますが、計算量が多く、特に長いデータを扱う際に大量のメモリを必要とするという課題がありました。

そこで登場したのが「Mamba」です。これはState Space Model (SSM) と呼ばれる技術をベースにしており、Transformerよりも少ない計算量で、長い文脈を効率的に捉えることができると期待されています。本研究で使われている「BiMamba」は、そのMambaを双方向(過去と未来の情報を使う)に拡張したものです。

  • ストリーミングASR: 音声が入力されると同時に、リアルタイムで少しずつ文字起こしを進める方式。ライブ配信の字幕などに使われます。
  • 非ストリーミングASR: 音声全体を一度に受け取ってから、まとめて文字起こしする方式。録音した会議の議事録作成などに使われます。

TC-BiMambaは、これら2つの異なるタスクを1つのモデルでこなせる「統一モデル」を目指した研究です。

🔍 なぜTransformerではなくMambaなのか?

Transformerが「アテンション」という仕組みで単語間の関連性を計算するのに対し、Mambaは状態を更新しながら情報を伝播させていくため、計算がより効率的です。

特に、入力データが長くなるほどTransformerの計算量は急激に増大しますが(系列長の2乗に比例)、Mambaは線形にしか増えません。この特性が、計算資源の限られたスマートフォンでの オンデバイス推論 と非常に相性が良いと考えられています。

And Family Voice としての解釈

この研究がプロダクトの思想にどう根ざしているか、私たちの考えをお伝えします。

プロダクトへの示唆

And Family Voice は、すべての音声認識をユーザーの端末内で完結させる オンデバイス処理 を基本設計としています。これは、ご家族のプライベートな会話を外部サーバーに一切送信しないための、最も重要なプライバシー保護設計です。

しかし、オンデバイス処理には常に「端末の性能」という制約が伴います。TC-BiMambaのような、軽量でありながら高精度で、かつ多様な利用シーンに対応できる統一モデルの探求は、私たちの設計思想と深く共鳴します。

  • 短い相槌や返事(ストリーミングに近い処理)
  • 録りためた長い会話の振り返り(非ストリーミングに近い処理)

家族の日常には、このような様々な長さの会話が混在します。本研究の知見は、これらの異なるシーンに対して、ユーザー体験を損なうことなく、1つの洗練されたモデルで効率的に応えるための重要なヒントを与えてくれます。私たちは、こうした基礎研究の成果を常に注視し、プライバシーと利便性の最適なバランスを追求する設計に活かしていきたいと考えています。

日常生活へのヒント

お使いのスマートフォンやスマートスピーカーの音声アシスタントが、どこで音声を処理しているか意識したことはありますか?設定項目に「デバイス上の認識」や「オンライン音声認識」といった選択肢がないか、一度確認してみるのもおすすめです。プライバシー設定を見直すことで、自分のデータがどのように扱われているかを知る第一歩になります。

読後感

リアルタイムの便利さと、じっくり過去を振り返る機能。未来の音声技術に、あなたは「速さ」と「賢さ」、どちらをより期待しますか?あるいは、その両立でしょうか?