プライバシー・セキュリティ 2026年4月1日

2サーバで守る集約プライバシー――TAPASが拓く、軽量かつ耐量子な連合学習基盤

📄 TAPAS: Efficient Two-Server Asymmetric Private Aggregation Beyond Prio(+)

✍️ Karthikeyan, H., Polychroniadou, A.

📅 論文公開: 2026年3月

プライバシー保護集約連合学習格子暗号耐量子セキュリティゼロ知識証明 2サーバプロトコル

3つのポイント

1
数百万〜数億パラメータ規模のデータでも、サーバ間の通信量をデータ次元に依存させずにプライバシーを守りながら集約できる新手法TAPASを提案しました。
2
2台のサーバに意図的に役割の非対称性を持たせることで、片方を安価なハードウェアで運用可能にし、サーバ同士が結託しにくい構造を実現しています。
3
量子コンピュータ時代にも耐えうる格子暗号ベースのゼロ知識証明を新たに設計し、不正な入力の検出と責任追跡を可能にしました。

論文プロフィール

著者: Harish Karthikeyan, Antigoni Polychroniadou
発表年: 2026年
掲載先: arXiv（暗号学・プライバシー分野、ID: 2603.19949）
研究対象: 連合学習やテレメトリにおける、プライバシーを守りながら分散データを集約する2サーバプロトコルの効率化
研究内容: 既存手法（Prio/Prio+）が抱えるサーバ間通信のスケーラビリティ問題を、非対称な役割分担と格子暗号ベースのゼロ知識証明で解決する新プロトコル「TAPAS」の提案

エディターズ・ノート

連合学習で集められる「集約データ」は、個々の音声や文章を直接さらさなくても、集約の仕組みが脆弱であればプライバシーが崩れます。数億パラメータ規模のAIモデルが当たり前になった今、「集約そのものを安全かつ低コストに行う」基盤技術の進展は、オンデバイス処理を軸とするプロダクトにとって見逃せない動向です。

実験デザイン

既存手法の課題

Prioとその後続プロトコル（Prio+など）は、2台のサーバがユーザーの入力を個別には見られない形で検証・集約する実用的な手法として広く知られています。しかし、以下の制約がありました。

通信量がデータ次元 L に比例: ユーザーのデータが大きくなると、サーバ間の通信も比例して増大する
対称的なサーバ構成: 両サーバに同等の計算リソースが必要
量子耐性がない: 将来の量子コンピュータにより安全性が崩れるリスク

TAPASのアプローチ

TAPASは4つの設計目標を同時に達成します。

信頼できる初期設定が不要: 事前の「信頼されたセットアップ」なしで運用可能
サーバ間通信が L に依存しない: 数億パラメータのモデルでも通信量が一定
耐量子セキュリティ: 格子暗号（LWE・SIS仮定）のみに基づく安全性
識別可能な中断と完全な悪意耐性: 不正なサーバを特定できる仕組み

データ次元 L が大きい場合のサーバ間通信コストの相対比較（概念図。実際の削減率は条件により異なります）
項目	サーバ間通信コスト
Prio系（従来）	100
TAPAS（提案）	15

データ次元 L が大きい場合のサーバ間通信コストの相対比較（概念図。実際の削減率は条件により異なります）

非対称設計の核心

TAPASの最大の特徴は、意図的な非対称性です。

メインサーバ: データ次元 L に比例する集約・検証作業を担当
サブサーバ: L に依存しない軽量な「ファシリテーター」として機能。安価なハードウェアで運用可能

この設計には、コスト削減だけでなくセキュリティ上の利点もあります。サブサーバを異なる組織や環境で運用しやすくなるため、「2台のサーバが結託しない」という前提をより現実的にできるのです。

🔍 なぜ「結託しない」前提が重要なのか

2サーバプロトコルでは、「2台のサーバが互いに情報を共有しない」ことが安全性の前提です。しかし現実には、両サーバが同じクラウドプロバイダーで動いていたり、同じ組織が管理していたりすると、この前提は脆くなります。

TAPASの非対称設計は、サブサーバに必要なリソースを極限まで減らすことで、たとえば片方を社内サーバ、もう片方を外部クラウドに配置するといった「組織的分離」を容易にします。これにより、結託防止の前提を技術だけでなく運用面からも強化できます。

格子ベースのゼロ知識証明

TAPASのもう一つの主要貢献は、格子暗号に基づく新しいゼロ知識証明スイートの設計です。ゼロ知識証明とは、「自分の秘密データの中身を明かさずに、そのデータが正しい形式であることだけを相手に証明する」技術です。

この証明により、以下が可能になります。

ユーザーが不正な入力（たとえば範囲外の値）を送り込めないことを保証
不正を試みたサーバを特定して排除（識別可能な中断）
量子コンピュータにも耐えうる安全性

🔍 格子暗号とは？なぜ耐量子なのか

格子暗号は、高次元の「格子」（規則正しく並んだ点の集合）上の数学的問題の難しさを安全性の根拠にしています。

現在広く使われているRSAや楕円曲線暗号は、量子コンピュータの「ショアのアルゴリズム」により効率的に解読される可能性があります。一方、格子上の問題（LWE: Learning With Errors, SIS: Short Integer Solution）は、量子コンピュータでも効率的に解く方法が知られていません。

TAPASはこれらの格子暗号だけに依存することで、将来の量子コンピュータ時代にも安全性を維持できる設計になっています。

技術的背景

プライバシー保護集約の歴史

プライバシーを守りながら分散データを集約する技術は、大きく3つの流れがあります。

差分プライバシー : 個々のデータにノイズを加えて個人を特定できなくする手法。集約結果の精度とプライバシー強度のトレードオフがある
秘密分散・マルチパーティ計算: データを複数の「断片」に分割し、断片だけでは元のデータがわからない状態で計算する手法。Prioはこの系統
E2EE ベースのアプローチ: 通信経路を暗号化し、サーバ側でもデータを見られないようにする手法

TAPASは2番目の系統（秘密分散ベース）に属しますが、格子暗号の導入により耐量子性を加え、非対称設計によりスケーラビリティを大幅に向上させた点が新しいと言えます。

Prio/Prio+との位置づけ

Prioは2017年に提案され、Mozilla Firefoxのテレメトリなどで実用化されている手法です。ユーザーのデータを2つのサーバに分散し、どちらのサーバも個別のデータを見られない状態で「集約結果だけ」を得られます。

Prio+はこれを拡張し、より柔軟な検証を可能にしましたが、いずれもサーバ間通信が入力次元 L に比例するという制約を引き継いでいました。TAPASはこの制約を、格子暗号の代数的構造を活用して打破しています。

🔍 「次元 L が数億」とはどういう意味か

連合学習では、各ユーザーの端末がAIモデルの「更新情報」をサーバに送ります。この更新情報のサイズは、モデルのパラメータ数に比例します。

たとえば、小規模な音声認識モデルでも数百万パラメータ、大規模な言語モデルでは数十億パラメータになります。Prio系のプロトコルでは、このパラメータ数に比例してサーバ間通信が増えるため、大規模モデルへの適用が現実的ではありませんでした。

TAPASはサーバ間通信をパラメータ数に依存させないことで、この「大規模モデル問題」を解決しています。

And Family Voice としての解釈

プロダクトの視点から

And Family Voice は現在、音声データを端末の外へ一切送信しないオンデバイス推論と、承認されたテキストの E2EE 暗号化という二重のプライバシー設計を採用しています。

TAPASの研究は、この先の可能性を考えるうえで示唆に富んでいます。

モデル改善への応用: 将来的に、ユーザーの端末上の学習データを集約してオンデバイス音声認識モデルを改善したいと考えた場合、TAPASのような非対称プロトコルは「個々の家族の会話内容を一切明かさずに、モデルだけを賢くする」ための基盤技術になりえます
サーバ構成への示唆: 非対称設計により、片方のサーバを軽量に保てるという知見は、コスト効率と安全性を両立させたいスタートアップにとって重要な設計指針です
耐量子セキュリティ: 家族の記録は数十年単位で保存されるものです。「今は安全でも、将来の量子コンピュータで解読される」リスクに対して、格子暗号ベースの技術が成熟していくことは、長期保存を前提とするプロダクトにとって心強い動向です

もちろん、TAPASは理論的な設計と安全性証明が主であり、大規模な実装評価はこれからの課題です。私たちも、こうした研究の成熟を注視しながら、プロダクトの暗号化設計の将来像を慎重に検討していきたいと考えています。

ユーザーの視点から

プライバシー保護技術は日々進化していますが、今日からできることもあります。サービスを選ぶとき、「データがどこで処理されているか」を確認する習慣をつけてみてください。 端末上で処理が完結するのか、クラウドに送られるのか。送られるなら暗号化されているのか。この「データの旅路」を意識することが、家族のプライバシーを守る第一歩になります。

読後感

TAPASが示したのは、「安全性を高めることと、コストを下げることは両立できる」という希望です。2台のサーバに異なる役割を持たせるという、一見シンプルな発想が、通信効率・セキュリティ強度・運用コストのすべてを改善しうるという点は、技術設計の妙を感じさせます。

家族の声の記録は、5年後、10年後、あるいはその先まで残り続けるものです。その「未来の安全」を今から設計するとき、私たちはどこまでのコストとどこまでの複雑さを受け入れるべきでしょうか？