既存モデル¶

Status: stable | Last reviewed: 2026-05-09

ターンテイキング予測モデルの主要先行研究まとめ。

概観¶

派生関係¶

graph TB
    VAP[VAP 2022<br/>音声のみ]
    VAP --> RTVAP[Real-time VAP<br/>2024]
    VAP --> MLVAP[Multilingual VAP<br/>2024]
    VAP --> BCVAP[Backchannel VAP<br/>2025]
    VAP --> TVAP[Triadic VAP<br/>2025]
    VAP --> MMVAP[MM-VAP<br/>2024-2025]
    RTVAP --> MAAI[MaAI<br/>2026 統合実装]
    MMVAP --> MMF2F[MM-F2F<br/>2025]
    TG[TurnGPT<br/>2020] -.LLM.-> ALF[Acoustic+LLM<br/>2024]
    SM[Smart Turn v1/v2/v3<br/>商用 OSS] 
    MOSHI[Moshi<br/>2024 7B]
    DT[DualTurn<br/>2026 0.5B]

VAP 系列（音声）¶

VAP (Ekstedt & Skantze, Interspeech 2022)¶

入力: ステレオ音声、16kHz、最大 20 秒
アーキテクチャ: CPC (5層 CNN + GRU) + Self-Attention + Cross-Attention Transformer
出力: 次 2 秒の発話活動分布（256 状態）
学習: 自己教師あり（VAD ラベルから自動生成）
データ: Switchboard, Fisher
重要数値: ホールド/シフト精度 79%（後の MM-VAP の比較対象）

Real-time VAP (Inoue et al., IWSDS 2024)¶

arXiv:2401.04868
VAP のリアルタイム実装。TCP ストリーミング、CPU 動作
160 sample (10ms@16kHz) 単位処理

Multilingual VAP (Inoue et al., LREC-COLING 2024)¶

arXiv:2403.06487
英・中・日の三言語対応
Wav2Vec2 (MMS) をエンコーダに使用

Backchannel VAP (Inoue et al., NAACL 2025)¶

arXiv:2410.15929
VAP をバックチャネル予測にファインチューニング
「Yeah」「Un」「Oh」種別予測

Triadic VAP (Elmers et al., Interspeech 2025)¶

arXiv:2507.07518
VAP を初めて三者会話に拡張
新規日本語三者コーパス TEIDAN を構築

MaAI (旧 VAP-Realtime, 2026)¶

京大・井上研の現役メンテ実装
pip install maai で即動作
HuggingFace maai-kyoto/* に 29 モデル
VAP / VAP_BC / VAP_Nod / VAP_MC (ノイズ耐性) / VAP_Prompt
言語: 英・日・中・仏・trilingual
ライセンス: コード MIT、重みは academic only
ITM の v1 ベースライン

マルチモーダル VAP¶

MM-VAP (Inoue et al., IEICE 2024 / arXiv:2506.03980)¶

音声 + 視覚特徴（FAU、視線、頭部姿勢）の 後期融合
ホールド/シフト精度: 79% → 84%（音声のみと比較）
アクションユニット（顔筋肉動き）が最大の貢献
オーバーラップ予測が特に改善
※ 略称 "MM-VAP" は本文中の表現でアブストでは未確認、引用注意

MM-F2F (arXiv:2505.12654, ACL 2025 Findings)¶

GPT-2 + HuBERT + VideoMAE の3モーダル融合
独自 210h データセット
ターンテイキング F1 = 0.81、バックチャネル F1 = 0.349

Voice Activity Projection Model with Multimodal Encoders (arXiv:2506.03980)¶

VAP に Former-DFER（顔エンコーダ）と身体姿勢を統合
実装: github.com/sagatake/VAPwithAudioFaceEncoders

テキスト・LLM 系列¶

TurnGPT (Ekstedt & Skantze, EMNLP 2020 Findings)¶

arXiv:2010.10874
GPT-2 ベースの Transformer
テキスト（転記）から Turn Relevant Point (TRP) を予測
「tomorrow」と「yesterday」で予測確率が変わることを実証
重み非公開、保守停止（3 年半）

Acoustic + LLM Fusion (Wang et al., ICASSP 2024)¶

arXiv:2401.14717
Amazon Alexa
音響モデル + GPT-2 (124M) / RedPajama (3B) のフュージョン
Switchboard で F1 (weighted) 0.633

Easy Turn (arXiv:2509.23938)¶

音響 + 言語 2モーダル
4 状態予測: complete / incomplete / backchannel / wait
学習データ 1,145h
HuggingFace 公開: ASLP-lab/Easy-Turn

フルデュプレックス基盤モデル¶

Moshi (Kyutai, arXiv:2410.00037)¶

7B 音声テキスト基盤モデル
ユーザー音声と自分の音声を 並列ストリーム 化
理論遅延 160ms、実測 ~200ms (L4 GPU)
アーキテクチャ: Helium (7B) + Mimi コーデック + Temporal Transformer + Depth Transformer
OSS: github.com/kyutai-labs/moshi

DualTurn (arXiv:2603.08216, 2026)¶

Mimi コーデック (フリーズ) + 0.5B LLM
各話者チャンネル 6 分類予測
VAP より 220ms 早く ターン終了予測
アノテーション不要

エッジ系列¶

Smart Turn v3 (pipecat-ai)¶

8M params、Whisper Tiny encoder + attention pooling + 軽量分類ヘッド
int8 static QAT、CPU 12ms
BSD 2-Clause（最も寛容）
HuggingFace: pipecat-ai/smart-turn-v3
データ: pipecat-ai/smart-turn-data-v3.1-train (270k 件、23 言語)
限界: 単一二値出力、視覚なし、midfiller / endfiller ラベルが未活用

TurnSense (latishab)¶

SmolLM2-135M ファインチューニング
Raspberry Pi 対応の超軽量モデル

SpeculativeETD (arXiv:2503.23439, 2025)¶

軽量 GRU (ローカル) + 重い Wav2Vec (サーバー) の二段投機的推論
レイテンシと精度のトレードオフ管理

ITM ポジショニング¶

我々が乗っかるベース実装と、超えるべき先行:

項目	ベース	超える対象
実装フレームワーク	MaAI	—
アーキテクチャ参考	Smart Turn v3	単一二値 → マルチイベント
視覚統合の参考	MM-VAP	英語のみ → 我々は AMI で再現 + 拡張
軽量化技法	Smart Turn v3 (int8 QAT)	—
マルチイベント	Easy Turn (4状態分類)	連続ハザード形式に

詳細は v1 アーキテクチャ。

既存モデル¶

概観¶

派生関係¶

VAP 系列（音声）¶

VAP (Ekstedt & Skantze, Interspeech 2022)¶

Real-time VAP (Inoue et al., IWSDS 2024)¶

Multilingual VAP (Inoue et al., LREC-COLING 2024)¶

Backchannel VAP (Inoue et al., NAACL 2025)¶

Triadic VAP (Elmers et al., Interspeech 2025)¶

MaAI (旧 VAP-Realtime, 2026)¶

マルチモーダル VAP¶

MM-VAP (Inoue et al., IEICE 2024 / arXiv:2506.03980)¶

MM-F2F (arXiv:2505.12654, ACL 2025 Findings)¶

Voice Activity Projection Model with Multimodal Encoders (arXiv:2506.03980)¶

テキスト・LLM 系列¶

TurnGPT (Ekstedt & Skantze, EMNLP 2020 Findings)¶

Acoustic + LLM Fusion (Wang et al., ICASSP 2024)¶

Easy Turn (arXiv:2509.23938)¶

フルデュプレックス基盤モデル¶

Moshi (Kyutai, arXiv:2410.00037)¶

DualTurn (arXiv:2603.08216, 2026)¶

エッジ系列¶

Smart Turn v3 (pipecat-ai)¶

TurnSense (latishab)¶

SpeculativeETD (arXiv:2503.23439, 2025)¶

ITM ポジショニング¶

関連ページ¶