コンテンツにスキップ

調査の概観¶

Status: stable | Last reviewed: 2026-05-09

ターンテイキング AI 研究領域の全体像。詳細は配下の各ページへ。

研究領域の地図¶

graph TB
    subgraph Modality
      A[音声のみ] --> A1[VAD + 沈黙閾値]
      A --> A2[VAP / Real-time VAP]
      A --> A3[Smart Turn v3]
    end
    subgraph "音声 + 言語"
      L1[TurnGPT]
      L2[Acoustic+LLM Fusion]
      L3[Easy Turn]
    end
    subgraph "音声 + 映像"
      M1[MM-VAP]
      M2[MM-F2F]
      M3[Triadic VAP]
    end
    subgraph "フルデュプレックス"
      F1[Moshi]
      F2[DualTurn]
    end
    subgraph "生理学的拡張"
      P1[Obi & Funakoshi 2023<br/>顔→呼吸]
      P2[IWSDS 2025<br/>呼吸ベルト+VAP]
    end
    A2 --> M1
    A2 --> P2
    P1 --> M1

歴史的経緯（2015〜2026）¶

期	代表的研究	特徴
~2015	VAD + 固定沈黙閾値	700〜1000ms 待機、不自然
2015〜2019	Skantze 2017、Roddy 2018	LSTM 連続予測
2020〜2021	TurnGPT (Ekstedt 2020)	GPT-2 ベースのテキスト予測
2022〜現在	VAP (Ekstedt & Skantze 2022)	自己教師あり、CPC + Transformer
2024〜現在	Moshi、DualTurn、MM-VAP	フルデュプレックス、マルチモーダル

主要モデル比較表¶

モデル	モダリティ	パラメータ	エッジ	ライセンス	備考
VAP (2022)	音声	~10M	✅	academic	自己教師あり、現在の標準
Real-time VAP / MaAI	音声	~10M	✅	code MIT, weights academic	Mimi/CPC 両対応、29 モデル公開
TurnGPT (2020)	テキスト	124M+	✅	—	重み非公開、3年半放置
MM-VAP (2024)	音声+映像	~30M	❌	research	FAU・視線・頭部
Moshi (2024)	音声 (フルデュプレックス)	7B	❌	apache	200ms 遅延
DualTurn (2026)	音声 (双チャンネル生成)	0.5B	❌	—	220ms 早期予測
Smart Turn v3	音声	8M	✅	BSD-2	int8 量子化、CPU 12ms
Easy Turn (2025)	音声+言語	—	⚠️	—	4 状態分類

詳細は既存モデル。

データセット概観¶

データセット	規模	言語	個人入手	ターンテイキング適合度
AMI Corpus	100h、4人会議	英	✅ CC BY 4.0	★★★
Switchboard	260h、電話	英	❌ LDC 有料	★★★
Fisher	2000h	英	❌ LDC	★★★
CANDOR	850h、ビデオ会議	英	⚠️ 個人申請可能性	★★★
Multi-TPC (2025)	三者対話	英	✅ Zenodo	★★
Smart Turn v3.1 train	270k samples	23 言語	✅ HF, BSD	★（endpoint+filler のみ）
NoXi+J	11.6h、二者	多言語	❌ アカデミック EULA	—
CEJC	200h	日	❌ 有料	—
Hazumi	181人	日	❌ NII IDR	—

詳細はデータセット。

視覚シグナルの寄与度（MM-VAP 研究より）¶

graph LR
    A[視覚特徴] --> B[FAU 17次元<br/>★★★]
    A --> C[頭部姿勢 3次元<br/>★★]
    A --> D[視線 6次元<br/>★ 三者会話で有効]
    A --> E[ランドマーク 60次元<br/>★]
    A --> F[呼吸 micro-motion<br/>★★ 我々の追加]

詳細は視覚シグナル。

主要参照論文¶

実在確認済みのものは論文リストを参照。直近で重要なもの:

VAP (arXiv:2205.09812)
MM-VAP (arXiv:2506.03980)
DualTurn (arXiv:2603.08216)
Moshi (arXiv:2410.00037)
Coupled Mamba (arXiv:2405.18014)
V-JEPA 2 (arXiv:2506.09985)
V-JEPA 2.1 (arXiv:2603.14482)
Obi & Funakoshi 2023 (doi:10.1145/3577190.3614154)
Włodarczak & Heldner 2016 (Interspeech)

関連ページ¶

ターンテイキング 101 — 用語と問題設定の入門
既存モデル — 各モデルの詳細
視覚シグナル — 顔・呼吸・姿勢の活用
データセット — 入手可能性と適合度
関連研究 — 我々の直接の先行（特に Obi & Funakoshi）