用語集¶

Status: stable | Last reviewed: 2026-05-09

このプロジェクトで使う専門用語の定義。アルファベット順。

A¶

AMI Corpus¶

エディンバラ大学・Idiap・Brno が共同で構築した会議データセット。100 時間、4 人参加、CC BY 4.0。詳細はデータセット。

AUC (Area Under the ROC Curve)¶

二値分類の評価指標。閾値に依存せず、precision / recall のトレードオフを総合的に評価。

B¶

Backchannel¶

聞き手が出す短い相槌（「うん」「なるほど」「I see」）。発話権は移譲されない。我々のマルチイベントの 1 つ。

Brier Score¶

確率予測の評価指標。\(\frac{1}{N}\sum_i (p_i - y_i)^2\)。校正性の評価に使う。

C¶

CANDOR Corpus¶

BetterUp Labs が構築した 850 時間のビデオ通話会話データセット。VAP 系研究で標準的に使われるが、個人申請の可能性は不明。

CPC (Contrastive Predictive Coding)¶

van den Oord et al. (2018) による自己教師あり音声表現学習。VAP のエンコーダとして使われる。詳細はCPC とは。

Cross-Attention¶

Transformer の attention 機構の一種。Query を一方のソースから、Key/Value をもう一方から取る。VAP では 2 話者間の相互作用モデリングに使う。

D¶

Dialog Act¶

発話の意図・機能の分類。AMI では 16 種（Backchannel、Stall、Inform、Suggest 等）。詳細は AMI Corpus。

Diarization¶

「誰がいつ話したか」を音声から推定する技術。話者識別 + VAD の組合せ。

DualTurn¶

2026 年提案のフルデュプレックス対話モデル。Mimi コーデック + 0.5B LLM で 220ms 早期予測。arXiv:2603.08216。

E¶

ECE (Expected Calibration Error)¶

確率予測の校正性を測る指標。出力確率と実際の正解率のズレを bin ごとに計算。

Edge Deployment¶

エッジデバイス（スマホ、Raspberry Pi、ノート PC）での実行可能性。ITM の重要な制約。

Endpoint¶

発話の終了。Smart Turn の主タスク。

Easy Turn¶

2025 年の音響+言語マルチモーダル turn-taking モデル。4 状態分類（complete / incomplete / backchannel / wait）。

F¶

FAU (Facial Action Unit)¶

顔の筋肉動作の標準的分類。AU01〜AU45 など。MM-VAP の研究で turn-taking 予測に最も寄与する視覚特徴と判明。

Filler¶

「えー」「あー」「uh」「um」などの言いよどみ。Smart Turn データには midfiller / endfiller として記録されている。

H¶

Hazard Function¶

サバイバル分析の概念。「ある時点まで生存している条件下で、次の単位時間で事象が起きる確率」。ITM の出力定式化。

Hold (Turn Hold)¶

現在の話者が発話権を継続保持すること。Turn-shift の対になる概念。

HuBERT¶

Facebook の自己教師あり音声表現モデル。MM-F2F で使われている。

I¶

IPU (Inter-Pausal Unit)¶

ポーズで区切られた発話の単位。AMI の segments/ で記録。

L¶

Lead Time¶

予測の先取り時間。「正解時刻に対してどれだけ早く予測できたか」(ms)。ITM の主要評価指標の 1 つ。

M¶

MaAI¶

京大・井上研の VAP 実装、pip install maai で利用可能。29 モデルを HF で公開。詳細は既存モデル。

Mamba¶

State Space Model (SSM) ベースの系列モデル。線形時間で長系列処理可能。Coupled-Mamba (NeurIPS 2024) などで使われる。ITM v2 で検討。

MediaPipe¶

Google の顔・手・姿勢検出ライブラリ。ITM の視覚特徴抽出に使う。

MM-VAP¶

VAP に視覚特徴（FAU、視線、頭部姿勢）を後期融合したモデル。Inoue et al. (IEICE 2024 / arXiv:2506.03980)。精度 79% → 84%。

Moshi¶

Kyutai の 7B フルデュプレックス音声テキスト基盤モデル。arXiv:2410.00037。エッジ不可。

O¶

Onset¶

イベントの開始時刻。turn-shift onset = 話者交代の開始時刻。

Overlap¶

2 人以上が同時に発話する状態。我々のマルチイベントの 1 つ。

P¶

Proactive Prediction¶

事象が起きる前に予測すること。Reactive（事後検出）の対。ITM の中核アプローチ。

Q¶

QAT (Quantization-Aware Training)¶

量子化を考慮した学習。Smart Turn v3 は int8 static QAT で CPU 12ms 推論を実現。

R¶

rPPG (remote photoplethysmography)¶

顔の色の微小変化から心拍・呼吸を非接触で抽出する技術。ITM v2 で活用。

RIIV (Respiratory-Induced Intensity Variation)¶

呼吸による血流変動が肌色に反映される現象。rPPG で呼吸を抽出する物理基盤。

S¶

Smart Turn¶

pipecat-ai の音声 turn detection モデル。BSD 2-Clause、8M params、CPU 12ms。ITM のアーキテクチャ参考。

Survival Analysis¶

時間-イベントデータの統計手法。ハザード関数・サバイバル関数を扱う。ITM の出力定式化に応用。

T¶

TRP (Turn Relevant Point)¶

ターン交代が起こりうる時点。TurnGPT が予測する対象。

Turn-shift¶

話者が交代する事象。我々のマルチイベントの中心。

TurnGPT¶

Ekstedt & Skantze (EMNLP 2020 Findings) のテキストベース turn-taking 予測モデル。GPT-2 ベース。

V¶

VAD (Voice Activity Detection)¶

音声中の発話区間検出。Silero VAD が標準。Smart Turn は VAD + 自身の二段構成。

VAP (Voice Activity Projection)¶

Ekstedt & Skantze (Interspeech 2022) の自己教師あり turn-taking モデル。現在の最重要ベースライン。詳細は既存モデル。

V-JEPA¶

Meta の自己教師あり映像表現モデル。V-JEPA 2 (arXiv:2506.09985)、V-JEPA 2.1 (arXiv:2603.14482)。ITM v2 で蒸留教師として検討。

VRWE (Video-based Respiratory Waveform Estimation)¶

Obi & Funakoshi (ICMI 2023) が提案したタスク。顔・上半身映像から呼吸波形を回帰推定。