視覚シグナル¶

Status: stable | Last reviewed: 2026-05-09

ターンテイキング予測に有用な視覚的手がかり。特に「発声前」を予測する上で、視覚は音声に先行する情報を持つ。

TL;DR¶

顔の動作単位 (FAU) が最も寄与する（MM-VAP 研究）
頭部姿勢 が次点
視線は二者会話では限定的、三者以上で有効
呼吸は発声 200ms 前にピークが立つ（Włodarczak 2016, Sci Rep 2025）
我々の追加: 顔のみで呼吸を rPPG / 鼻孔 / 頭部 micro-motion から取る

視覚特徴の寄与度ランキング（MM-VAP 研究より）¶

順位	特徴	次元数	ホールド/シフト精度への寄与
1	FAU（Facial Action Units）	17	最大。眉・顎・鼻・唇の筋肉動き
2	頭部姿勢	3 (roll, pitch, yaw)	大
3	視線	6 (各眼 3D)	三者会話で有効、二者では限定的
4	顔ランドマーク	60 (15点 × 座標)	中
5	身体ジェスチャー	可変	NoXi 系研究で有効

顔特徴抽出の標準ツール¶

ツール	出力	特徴
OpenFace 2.0	FAU、頭部姿勢、視線、ランドマーク	標準ツール、CPU 動作
MediaPipe Face Mesh	468 ランドマーク + メッシュ	リアルタイム、モバイル/エッジ向き
Former-DFER	顔表情特徴ベクトル	動的顔表情認識 Transformer

ITM v1 は MediaPipe を採用（エッジ実装と整合性）。

呼吸シグナル（生理学的根拠）¶

Włodarczak & Heldner (Interspeech 2016)¶

「Respiratory Turn-Taking Cues」
全話者状態遷移（silent / speaking / backchanneling）に対して
吸気深度・吸気持続時間・呼吸 range が有意な予測子
ISCA Archive: wodarczak16b_interspeech

Di Pasquasio et al. (Scientific Reports 2025)¶

doi:10.1038/s41598-025-15776-1
fMRI 自然会話を解析
respiratory local maxima が speech onset の ~200ms 前 に出現
前運動皮質・補足運動野の活動が確認
呼吸 200ms 先行を 脳活動レベルで裏打ち

Obi & Funakoshi (ICMI 2023) — 我々の最重要先行研究¶

doi:10.1145/3577190.3614154
顔・上半身映像から呼吸波形を回帰推定 (VRWE タスク)
3DCNN-ConvLSTM で 256×256 RGB 10 frame stack を入力
呼吸波形 gradient が voice activity の 200ms 先行予測に有効
データセット: 30人 (subset of 80)、日本語、安静+対話、呼吸ベルト同時記録
後続: IWSDS 2025（呼吸ベルト + VAP 統合）、HRI 2024、SIGDIAL 2024

詳細は関連研究の Obi & Funakoshi セクション。

顔のみから呼吸を取る経路（5 つ）¶

graph TB
    F[顔 ROI] --> A[a) rPPG → RIIV<br/>主役]
    F --> B[b) 鼻孔フレア<br/>補助]
    F --> C[c) 頭部 micro-motion<br/>補助]
    F --> D[d) 首 sternocleidomastoid<br/>SCM が映る場合]
    F --> E[e) 口呼吸/鼻呼吸モード<br/>口開度]

a) rPPG (remote photoplethysmography) — 最有力¶

呼吸性血流変動 (RIIV: Respiratory-Induced Intensity Variation) を顔の色変化から抽出
心拍 (0.7〜4Hz) と呼吸 (0.1〜0.5Hz) はバンドパスで分離可能
主要モデル:
- EfficientPhys (WACV 2023): TSM ベース、エッジ向け、TFLite 化容易
- PhysMamba (PRCV 2024, arXiv:2409.12031): Mamba SSM、軽量
- MTTS-CAN (NeurIPS 2020): 150fps+、モバイル設計
- PhysFormer (CVPR 2022): SOTA だが重い
OSS: rPPG-Toolbox (NeurIPS 2023, github.com/ubicomplab/rPPG-Toolbox)
弱点: 暗肌で精度劣化（MAE 5.2 → 14.1 bpm）→ PhysFlow (BMVC 2024) で対処

b) 鼻孔フレア (nostril flaring)¶

吸気時に鼻翼が拡張
MediaPipe Face Mesh の鼻翼ランドマーク（49, 279）から距離計算
安静呼吸では微小（0.5〜2mm）、200px 以下では SNR 低下

c) 頭部 micro-motion¶

呼吸リズム（〜0.3Hz）で頭が微妙に上下/前後
古典: Eulerian Video Magnification (Wu et al., SIGGRAPH 2012)
Phase-Based VM (Wadhwa et al., SIGGRAPH 2013) — 微小動作向き
学習系: Deep Magnification (Oh et al., ECCV 2018)
弱点: カメラブレ・大動作で破綻、安定化前処理必須

d) sternocleidomastoid（首）¶

副呼吸筋、努力呼吸時のみ発火
首が映らないシナリオでは無効
ITM v1 では使わない

e) 口呼吸モード・lip parting¶

鼻呼吸 vs 口呼吸の判別
発話前の lip parting は acoustic onset の 100〜200ms 前
MediaPipe 口唇ランドマーク (61, 291, 13, 14) で実装可能

統合手法¶

複数経路の late fusion + 信号品質に基づく動的重み付け。

参考: - Park et al. (Wiley J. Sensors 2023, doi:10.1155/2023/9207750) — 顔 ROI 安定化 + 環境ロバスト RR - Sci Rep 2025 (s41598-025-23103-x) — Multi-task complex-valued CNN で rPPG + respiration 同時推定 - Quality-aware framework (arXiv:2512.14093, 2025) — 信号品質指標で多経路を動的重み付け

ITM v1 における視覚モダリティの設計¶

graph LR
    VID[映像 30fps] --> MP[MediaPipe<br/>顔ランドマーク + AU]
    MP --> F1[FAU 17次元]
    MP --> F2[頭部姿勢 3次元]
    MP --> F3[視線 6次元]
    MP --> F4[口開度<br/>lip parting]
    F1 --> FUSE[後期融合]
    F2 --> FUSE
    F3 --> FUSE
    F4 --> FUSE

v2 で rPPG 等の呼吸シグナルを追加。詳細は v1 アーキテクチャ。