コンテンツにスキップ

視覚シグナル

Status: stable | Last reviewed: 2026-05-09

ターンテイキング予測に有用な視覚的手がかり。特に「発声前」を予測する上で、視覚は音声に先行する情報を持つ。

TL;DR

  • 顔の動作単位 (FAU) が最も寄与する(MM-VAP 研究)
  • 頭部姿勢 が次点
  • 視線 は二者会話では限定的、三者以上で有効
  • 呼吸 は発声 200ms 前にピークが立つ(Włodarczak 2016, Sci Rep 2025)
  • 我々の追加: 顔のみで呼吸を rPPG / 鼻孔 / 頭部 micro-motion から取る

視覚特徴の寄与度ランキング(MM-VAP 研究より)

順位 特徴 次元数 ホールド/シフト精度への寄与
1 FAU(Facial Action Units) 17 最大。眉・顎・鼻・唇の筋肉動き
2 頭部姿勢 3 (roll, pitch, yaw)
3 視線 6 (各眼 3D) 三者会話で有効、二者では限定的
4 顔ランドマーク 60 (15点 × 座標)
5 身体ジェスチャー 可変 NoXi 系研究で有効

顔特徴抽出の標準ツール

ツール 出力 特徴
OpenFace 2.0 FAU、頭部姿勢、視線、ランドマーク 標準ツール、CPU 動作
MediaPipe Face Mesh 468 ランドマーク + メッシュ リアルタイム、モバイル/エッジ向き
Former-DFER 顔表情特徴ベクトル 動的顔表情認識 Transformer

ITM v1 は MediaPipe を採用(エッジ実装と整合性)。

呼吸シグナル(生理学的根拠)

Włodarczak & Heldner (Interspeech 2016)

  • 「Respiratory Turn-Taking Cues」
  • 全話者状態遷移(silent / speaking / backchanneling)に対して
  • 吸気深度・吸気持続時間・呼吸 range が有意な予測子
  • ISCA Archive: wodarczak16b_interspeech

Di Pasquasio et al. (Scientific Reports 2025)

  • doi:10.1038/s41598-025-15776-1
  • fMRI 自然会話を解析
  • respiratory local maxima が speech onset の ~200ms 前 に出現
  • 前運動皮質・補足運動野の活動が確認
  • 呼吸 200ms 先行を 脳活動レベルで裏打ち

Obi & Funakoshi (ICMI 2023) — 我々の最重要先行研究

  • doi:10.1145/3577190.3614154
  • 顔・上半身映像から呼吸波形を回帰推定 (VRWE タスク)
  • 3DCNN-ConvLSTM で 256×256 RGB 10 frame stack を入力
  • 呼吸波形 gradient が voice activity の 200ms 先行予測に有効
  • データセット: 30人 (subset of 80)、日本語、安静+対話、呼吸ベルト同時記録
  • 後続: IWSDS 2025(呼吸ベルト + VAP 統合)、HRI 2024、SIGDIAL 2024

詳細は 関連研究 の Obi & Funakoshi セクション。

顔のみから呼吸を取る経路(5 つ)

graph TB
    F[顔 ROI] --> A[a) rPPG → RIIV<br/>主役]
    F --> B[b) 鼻孔フレア<br/>補助]
    F --> C[c) 頭部 micro-motion<br/>補助]
    F --> D[d) 首 sternocleidomastoid<br/>SCM が映る場合]
    F --> E[e) 口呼吸/鼻呼吸モード<br/>口開度]

a) rPPG (remote photoplethysmography) — 最有力

  • 呼吸性血流変動 (RIIV: Respiratory-Induced Intensity Variation) を顔の色変化から抽出
  • 心拍 (0.7〜4Hz) と呼吸 (0.1〜0.5Hz) はバンドパスで分離可能
  • 主要モデル:
    • EfficientPhys (WACV 2023): TSM ベース、エッジ向け、TFLite 化容易
    • PhysMamba (PRCV 2024, arXiv:2409.12031): Mamba SSM、軽量
    • MTTS-CAN (NeurIPS 2020): 150fps+、モバイル設計
    • PhysFormer (CVPR 2022): SOTA だが重い
  • OSS: rPPG-Toolbox (NeurIPS 2023, github.com/ubicomplab/rPPG-Toolbox)
  • 弱点: 暗肌で精度劣化(MAE 5.2 → 14.1 bpm)→ PhysFlow (BMVC 2024) で対処

b) 鼻孔フレア (nostril flaring)

  • 吸気時に鼻翼が拡張
  • MediaPipe Face Mesh の鼻翼ランドマーク(49, 279)から距離計算
  • 安静呼吸では微小(0.5〜2mm)、200px 以下では SNR 低下

c) 頭部 micro-motion

  • 呼吸リズム(〜0.3Hz)で頭が微妙に上下/前後
  • 古典: Eulerian Video Magnification (Wu et al., SIGGRAPH 2012)
  • Phase-Based VM (Wadhwa et al., SIGGRAPH 2013) — 微小動作向き
  • 学習系: Deep Magnification (Oh et al., ECCV 2018)
  • 弱点: カメラブレ・大動作で破綻、安定化前処理必須

d) sternocleidomastoid(首)

  • 副呼吸筋、努力呼吸時のみ発火
  • 首が映らないシナリオでは無効
  • ITM v1 では使わない

e) 口呼吸モード・lip parting

  • 鼻呼吸 vs 口呼吸の判別
  • 発話前の lip parting は acoustic onset の 100〜200ms 前
  • MediaPipe 口唇ランドマーク (61, 291, 13, 14) で実装可能

統合手法

複数経路の late fusion + 信号品質に基づく動的重み付け。

参考: - Park et al. (Wiley J. Sensors 2023, doi:10.1155/2023/9207750) — 顔 ROI 安定化 + 環境ロバスト RR - Sci Rep 2025 (s41598-025-23103-x) — Multi-task complex-valued CNN で rPPG + respiration 同時推定 - Quality-aware framework (arXiv:2512.14093, 2025) — 信号品質指標で多経路を動的重み付け

ITM v1 における視覚モダリティの設計

graph LR
    VID[映像 30fps] --> MP[MediaPipe<br/>顔ランドマーク + AU]
    MP --> F1[FAU 17次元]
    MP --> F2[頭部姿勢 3次元]
    MP --> F3[視線 6次元]
    MP --> F4[口開度<br/>lip parting]
    F1 --> FUSE[後期融合]
    F2 --> FUSE
    F3 --> FUSE
    F4 --> FUSE

v2 で rPPG 等の呼吸シグナルを追加。詳細は v1 アーキテクチャ

関連ページ