関連研究¶

Status: stable | Last reviewed: 2026-05-09

ITM に最も関連の深い先行研究を、特に Obi & Funakoshi シリーズを中心に整理。

最重要先行: Obi & Funakoshi シリーズ¶

東京工業大学（現 Institute of Science Tokyo, ISCT）船越研による一連の研究。我々が「顔→呼吸→ターンテイキング」と呼んでいた研究方向を、すでに体系的に進めている。

Obi & Funakoshi (ICMI 2023)¶

タイトル: "Video-based Respiratory Waveform Estimation in Dialogue: A Novel Task and Dataset for Human-Machine Interaction"
DOI: 10.1145/3577190.3614154
ベニュー: ICMI 2023, Paris

貢献¶

VRWE タスク定義 — 対話中の RGB 映像から呼吸波形を回帰推定する新タスク。amplitude estimation と gradient estimation の 2 サブタスクに分解
VREi データセット — 30 人（80 人中の subset）、日本語、安静セッション 20 分 + 対話セッション 15 分、胸郭+腹部の 2 本の呼吸ベルトと同期
3DCNN-ConvLSTM ベースライン — 入力 10 frames × 256×256 RGB
下流有用性の実証 — VRWE 出力（特に gradient）が voice activity の 200ms 先行予測 に有効

ITM との関係¶

我々が「顔のみから呼吸を取って 200ms 先取りでターンテイキング予測」と言っていた構想の本丸を既に実証している。"世界初の視覚→呼吸→ターンテイキング" を主張するのは不可能。

Obi & Funakoshi (HRI 2024 Companion, LBR)¶

"Respiration-enhanced Human-Robot Communication"
pp. 813-816
ロボット応用の概念実証

Obi & Funakoshi (HAI 2024, poster)¶

"Can Respiration Make Spoken Interactions Better?"
pp. 423-425
仮説提示

Obi & Funakoshi (SIGDIAL 2024 Demo)¶

"Using Respiration for Enhancing Human-Robot Dialogue"
pp. 325-328
VRWE 動画推定をロボット対話システムに統合
speech collision 回避と pseudo-respiration 提示

Obi & Funakoshi (IWSDS 2025)¶

タイトル: "Integrating Respiration into Voice Activity Projection for Enhancing Turn-taking Performance"
VAP モデルに呼吸を統合し、audio-only より性能向上を実証
ただし呼吸は 接触型ベルト計測（VRWE 動画推定ではない可能性が高い）

Obi & Funakoshi (IEEE RA-L 2025)¶

Vol 10(9), pp. 9581-9588
"Breathe and Speak Attentively: Implementing Respiratory Awareness Into Conversational Robots"
26 名で SCA + 同期 PRP の効果検証

ITM のポジショニング修正¶

Obi & Funakoshi シリーズを踏まえると、我々の差分は以下に絞られる:

軸	Obi & Funakoshi シリーズ	ITM
呼吸の取得	接触型ベルト (IWSDS 2025) または直接 3DCNN 推定 (ICMI 2023)	rPPG / 顔 micro-motion / 鼻孔の派生信号から
イベント粒度	VAP の二値 voice activity	マルチイベント (turn-shift / backchannel / overlap)
エッジ実装	議論なし	エッジ最適化（< 10M params）
言語	日本語	英語（公開データの制約から）

主張のフレーズ案:

Obi & Funakoshi (ICMI 2023) は対話中の RGB 映像から呼吸波形を回帰推定する VRWE タスクを定式化し、推定した呼吸（特に gradient）が voice activity の 200ms 先行予測に有効であることを示した。本研究はこの単一モダリティ・連続値回帰・二値 voice activity という設計を出発点とし、(i) ターンテイキングの 多クラスイベント (turn-shift / backchannel / overlap) への拡張、(ii) 音声との multimodal fusion、(iii) 生 RGB 直接学習に代わる rPPG ベースの呼吸表現、(iv) エッジ実行、の 4 点で差分化する。

その他の関連研究¶

Włodarczak & Heldner (Interspeech 2016)¶

"Respiratory Turn-Taking Cues" pp. 1275-1279
呼吸ローカルマキシマと turn-taking の関連を体系化
失敗した割り込みは preparatory inhalation を欠くことを発見
吸気深度・吸気持続時間・呼吸 range が予測子として有意

Di Pasquasio et al. (Sci Rep 2025)¶

doi:10.1038/s41598-025-15776-1
fMRI で自然会話を解析
呼吸 200ms 先行を 脳活動レベル で実証
前運動皮質・補足運動野の活動を確認
bioRxiv 2024.07.17.603521 が prior

Skantze (2021)¶

"Turn-taking in conversational systems and human-robot interaction: a review"
Computer Speech & Language
ターンテイキング研究のレビュー論文、200ms ギャップの普遍性を整理

Castillo-López et al. (IWSDS 2025)¶

"A Survey of Recent Advances on Turn-taking Modeling in Spoken Dialogue Systems"
ACL Anthology: 2025.iwsds-1.27
レビューした研究の 72% が先行研究と比較していない ことを指摘
統一ベンチマークの欠如を問題視