新規性¶

Status: draft | Last reviewed: 2026-05-09

既存研究との差別化。査読対策のためにも、何が新しいかを明示する。

TL;DR¶

主要な新規性は4つ:

マルチイベント・サバイバルハザード（turn-shift / backchannel / overlap を統一的に予測）
エッジ実装可能な視覚統合（MediaPipe + 軽量融合、< 15M params）
顔のみからの呼吸抽出（v2、rPPG 等の派生信号）
多モーダル統合のオープンソース・エッジ実装（Smart Turn / MaAI と並ぶ立ち位置）

既存研究との差別化マトリクス¶

軸	VAP	MM-VAP	Smart Turn v3	MaAI	DualTurn	Obi & Funakoshi	ITM v1
出力タイプ	二値	二値	二値	二値	二値	二値 (200ms 先)	マルチイベント連続ハザード
イベント区別	×	×	×	△ (BC 別モデル)	△ (6 cls)	×	○ (3 イベント独立)
モダリティ	音声	音声+映像	音声	音声	音声	顔→呼吸	音声+顔特徴
呼吸統合	×	×	×	×	×	○ (3DCNN)	○ (v2 で rPPG)
エッジ実装	△	×	○ (8M, BSD)	○ (academic)	×	×	○ (BSD 同等)
ライセンス	research	research	BSD	code MIT, weights academic	research	unspec	BSD
言語	英	英	23 言語	多言語	多言語	日	英 (v1)
ベース実装	自前	自前	自前	自前	自前	自前	MaAI 上に構築

主張すべき貢献の言語化¶

論文・README・モデルカードで使えるフレーズ:

既存のターンテイキング予測モデル（VAP / Smart Turn / MM-VAP / DualTurn）は、出力を単一の二値判定に統合しており、turn-shift と backchannel を区別できない。本研究はこれを multi-event survival hazard として統一的に拡張し、エッジデバイスで動作する軽量実装をオープンソース・寛容ライセンス（BSD 2-Clause）で公開する。さらに、顔のみからの呼吸シグナル抽出 を視覚モダリティに統合する設計を v2 として提案する。

個別の主張と根拠¶

主張 1: マルチイベント・サバイバルハザード¶

根拠:

VAP / MM-VAP は単一二値出力で、turn-shift と backchannel が混ざる
Easy Turn は 4 状態分類だが離散
DualTurn は 6 分類だが per-channel で event-type を区別しない
Inoue et al. (NAACL 2025) はバックチャネル予測を VAP の 別モデル として実装、統合的なフレームワークではない
我々は 連続ハザード形式で 3 イベント同時予測 を一つのモデルで実現

反論への備え:

Q: なぜ 3 つだけ？ A: 主要な区別は turn-shift / backchannel / overlap で十分。fine-grained な dialog act 分類は v2 の future work
Q: ハザード形式は連続値でラベルが要求される A: AMI dialog act から自動生成（ラベル生成）

主張 2: エッジ実装可能な視覚統合¶

根拠:

MM-VAP / MM-F2F は研究室実装でサイズ・依存が重い
Smart Turn v3 は 8M / int8 量子化でエッジ動作するが 音声のみ
我々は MediaPipe + 軽量 MLP + 後期融合 で < 15M params に収める
ONNX export + int8 QAT で CPU リアルタイム

反論への備え:

Q: 視覚追加で精度は上がるか A: MM-VAP の知見（79% → 84%）からエビデンスあり、AMI で再現する
Q: MediaPipe はエッジで遅い A: CPU 5ms/frame、30Hz 動作実証済み

主張 3: 顔のみからの呼吸抽出（v2）¶

根拠:

Obi & Funakoshi (ICMI 2023) は 接触型ベルト または 3DCNN 直接回帰 で呼吸を取る
我々は rPPG / 鼻孔フレア / 頭部 micro-motion の派生信号を late fusion
これにより上半身が映らない（クローズアップ・ビデオ会議）シナリオで動く

反論への備え:

Q: rPPG は本当に呼吸取れるか A: RIIV (Respiratory-Induced Intensity Variation) の文献あり、PhysMamba 等で実証済み
Q: 暗肌で精度劣化 A: PhysFlow (BMVC 2024) の skin-tone augmentation で対処
Q: マスク・ヒゲで使えない A: 3 経路 late fusion で冗長化

主張 4: オープンソース・エッジ実装¶

根拠:

Smart Turn v3 / TurnSense / VAP-Realtime 等の OSS landscape にマルチモーダル+マルチイベント版が存在しない
BSD 2-Clause で Pipecat エコシステム互換（ONNX I/O 形状を Smart Turn と揃える）
HuggingFace に pipecat-ai/smart-turn-v* と並べて公開可能

反論への備え:

Q: 既存の Pipecat とどう統合するか A: Smart Turn v3 の LocalSmartTurnAnalyzerV3 互換 API を提供、drop-in compat mode + 拡張モード
Q: ライセンス問題 A: コードは BSD 自前、データは AMI (CC BY) と Smart Turn (BSD)、再配布可

ICMI / Interspeech / IWSDS への投稿戦略¶

graph LR
    H[ITM の主張] --> I[ICMI<br/>マルチモーダル interaction]
    H --> S[Interspeech<br/>音声+ハザード形式]
    H --> W[IWSDS<br/>対話システム応用]
    I --> A[視覚モダリティ + マルチイベント]
    S --> B[サバイバルハザード + 校正性]
    W --> C[エッジ実装 + Pipecat 統合]

トップライン主張で投稿先を変える。最有力は ICMI（マルチモーダル + 視覚 + 対話 interaction が揃う）。

過去の主張（破棄・修正）¶

参考までに、Obi & Funakoshi 2023 / IWSDS 2025 を踏まえて修正した主張:

~~「世界初の視覚→呼吸→ターンテイキング統合」~~ → Obi & Funakoshi (ICMI 2023) が先行
~~「単一二値ではなくハザードに移行する初の研究」~~ → DualTurn が 6 分類で先行（ただし event 区別なし）
~~「マルチイベント分類の初の研究」~~ → Easy Turn が 4 状態で先行（ただし離散）

修正後の主張は 「これらの先行を統合し、エッジで動く形でオープンソース化する」 という統合・実装上の貢献。

新規性¶

TL;DR¶

既存研究との差別化マトリクス¶

主張すべき貢献の言語化¶

個別の主張と根拠¶

主張 1: マルチイベント・サバイバルハザード¶

主張 2: エッジ実装可能な視覚統合¶

主張 3: 顔のみからの呼吸抽出（v2）¶

主張 4: オープンソース・エッジ実装¶

ICMI / Interspeech / IWSDS への投稿戦略¶

過去の主張（破棄・修正）¶

関連ページ¶