コンテンツにスキップ

ロードマップ

Status: stable | Last reviewed: 2026-05-11

Phase 別の作業計画。状況により再評価する。

v1: HuggingFace 先行リリース

論文より先に「動くものを公開する」段取り。

Phase 0 — 環境構築・基礎調査 ✅完了

期間: 1 日

  • Python 3.11 venv + maai インストール
  • MaAI で英語 VAP の推論動作確認
  • AMI Corpus 注釈構造解明(dialog act ontology 16種)
  • Smart Turn データの実体把握
  • プロジェクト構造(pyproject.toml, src/, scripts/)

成果は Phase 0 メモリ を参照。

Phase 1 — ベースライン再現

期間: 約 1 週間

  • AMI Corpus 部分ダウンロード(5 ミーティング、~3GB)
  • AMI XML 注釈パーサ実装(dialogueActs + segments + words の時間整合)
  • MaAI VAP モデルを AMI で推論
  • VAP の標準指標(hold/shift accuracy)を再現

Phase 2 — マルチイベント拡張

期間: 約 2 週間

  • AMI dialog act → ITM event のラベル変換実装(ラベル生成
  • データ層: AMIDataset + survival NLL 損失
  • サバイバルハザード head の実装(itm.models.ITMModel
  • 学習スクリプト + sanity smoke test(loss 単調減少)
  • Phase 2-B v1: 4+1 split で fine-tune → 失敗を確認(Shift 0%、VAD 崩壊)
  • Phase 2-B v2: pos_weight=50 + VAD aux + frozen transformer → ベースライン微改善(0.618 vs 0.586)
  • Phase 2-B v3(2026-05-10): transformer 部分解凍 (lr=1e-5) + 3 epoch + pos_weight=20 + VAD aux → AUC 0.440(baseline 0.701 と比較し random 以下)。Shift 50% は偶然
  • Phase 2-B v4(2026-05-11): Shift 専用 BCE ヘッド追加 → AUC 0.566(survival NLL の構造的限界を突破、ただし baseline 0.701 にはまだ届かない)
  • Phase 2-B v5: shift_pos_weight 調整 / val でしきい値 calibration / va_classifier 解凍
  • 既存 VAP_BC、VAP_Nod との比較

Phase 3 — 視覚追加

期間: 約 1 週間

  • MediaPipe 顔特徴抽出(FAU、頭部姿勢、視線、口開度)
  • 後期融合 (late fusion) のクロスアテンション
  • AMI 映像で fine-tune
  • アブレーション(音声のみ vs 音声+視覚)

Phase 4 — 量子化・デプロイ

期間: 約 1 週間

  • ONNX export
  • int8 static QAT (Smart Turn の方式踏襲)
  • CPU レイテンシ計測(M4、x86_64)

Phase 5 — HuggingFace 公開

期間: 数日

  • モデルカード作成
  • Gradio Space デモ
  • GitHub README 整備
  • アナウンス(Twitter / Reddit / HF Discord)

v2: 研究強化 + 論文

Phase 6 — rPPG 呼吸統合

期間: 1〜2 ヶ月

  • rPPG-Toolbox の PhysMamba/EfficientPhys を呼吸エンコーダとして統合
  • アブレーション(呼吸あり/なし)
  • 視覚シグナル で議論した3経路統合

Phase 7 — V-JEPA 蒸留

期間: 数週間

  • V-JEPA 2 dense features を顔エンコーダに蒸留
  • エッジサイズ維持

Phase 8 — Coupled-Mamba 融合

期間: 数週間

  • 後期融合を Coupled-Mamba (NeurIPS 2024) に置換
  • アブレーション

Phase 9 — 論文執筆

期間: 1〜2 ヶ月

  • arXiv プレプリント
  • ICMI / Interspeech / IWSDS のいずれかに投稿

死んだ計画(参考)

過去に検討して採用しなかったもの:

  • 日本語 CEJC / NoXi+J / Hazumi をメインデータに → アカデミック署名/購入が必須で断念、英語 AMI に変更
  • ErikEkstedt/VoiceActivityProjection を直接 fork → 依存劣化、vap_dataset が private で MaAI に変更
  • Smart Turn データで turn-taking 学習 → データの実体は単一話者 endpoint で AMI に変更
  • 呼吸を上半身 optical flow から取る → 顔のみシナリオで動かない ので顔由来 (rPPG, micro-motion) に変更

関連ページ