コンテンツにスキップ

It's My Turn

ロードマップ

検索を初期化

はじめに
調査・先行研究
設計
実装
参照
メタ

It's My Turn

はじめに
はじめに
調査・先行研究
調査・先行研究
設計
設計
実装
実装
参照
参照
メタ
メタ
- ドキュメント方針
- 変更履歴

目次

v1: HuggingFace 先行リリース
v2: 研究強化 + 論文
死んだ計画（参考）
関連ページ

ロードマップ¶

Status: stable | Last reviewed: 2026-05-11

Phase 別の作業計画。状況により再評価する。

v1: HuggingFace 先行リリース¶

論文より先に「動くものを公開する」段取り。

Phase 0 — 環境構築・基礎調査 ✅完了¶

期間: 1 日

Python 3.11 venv + maai インストール
MaAI で英語 VAP の推論動作確認
AMI Corpus 注釈構造解明（dialog act ontology 16種）
Smart Turn データの実体把握
プロジェクト構造（pyproject.toml, src/, scripts/）

成果は Phase 0 メモリを参照。

Phase 1 — ベースライン再現¶

期間: 約 1 週間

AMI Corpus 部分ダウンロード（5 ミーティング、~3GB）
AMI XML 注釈パーサ実装（dialogueActs + segments + words の時間整合）
MaAI VAP モデルを AMI で推論
VAP の標準指標（hold/shift accuracy）を再現

Phase 2 — マルチイベント拡張¶

期間: 約 2 週間

AMI dialog act → ITM event のラベル変換実装（ラベル生成）
データ層: AMIDataset + survival NLL 損失
サバイバルハザード head の実装（itm.models.ITMModel）
学習スクリプト + sanity smoke test（loss 単調減少）
Phase 2-B v1: 4+1 split で fine-tune → 失敗を確認（Shift 0%、VAD 崩壊）
Phase 2-B v2: pos_weight=50 + VAD aux + frozen transformer → ベースライン微改善（0.618 vs 0.586）
Phase 2-B v3（2026-05-10）: transformer 部分解凍 (lr=1e-5) + 3 epoch + pos_weight=20 + VAD aux → AUC 0.440（baseline 0.701 と比較し random 以下）。Shift 50% は偶然
Phase 2-B v4（2026-05-11）: Shift 専用 BCE ヘッド追加 → AUC 0.566（survival NLL の構造的限界を突破、ただし baseline 0.701 にはまだ届かない）
Phase 2-B v5: shift_pos_weight 調整 / val でしきい値 calibration / va_classifier 解凍
既存 VAP_BC、VAP_Nod との比較

Phase 3 — 視覚追加¶

期間: 約 1 週間

MediaPipe 顔特徴抽出（FAU、頭部姿勢、視線、口開度）
後期融合 (late fusion) のクロスアテンション
AMI 映像で fine-tune
アブレーション（音声のみ vs 音声+視覚）

Phase 4 — 量子化・デプロイ¶

期間: 約 1 週間

ONNX export
int8 static QAT (Smart Turn の方式踏襲)
CPU レイテンシ計測（M4、x86_64）

Phase 5 — HuggingFace 公開¶

期間: 数日

モデルカード作成
Gradio Space デモ
GitHub README 整備
アナウンス（Twitter / Reddit / HF Discord）

v2: 研究強化 + 論文¶

Phase 6 — rPPG 呼吸統合¶

期間: 1〜2 ヶ月

rPPG-Toolbox の PhysMamba/EfficientPhys を呼吸エンコーダとして統合
アブレーション（呼吸あり/なし）
視覚シグナルで議論した3経路統合

Phase 7 — V-JEPA 蒸留¶

期間: 数週間

V-JEPA 2 dense features を顔エンコーダに蒸留
エッジサイズ維持

Phase 8 — Coupled-Mamba 融合¶

期間: 数週間

後期融合を Coupled-Mamba (NeurIPS 2024) に置換
アブレーション

Phase 9 — 論文執筆¶

期間: 1〜2 ヶ月

arXiv プレプリント
ICMI / Interspeech / IWSDS のいずれかに投稿

死んだ計画（参考）¶

過去に検討して採用しなかったもの:

日本語 CEJC / NoXi+J / Hazumi をメインデータに → アカデミック署名/購入が必須で断念、英語 AMI に変更
ErikEkstedt/VoiceActivityProjection を直接 fork → 依存劣化、vap_dataset が private で MaAI に変更
Smart Turn データで turn-taking 学習 → データの実体は単一話者 endpoint で AMI に変更
呼吸を上半身 optical flow から取る → 顔のみシナリオで動かない ので顔由来 (rPPG, micro-motion) に変更

関連ページ¶

プロジェクト概要 — 全体像
v1 アーキテクチャ — Phase 1〜5 の技術詳細

2026年5月10日 2026年5月9日

Copyright © 2026 ksterx — BSD 2-Clause