コンテンツにスキップ

リソース

Status: stable | Last reviewed: 2026-05-09

ツール・OSS・データセット・コミュニティへのリンク集。

OSS リポジトリ

ベース実装

プロジェクト URL 用途
MaAI (旧 VAP-Realtime) https://github.com/maai-kyoto/maai ITM ベースライン
Erik Ekstedt VAP https://github.com/ErikEkstedt/VoiceActivityProjection オリジナル参考(保守停止)
TurnGPT https://github.com/ErikEkstedt/TurnGPT テキストベース(保守停止)
Smart Turn https://github.com/pipecat-ai/smart-turn 軽量参考、BSD-2
TurnSense https://github.com/latishab/turnsense 超軽量、Raspberry Pi
Easy Turn https://github.com/ASLP-lab/Easy-Turn 4状態分類
Moshi https://github.com/kyutai-labs/moshi フルデュプレックス基盤
VAPwithAudioFaceEncoders https://github.com/sagatake/VAPwithAudioFaceEncoders 顔エンコーダ統合

視覚・呼吸

プロジェクト URL 用途
rPPG-Toolbox https://github.com/ubicomplab/rPPG-Toolbox NeurIPS 2023、rPPG SOTA 集
MediaPipe https://github.com/google-ai-edge/mediapipe 顔・姿勢検出
OpenFace 2.0 https://github.com/TadasBaltrusaitis/OpenFace FAU 抽出標準ツール

音声フロントエンド・データ

プロジェクト URL 用途
Pipecat https://github.com/pipecat-ai/pipecat リアルタイム対話フレームワーク
Silero VAD https://github.com/snakers4/silero-vad エッジ VAD 標準

HuggingFace モデル

MaAI 系列(29 モデル)

モデル 用途
maai-kyoto/vap_en 英語 VAP(複数 frame_rate / context_len)
maai-kyoto/vap_jp 日本語 VAP
maai-kyoto/vap_bc_* バックチャネル予測
maai-kyoto/vap_nod_* うなずき予測
maai-kyoto/vap_mc_* ノイズ耐性
maai-kyoto/vap_prompt_* プロンプト条件付け

Smart Turn

  • pipecat-ai/smart-turn-v2 (94.8M)
  • pipecat-ai/smart-turn-v3 (8M, int8)
  • onnx-community/smart-turn-v3-ONNX

その他

  • ASLP-lab/Easy-Turn (4状態)
  • kyutai/moshiko-pytorch-bf16 (7B)

データセット

ITM で実際に使うもの

データセット URL アクセス
AMI Corpus https://groups.inf.ed.ac.uk/ami/corpus/ 即 DL、CC BY 4.0
Smart Turn v3.1 train https://huggingface.co/datasets/pipecat-ai/smart-turn-data-v3.1-train HF、BSD
Multi-TPC Nature Sci Data 2026 Zenodo
AVA-ActiveSpeaker https://research.google.com/ava/ CVDF S3
VoxConverse https://github.com/joonson/voxconverse GitHub 直 DL

個人不可(参考)

  • CEJC: https://www2.ninjal.ac.jp/conversation/cejc.html
  • NoXi+J: https://multimediate.perceptualui.org/datasets/Dataset_NoXi/
  • Hazumi: https://www.nii.ac.jp/dsc/idr/rdata/Hazumi/
  • CANDOR: https://www.betterup.com/research/candor-research(個人申請の可能性あり)

評価ベンチマーク

名前 用途
Full-Duplex-Bench (arXiv:2503.04721) フルデュプレックスシステム評価

ドキュメンテーション・公式サイト

  • VAP デモ: https://erikekstedt.github.io/VAP/
  • Pipecat Docs: https://docs.pipecat.ai/
  • Smart Turn Blog: https://www.daily.co/blog/announcing-smart-turn-v3-with-cpu-inference-in-just-12ms/

サーベイ・レビュー

  • Castillo-López et al. (IWSDS 2025): A Survey of Recent Advances on Turn-taking Modeling — https://aclanthology.org/2025.iwsds-1.27
  • Skantze (2021): Turn-taking in conversational systems and HRI: a review — Computer Speech & Language

コミュニティ・議論

  • HuggingFace Hub の turn-taking タグ
  • Pipecat Discord(Smart Turn のコミュニティが活発)

ITM プロジェクト

  • リポジトリ: https://github.com/ksterx/itm
  • ドキュメント: https://ksterx.github.io/itm/
  • Issue: https://github.com/ksterx/itm/issues

関連ページ