项目概述

Contents

项目概述#

Speech2Motion 是一个实时流式系统，能够将语音输入转换为同步的3D角色动画。系统基于语音内容、关键词和时间进行智能动作匹配，为交互式应用提供自然且富有表现力的角色动画。

核心特性#

实时流式处理：支持低延迟的流式语音转动作转换
多版本API：提供V1、V2和V3三个版本的API，具有不同的功能特性
智能匹配：针对动作和语音文本内容的高级关键词匹配
记忆管理：用户会话记忆，避免重复动画
灵活数据源：支持多种数据后端（SQLite、MySQL、MinIO、本地文件系统）
动作融合：不同动作序列之间的平滑过渡
角色支持：多角色支持，可自定义RestPose
可扩展架构：模块化设计，支持可插拔的筛选器和读取器

系统架构#

系统由以下几个关键组件组成：

流式API：处理实时语音输入和动作生成
动作数据库：包含动作元数据和二进制文件的SQLite/MySQL数据库
筛选流水线：用于动作选择的多阶段筛选系统
时间线管理：基于帧的动作序列时间线
记忆系统：用户会话管理，跟踪最近见过的动作
文本处理：基于Jieba的文本分割，用于关键词提取
动作合并：插值和混合，实现平滑过渡