项目概述#
Speech2Motion 是一个实时流式系统,能够将语音输入转换为同步的3D角色动画。系统基于语音内容、关键词和时间进行智能动作匹配,为交互式应用提供自然且富有表现力的角色动画。
核心特性#
实时流式处理:支持低延迟的流式语音转动作转换
多版本API:提供V1、V2和V3三个版本的API,具有不同的功能特性
智能匹配:针对动作和语音文本内容的高级关键词匹配
记忆管理:用户会话记忆,避免重复动画
灵活数据源:支持多种数据后端(SQLite、MySQL、MinIO、本地文件系统)
动作融合:不同动作序列之间的平滑过渡
角色支持:多角色支持,可自定义RestPose
可扩展架构:模块化设计,支持可插拔的筛选器和读取器
系统架构#
系统由以下几个关键组件组成:
流式API:处理实时语音输入和动作生成
动作数据库:包含动作元数据和二进制文件的SQLite/MySQL数据库
筛选流水线:用于动作选择的多阶段筛选系统
时间线管理:基于帧的动作序列时间线
记忆系统:用户会话管理,跟踪最近见过的动作
文本处理:基于Jieba的文本分割,用于关键词提取
动作合并:插值和混合,实现平滑过渡