项目概述

项目概述#

Speech2Motion 是一个实时流式系统,能够将语音输入转换为同步的3D角色动画。系统基于语音内容、关键词和时间进行智能动作匹配,为交互式应用提供自然且富有表现力的角色动画。

核心特性#

  • 实时流式处理:支持低延迟的流式语音转动作转换

  • 多版本API:提供V1、V2和V3三个版本的API,具有不同的功能特性

  • 智能匹配:针对动作和语音文本内容的高级关键词匹配

  • 记忆管理:用户会话记忆,避免重复动画

  • 灵活数据源:支持多种数据后端(SQLite、MySQL、MinIO、本地文件系统)

  • 动作融合:不同动作序列之间的平滑过渡

  • 角色支持:多角色支持,可自定义RestPose

  • 可扩展架构:模块化设计,支持可插拔的筛选器和读取器

系统架构#

系统由以下几个关键组件组成:

  • 流式API:处理实时语音输入和动作生成

  • 动作数据库:包含动作元数据和二进制文件的SQLite/MySQL数据库

  • 筛选流水线:用于动作选择的多阶段筛选系统

  • 时间线管理:基于帧的动作序列时间线

  • 记忆系统:用户会话管理,跟踪最近见过的动作

  • 文本处理:基于Jieba的文本分割,用于关键词提取

  • 动作合并:插值和混合,实现平滑过渡