# 项目概述

Speech2Motion 是一个实时流式系统，能够将语音输入转换为同步的3D角色动画。系统基于语音内容、关键词和时间进行智能动作匹配，为交互式应用提供自然且富有表现力的角色动画。

## 核心特性

- **实时流式处理**：支持低延迟的流式语音转动作转换
- **多版本API**：提供V1、V2和V3三个版本的API，具有不同的功能特性
- **智能匹配**：针对动作和语音文本内容的高级关键词匹配
- **记忆管理**：用户会话记忆，避免重复动画
- **灵活数据源**：支持多种数据后端（SQLite、MySQL、MinIO、本地文件系统）
- **动作融合**：不同动作序列之间的平滑过渡
- **角色支持**：多角色支持，可自定义RestPose
- **可扩展架构**：模块化设计，支持可插拔的筛选器和读取器

## 系统架构

系统由以下几个关键组件组成：

- **流式API**：处理实时语音输入和动作生成
- **动作数据库**：包含动作元数据和二进制文件的SQLite/MySQL数据库
- **筛选流水线**：用于动作选择的多阶段筛选系统
- **时间线管理**：基于帧的动作序列时间线
- **记忆系统**：用户会话管理，跟踪最近见过的动作
- **文本处理**：基于Jieba的文本分割，用于关键词提取
- **动作合并**：插值和混合，实现平滑过渡

