API文档

Contents

API文档#

流式API#

系统提供全面的实时音频到面部转换流式API：

StreamingAudio2FaceV1：实时音频处理的主要流式接口
- 基于WebSocket的通信，实现低延迟流式传输
- 基于块的音频处理，提供连续实时响应
- 可配置的后处理管道，支持不同情感配置
- 异步处理，支持线程池管理
- 请求过期和缓存管理，实现最佳性能

请求/响应格式#

API使用Protocol Buffers进行高效序列化，支持：

基于块的处理：音频输入以可配置的块进行实时响应处理
Blendshape输出：面部动画数据表示为blendshape值
基于帧的时间线：精确的基于帧的时间线管理，用于动画序列
流式协议：基于WebSocket的流式传输，支持开始/主体/结束消息类型
错误处理：全面的错误响应，包含详细的错误代码和消息

数据流程#

音频输入：可配置块大小的PCM音频数据
特征提取：基于Wav2Vec2的音频特征提取
推理：ONNX Unitalker模型生成blendshape预测
后处理：可配置管道应用情感配置和效果
输出：带有帧时间信息的结构化blendshape数据