API文档#
流式API#
系统提供全面的实时音频到面部转换流式API:
StreamingAudio2FaceV1:实时音频处理的主要流式接口
基于WebSocket的通信,实现低延迟流式传输
基于块的音频处理,提供连续实时响应
可配置的后处理管道,支持不同情感配置
异步处理,支持线程池管理
请求过期和缓存管理,实现最佳性能
请求/响应格式#
API使用Protocol Buffers进行高效序列化,支持:
基于块的处理:音频输入以可配置的块进行实时响应处理
Blendshape输出:面部动画数据表示为blendshape值
基于帧的时间线:精确的基于帧的时间线管理,用于动画序列
流式协议:基于WebSocket的流式传输,支持开始/主体/结束消息类型
错误处理:全面的错误响应,包含详细的错误代码和消息
数据流程#
音频输入:可配置块大小的PCM音频数据
特征提取:基于Wav2Vec2的音频特征提取
推理:ONNX Unitalker模型生成blendshape预测
后处理:可配置管道应用情感配置和效果
输出:带有帧时间信息的结构化blendshape数据