API文档#

流式API#

系统提供全面的实时音频到面部转换流式API:

  • StreamingAudio2FaceV1:实时音频处理的主要流式接口

    • 基于WebSocket的通信,实现低延迟流式传输

    • 基于块的音频处理,提供连续实时响应

    • 可配置的后处理管道,支持不同情感配置

    • 异步处理,支持线程池管理

    • 请求过期和缓存管理,实现最佳性能

请求/响应格式#

API使用Protocol Buffers进行高效序列化,支持:

  • 基于块的处理:音频输入以可配置的块进行实时响应处理

  • Blendshape输出:面部动画数据表示为blendshape值

  • 基于帧的时间线:精确的基于帧的时间线管理,用于动画序列

  • 流式协议:基于WebSocket的流式传输,支持开始/主体/结束消息类型

  • 错误处理:全面的错误响应,包含详细的错误代码和消息

数据流程#

  1. 音频输入:可配置块大小的PCM音频数据

  2. 特征提取:基于Wav2Vec2的音频特征提取

  3. 推理:ONNX Unitalker模型生成blendshape预测

  4. 后处理:可配置管道应用情感配置和效果

  5. 输出:带有帧时间信息的结构化blendshape数据