他们顶多也就是在琢磨如何来平衡文字转WAV音频