都是他主动想办法给稳定下来文字转WAV音频