我个人比较赞同他们的建议文字转WAV音频