但是这种情况下自己说什么都是多余的文字转WAV音频