这个时候的表现不能代表最终结果文字转WAV音频