因为要一个个捉文字转WAV音频