目标就是保住第三文字转WAV音频