显然他们是有目的性的文字转WAV音频