似乎是为了印证他们的猜测文字转WAV音频