所以他们知道的只是表面文字转WAV音频