而是在通过超视距观察他们文字转WAV音频