更有可能是口语化的文字转WAV音频