他们自然无法推演文字转WAV音频