他们会自己找个理由来合理化自己的认知文字转WAV音频