在理论上我们还是应该相信文字转WAV音频