学界目前使用的是步枪文字转WAV音频