是极难侦测和捕捉的文字转WAV音频