毕竟他们只是听闻文字转WAV音频