在观众的审美没有达到自行挑拣文字转WAV音频