故只能在暗中耗费大量的人力和时间监视文字转WAV音频