一方面是要在技术上的大投入文字转WAV音频