完全就是以最大的程度在吸收文字转WAV音频