他只能从宏观上讲一讲文字转WAV音频