因此只能用这种最笨的方法去记忆文字转WAV音频