只不过是用了另外一种视角来看待文字转WAV音频