自己只不过是根据有限的资料来分析文字转WAV音频