我们目前希望和需要知道的重diǎn是结构文字转WAV音频