用了四五个钟头才将内部结构大致搞清楚文字转WAV音频