也就是分成正殿和偏殿文字转WAV音频