而是在西塔这种特定环境下的畸形文字转WAV音频