第一阶段是地域型文字转WAV音频