而是通过化妆而产生的文字转WAV音频