而且几乎是在黑袍人开口说话的同时文字转WAV音频