这个情况下主动的一方是占据优势的文字转WAV音频