但他们只是相互利用文字转WAV音频