本来他以为不过就是互相利用文字转WAV音频