但更多的还是把他看成文字转WAV音频