他的依据并不是所谓文字转WAV音频