这跟我们之前的猜测还算是接近文字转WAV音频