也就是勉强驱动一次文字转WAV音频