只是不停地观察文字转WAV音频