目前通过摄像头来看文字转WAV音频