通过实时图像和声音传送的方式文字转WAV音频