毕竟通过屏幕看到的不是实体文字转WAV音频