通过监控摄像确实很难分辨出来文字转WAV音频