最难的就是分辩哪一片是实地文字转WAV音频