剩余的1成多是无主混乱的区域文字转WAV音频