因为他抽出的未必是本质文字转WAV音频