又怎么可能进行这么细致的检测文字转WAV音频