则需要动用人手挖掘文字转WAV音频