首先的环节是下注文字转WAV音频