按照初步探明的加上估计文字转WAV音频