因为周围人的理论水平也就是一般二般的文字转WAV音频