可是实际上他确实看准了文字转WAV音频