虽然前者的密度极高文字转WAV音频