而是自然生成的皮质文字转WAV音频