这倒是很符合他们的自我描述文字转WAV音频