第一类就是随机生成的普通虚拟人文字转WAV音频