我们假设一个社会上有十个人文字转WAV音频