她们都是倾向于接受文字转WAV音频