她们只能根据他们的口述文字转WAV音频