你的推测都是根据我的口述为基础的文字转WAV音频