实际上相当于是无法直接传递给普通的百姓文字转WAV音频