他们的情况已经不能简单的归类为文字转WAV音频