最后还是得出了必须联合开发的结论……文字转WAV音频