这两者因为需要十分细致的使用神念来控制文字转WAV音频