而且要再通过十一次文字转WAV音频