但基本原理却是差不多文字转WAV音频