但其实最难的部分还在于对它的控制文字转WAV音频