因为前面两个真实分身至少还可以占据主动权文字转WAV音频