而且动作很难被捕捉文字转WAV音频