至少他知道未来动作捕捉技术发展到了什么高度文字转WAV音频