一是言语和肢体上的打击文字转WAV音频