光是从他刚刚踹门的动作和分贝的大小来判断文字转WAV音频