也就忽略了两人手臂距离的差异文字转WAV音频