可是仅仅从他的坐姿和身影文字转WAV音频