本质上等于手指类似……嗯文字转WAV音频