可以说这个话语权是在看到这一幕的人嘴里的文字转WAV音频