他已经尽量选了一个极端简单的镜头来拍了文字转WAV音频