每个镜头都是对现实时空的记录文字转WAV音频