在每一个阶段都用一个个超难度的长镜头得以连接文字转WAV音频