等到他把这些片段给凝聚起来的时候文字转WAV音频