同时自行在脑中补足后续画面文字转WAV音频