刚才在脑海稍稍推演了一下林铭建立的模型文字转WAV音频