我认为这种模式是可持续的文字转WAV音频