它们试图通过某种对空间的理解方式文字转WAV音频