它的重点在于怎样展露出其三维结构文字转WAV音频