他们自身同样在努力收敛着文字转WAV音频