他发现每个人在想要说什么的时候文字转WAV音频