我们或者可以反过来推测一下文字转WAV音频