他所推断出来的结论便是文字转WAV音频