不过……他不能用常理推测文字转WAV音频