因为他觉得如果他呼喊一句文字转WAV音频