因为他发现刚才的声音可不是那么简单的文字转WAV音频