在他们的认知中不可能一下子出现这么多的文字转WAV音频