第一个阶段只不过是刷掉了七八层的人数文字转WAV音频