关键是他们都通过了第一轮文字转WAV音频