也就是说他目前只走过了两个方格文字转WAV音频