他们统计的是全部数据文字转WAV音频