每一次的统计结果都是一个冗长的数字文字转WAV音频