仅仅只是粗略统计文字转WAV音频