如果此时能够有实时统计文字转WAV音频