大致判断出自己已经从上游到了下游文字转WAV音频