也就是一开始选择去上游和下游的那个地方文字转WAV音频