以便更加清晰的捕捉前方传来的那阵细微而又密集的动静文字转WAV音频