似乎旨在捕获大量的人口文字转WAV音频