是几十块被划分好的场地文字转WAV音频