似乎是在评估贝海薇话语的分量文字转WAV音频