而是注意力锁定在了下方文字转WAV音频