真正的焦点还是锁定在文字转WAV音频