所以人家根本不给他说话的机会文字转WAV音频