而且倾向于相信文字转WAV音频