可是却能够从他们的口型中判断出他们在说的是文字转WAV音频