他们可能会通过观察拉扯等方法来判断文字转WAV音频