实际上也正是因为认出了文字转WAV音频