多是靠模样和气味来辨识文字转WAV音频