然后根据人形符印的数量文字转WAV音频