并且我通过感知情绪发现他说的全是实话文字转WAV音频