我们只能从声音里判断出大体的情况文字转WAV音频