他们根本没办法判断文字转WAV音频