他们只不过是认识文字转WAV音频