假设这些咖啡粉都是数据文字转WAV音频