本来咖啡厅的环境就是比较安静的文字转WAV音频