中关村商情网

搜索
中关村商情网 首页 IT业界 软件APP 查看内容

阿里云大数据助力知衣科技打造AI服装行业核心竞争力

2022-9-22 16:21| 发布者: admin| 查看: 357| 评论: 0


摘要

杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业,致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出,打造智能化服装设计的供应链平台。

公司简介

杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业,致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出,打造智能化服装设计的供应链平台。知衣成立于 2018 年 2 月,同年获得千万美金 A 轮融资;2021 年完成由高瓴创投、万物资本领投的 2 亿人民币 B 轮融资,同年入围「杭州市准独角兽企业榜单」。

知衣凭借图像识别、数据挖掘、智能推荐等核心技术能力,不断升级服务体系,自主研发了知衣、知款、美念等一系列服装行业数据智能 SaaS 产品,为服装企业和设计师提供流行趋势预测、设计赋能、款式智能推荐等核心功能,并通过 SaaS 入口向产业链下游拓展,提供一站式设计+柔性生产的供应链平台服务。目前已服务 UR、唯品会、绫致、赫基、太平鸟、海澜之家、森马等数千家时尚品牌和平台。

方案架构

当前知衣在阿里云上的整体方案架构如下,大致分为产品层、服务层、数据层以及大数据平台。

● 产品层:知衣目前有多款 APP 应用,如主打产品知衣、增强设计协作的美念等。除此之外,我们还提供定制化 API 向第三方开放数据接口服务和以图搜图的功能。从数字选款到大货成品交付的一站式服装供应链平台也是核心的能力输出。

● 服务层:相关产品的前后端系统都已经实现容器化,部署在阿里云的 ACK 容器服务集群

● 数据层:主要保存原始图片、业务系统产生的业务数据、以及 OLAP 数据分析服务

○ 对象存储 OSS:保存原始图片,构建服装行业十亿级别款式库

○ 数据库 MySQL:OLTP 业务数据

○ HBase:以 KV 格式访问的数据,如商品详细信息、离线计算榜单等数据

○ 特征向量库:由图片识别抽取的向量再经过清洗后保存在阿里达摩院开发的 Proxima 向量检索引擎库

○ ElasticSearch:用于点查及中小规模数据的指标统计计算。设计元素标签超过 1000 个,标签维度主要有品类、面料、纹理、工艺、辅料、风格、廓形、领型、颜色等

● 大数据平台

○ 日志服务 SLS:用于缓存经过图片识别后的海量向量数据。SLS 还有一个基于 SQL 查询的告警能力,就是若向量数据没有进来会触发告警,这对于业务及时发现问题非常有用。

○ 离线数仓(DataWorks + MaxCompute):通过 DataWorks 集成缓存了图片特征向量的日志服务作为数据源,然后创建数据开发任务对原始特征向量进行清洗(比如去重等)保存在 MaxCompute,再通过 DataWorks 将 MaxCompute 清洗后的向量数据直接写入 ElasticSearch 的 Proxima

○ 数据挖掘 & 算法推荐:部署在 ACK 里的一些 Python 任务,主要做推荐相关的内容,比如用户特征 Embedding 计算、基于用户行为的款式图片的推荐、相似性博主的推荐等

○ 图片识别服务:目前图片识别服务主要还是部署在 IDC 机房,5~6 台 GPU 服务器对图片进行批量识别

大数据方案演进

知衣的大数据方案也是经过不同的阶段不断的演进,满足我们在成本、效率和技术方面的追求,本质上还是服务于业务需求。

阶段一:IDC 自建 CDH 集群

我们的业务系统一开始就部署在阿里云,同时在 IDC 机房部署了 10 台服务器搭建 CDH 集群,构建 Hive 数仓。计算过程是先将云上生产环境数据同步到 CDH,在 CDH 集群进行计算后将计算结果再回传到阿里云上提供数据服务。

自建 CDH 集群虽然节省了计算费用,但是也带来不少问题。最主要的就是运维比较复杂,需要专业的人员进行集群的运维管理。出现问题也是在网上到处搜索排查原因,效率比较低。

阶段二:DataWorks + MaxCompute 替换 CDH 集群

为了降低运维复杂度,我们将计算任务迁移到 MaxCompute,直接基于 DataWorks 做任务编排调度。

阶段三:ElasticSearch 构建即席查询

知款聚焦于快速发现时尚趋势灵感,集成了社交平台、品牌秀场、零售及批发市场、淘系电商、时尚街拍五大图源,海量的设计灵感参考,帮助服装品牌及设计师快速准确地预判时尚风向,掌握市场动态。其中趋势分析板块就需要对某个季度下各种组合条件下的设计要素标签进行统计分析,并输出上升、下降以及饼图等指标。这也是我们数据量最大的查询场景,扫描分析的数据量量级会接近百万。

阿里云托管版 ElasticSearch 相比较开源版本最大优点就是开箱即用免运维,特别的就是支持达摩院的 Proxima 向量检索引擎,非常适合我们业务的多维查询和统计分析场景。后面会在图片识别展开讲述 Proxima 向量引擎。

图片识别

我们的核心功能场景是以图搜图,前提是需要对海量的图片库数据进行识别。我们以离线的方式对图片库的所有图片进行机器学习分析,将每一幅图抽象成高维(256 维)特征向量,然后将所有特征借助 Proxima 构建成高效的向量索引。

模型训练

图片识别之前需要训练模型。由专业的服务行业背景的人员对图片库进行标注,然后线下部署的 GPU 集群从阿里云对象存储 OSS 批量拉取已标注的图片进行训练。为了降低标注的成本,我们采用了主动学习(Active Learning)方法,即基于一部分已标注的图片由机器学习训练出一个模型,然后对未标注的图片进行预测,让人工对预测结果再次进行确认和审核,再将标注的数据使用监督学习模型继续进行模型训练,逐步提升模型效果。

批量图片识别

模型生成以后打包到 Docker 镜像,然后在 GPU 节点上运行容器服务就可以对海量的服装图片进行识别,提取出高维的特征向量。因为提取的特征向量数据量很大且需要进行清洗,我们选择将特征向量先缓存在阿里云日志服务 SLS,然后通过 DataWorks 编排的数据开发任务同步 SLS 的特征向量并进行包含去重在内的清洗操作,最后写入向量检索引擎 Proxima。

因为一次批量识别图片的工作量很大,线下的 GPU 服务器计算性能有瓶颈,所以我们就借助云上弹性的 GPU 资源做计算资源的补充。线下 GPU 和云上 GPU 组成一个计算资源池,共同消费同一批需要进行图片识别的计算任务,效率大大提升。云上我们购买的是 GPU 抢占式实例,一般是按量价格的 2~3 折,可以进一步降低成本。

单次图片识别

我们以在线 serving 的模式在 web 前端提供单次单张图片识别功能,比如用户上传一张图片,通过模型的推理输出如下结果。

以图搜图

构建好服装图片的特征向量库,我们就可以实现以图搜图的功能。当用户上传一张新图片的时候,我们用之前的机器学习方法对其进行分析并产出一个表征向量,然后用这个向量在之前构建的向量索引中查找出最相似的结果,这样就完成了一次以图片内容为基础的图像检索。选择合适的向量检索引擎非常重要。

Faiss

Faiss (Facebook AI Similarity Search) 是 Facebook AI 团队开源的向量检索库引擎。初期我们也是选择 Faiss 部署分布式服务,在多台 GPU 服务器上部署特征向量搜索匹配服务,将搜索请求分发到每台 GPU 子服务进行处理,然后将 TOP N 的相似结果数据汇总返回给调用方。

在使用 Faiss 的过程中,我们也遇到了实际的困难。当然这并不是 Faiss 本身的问题,而是需要投入更多人力开发运维分布式系统才能匹配业务需求。

● 稳定性较差:分布式 GPU 集群有 5~6 台,当某一台机器挂了会拉长整个接口响应时间,业务的表现就是搜图服务等很久才有结果返回。

● GPU 资源不足:我们采用的是最基础的暴力匹配算法,2 亿个 256 维特征向量需要全部加载到显存,对线下 GPU 资源压力很大。

● 运维成本高:特征库分片完全手动运维,管理比较繁琐。数据分片分布式部署在多个 GPU 节点,增量分片数据超过 GPU 显存,需要手动切片到新的 GPU 节点。

● 带宽争抢:图片识别服务和以图搜图服务都部署在线下机房,共享 300Mb 机房到阿里云的专线带宽,批量图片识别服务占用大带宽场景下会直接导致人机交互的图搜响应时间延长。

● 特定场景下召回结果集不足:因为特征库比较大,我们人工将特征库拆成 20 个分片部署在多台 GPU 服务器上,但由于 Faiss 限制每个分片只能返回 1024 召回结果集,不满足某些场景的业务需求。


12下一页

鲜花

握手

雷人

路过

鸡蛋
返回顶部