中关村商情网

搜索
中关村商情网 首页 IT业界 软件APP 查看内容

阿里云大数据助力知衣科技打造AI服装行业核心竞争力

2022-9-22 16:21| 发布者: admin| 查看: 4315| 评论: 0



Proxima

Proxima 是阿里达摩院自研的向量检索引擎,实现了对大数据的高性能相似性搜索,也集成在我们之前在用的阿里云托管版的 ElasticSearch。功能和性能上与 Faiss 相比各有千秋,主要是针对 Faiss 使用上的困难,ElasticSearch + Proxima 帮助我们解决了。

● 稳定性高:开箱即用的产品服务 SLA 由阿里云保障,多节点部署的高可用架构。到目前为止,极少碰到接口超时问题

● 算法优化:基于图的 HNSW 算法不需要 GPU,且与 Proxima 集成做了工程优化,性能有很大的提升(1000 万条数据召回只需要 5 毫秒)。目前业务发展特征向量已经增长到 3 亿。

● 运维成本低:分片基于 ES 引擎,数据量大的情况下直接扩容 ElasticSearch 计算节点就可以

● 无带宽争抢:以图搜图的服务直接部署在云上,不占用专线带宽,图搜场景下没有再出现超时查询告警

● 召回结果集满足业务需求:Proxima 也是基于 segment 分片取 Top N 相似,聚合后再根据标签进行过滤。因为 segment 较多,能搜索到的数据量就比原先多很多。

技术架构升级展望

OLAP 分析场景优化迭代

随着数据量的不断增长以及业务需求的不断变化,OLAP 分析场景越来越复杂,对算法和技术方案选型要求越来越高。举个业务场景的例子

10 万博主发布的图片数量有 1 亿多,用户可以对博主进行关注订阅,关注上限是 2000 个博主。用户关注的 2000 个博主对应的图片量级会在 200 万左右。需要对用户关注的图片进行实时多条件统计分析(每个用户关注博主不同)

以上例子在使用 ElasticSearch 实现查询的时候需要 9 秒,显然不满足业务需要。那有没有更好的方案呢?近期在调研完 Clickhouse 之后,对数据进行预处理产生大宽表再查询,查询时延已经降低到 2 秒以内,很好的满足了业务需求。阿里云托管版的 Clickhouse 开箱即用,降低业务试错成本,帮助我们快速响应业务需求。

规范数据建模和数据治理

目前 DataWorks 主要是用来做数据集成和任务调度,也有些少量的基于规则判断数据质量,团队内部的约定更多的是文档化的开发规范,缺乏一些有效工具的辅助。随着业务场景越来越复杂,集成的数据源越来越丰富,数据开发人员也越来越多,制定全部门统一的开发规范非常必要。DataWorks 的数据建模通过工具和流程建立数据标准,可以实现结构化有序的统一管理。数据治理模块可以通过配置检查项检测不符合数据规范的开发流程,基于多项治理项的健康分度量项目健康度以及治理成效。目前我们正在结合自己的业务试用数据建模和数据治理,期待能帮助我们更好的管理数据,实现数据价值的最大化。【建议替换数据建模和数据治理的图】

图搜方案进阶合作

在服装行业领域图片识别和以图搜图是我们的核心竞争力。阿里云机器学习 PAI 也提供了相似图匹配的图像检索解决方案只需要配置原始图像数据,无需标注就可以在线构建模型,这点对我们来说比较有吸引力,后续可以考虑进行测试对比,展开在服装图片建模领域的合作。


12

鲜花

握手

雷人

路过

鸡蛋
关闭

站长推荐上一条 /1 下一条

返回顶部