网上的假货太多,你把握不住的,让AI来

2021-05-29 21:28 1013 阅读 ID:361
量子位
量子位

    还在发愁网购的东西可能是假货?

    现在,阿里自己搞了个AI打假师,让算法来协助打假了!

    只要让它看一眼想辨认的商品照片,它就能在几十毫秒的时间里,判断出商品的真假。

    相当于你一眨眼(约0.5秒),它就已经识别了10个假货。

    不仅如此,阿里安全团队还公开了一个包含100万张正版商标照片的数据集Open Brand,让更多的人能参与到“AI打假”行动中来。

    那么,AI究竟如何打假呢?

    对高仿和山寨同时出击

    首先,需要了解假货的售卖套路。

    由于没有售卖正品的资质,假货店铺需要采用各种手段,逃过追查:

    其一,“高仿”类商品。这种假货会对logo进行模糊处理、部分遮挡,甚至用上对抗样本攻击(没错,就是这么高科技)。

    在网购平台上,我们看到的假货图片往往是这样的:

    这些商品的外观,往往与品牌商品非常接近,然而并没有产品保障。

    其二,“山寨”类商品。这种假货会对logo进行PS、并在注册时使用仿冒名称,以躲过算法的识别。

    可别说,这些山寨货,玩起“仿妆”来很有一套:

    用户一不留神,就容易中圈套,然而平台人工审查的速度,又实在有限。

    为此,阿里安全团队决定,搞个AI“打假师”,更快地进行打假。

    AI打假模型,最需要解决的,是这3个问题:

    • 如何解决小目标识别的问题?(图片中的商标logo往往非常小)
    • 如何解决logo模糊变形打码、甚至引入攻击样本的问题?
    • 如何准确识别“山寨”版logo?

    为了解决这些问题,阿里安全团队设计了一个名为Brand Net的模型。

    据阿里安全图灵实验室资深算法专家华棠介绍,模型主要分成三部分:

    Cascade-RPN,这部分重点解决了商品图片中检测的logo“时大时小”的问题,提升了目标检测准确率、小目标召回率。
    Soft Mask Attention,这部分采用迁移学习,构造了一个检测框(bounding box)特征到分割(segmentation)特征的映射空间,有效提升logo较小、或发生形变时的检测准确率。
    Feature Representation and Instance Retrieval,这部分使得模型能在新logo加入时进行弹性扩展,不需要再对模型进行重复训练。

    当然,Brand Net作为AI“打假师”的招数之一,主要还是用于比较有名(商品照片非常多)的品牌,因为它们的商品图片更多,训练出来的模型效果就会更好。

    对于一些商品照片不多的新品牌,AI“打假师”就会通过另一种方式,来提升自己的鉴别能力:

    以半监督的方式,包括3D数据增强,领域迁移(HDA),自蒸馏等,来进行训练。

    测试表明,这个AI“打假师”,在NVIDIA的多种显卡(T4、P100、V100)上都已经取得了非常快速的检测效果,平均在30~50ms内就能识别一件假货。

    而且,识别的效果还非常好,线上图片的识别准确率,达到了95%

    当然,网购平台不会完全根据AI“打假师”的判断结果,直接对商家进行处罚。

    在AI“打假师”找出疑似售卖假货的商家后,平台还会从商品内容、售卖信息、资质、消费者反馈等多个维度进行调查,以判断商家是否存在卖假货的情况。

    目前,阿里安全团队已经利用技术打假,协助警方侦破了好几起案件,光是奢侈品包包假货特大案就有6起,并捣毁了生产窝点10余个、抓获犯罪嫌疑人150余名

    其中,就包括2020年8月,上海警方公开过的“上海青浦生产销售假冒LV注册商标商品案”,这起案件的涉案金额超亿元

    听起来确实很coooool。

    更酷的是,阿里已经把用于训练的logo数据集给公开了。

    训练的logo数据集已公开

    据阿里安全团队介绍,这个公开的数据集名为Open Brand

    Open Brand是全球最大的奢侈品logo数据集,包含500多个奢侈品大类、1000多个子类商标,累计超过100万张商标logo图片。

    每张图片,都按COCO结构进行了详细标记:

    logo图片的数量也是吊打其他数据集……

    据阿里安全团队介绍,数据集中的照片数据,均来源于淘宝、天猫、1688、Aliexpress,以及谷歌和百度搜索引擎。

    根据公开数据协议,这些数据集中的照片,仅用于学术研究,不能进行商业化使用。

    AI打假行动,你也可以参与

    为了找出更好的AI打假模型,阿里安全团队搞了个「鲁棒性标识检测挑战赛」,奖金30万。

    简单来说,身经百战的阿里安全团队,将会化身“假货商家”,对参赛者提交的AI打假模型做出各种考验。

    例如,故意对logo图片进行各种处理(模糊、加水印、生成对抗样本),看看AI打假模型能否准确识别。

    而参赛者们用来训练的数据集,就是这次公开的大型logo数据集Open Brand,报名后就能获取。

    只要参加比赛,你就能获得与高校团队、安全大牛一较高下的机会。

    目前,排行榜还在不断刷新中。

    你心动了吗?

    阿里AI打假比赛(可获取公开数据集):
    https://tianchi.aliyun.com/competition/entrance/531888/information

    Brand Net论文地址:
    https://arxiv.org/abs/2012.07350

    —完—

    @量子位 · 追踪AI技术和产品新动态

    深有感触的朋友,欢迎赞同、关注、分享三连վ'ᴗ' ի ❤

    免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
    反馈
    to-top--btn