今天给各位分享通过国家药监局召回信息了解国内召回法规要求的知识,其中也会对通过国家药监局召回信息了解国内召回法规要求进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
通过国家药监局召回信息了解国内召回法规要求的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于通过国家药监局召回信息了解国内召回法规要求、通过国家药监局召回信息了解国内召回法规要求的信息别忘了在本站进行查找喔。
本文导读目录:
2、召回算法总结
今天,让我们告诉你汽车召回是什么意思。其实汽车召回是很正常的事情。毕竟经过几十道生产装配工序,一辆车不可能一点缺陷都没有,但一般都能投放市场,也就是说暂时没有问题。后来在后续反应中,如果有严重隐患,会采用召回。汽车召回就是对问题车辆进行补救 去年,中国缺陷车召回数量同比增长77%,连续四年刷新召回纪录,成为仅次于美国的第二大国家召回。这辆车是什么意思?其实问题不大,只是厂家发现车内的缺陷,然后进行修理、更换、退货等措施对车进行补救。 很多人认为这个问题车不应该出现在市场上。毕竟是对公共安全的巨大潜在威胁,但其实也没必要担心。只要是机器,都会有一定的缺陷,更何况是经历了几十道生产组装工序的汽车。不可能没有缺陷,但是这些缺陷在推出的时候并没有被发现。 汽车出售后,制造将根据车主的反馈对汽车进行测试。如果影响汽车正常使用或存在严重隐患,会召回对汽车进行处理。但是有两种车召回,一种是主动召回一种是被动召回。 主动召回表示厂家发现问题,主动采取召回措施,被动召回表示政府部门强制企业召回。毕竟有些问题对于厂商来说并不严重,但是对于消费者来说就完全不一样了。涉及到政府部门,只能采取被动召回的措施。 虽然说车辆有问题召回说明有问题,但并没有留下不好的印象。毕竟每一辆车都会在某种程度上出现一些问题,这取决于它是否被发现和解决。车辆召回意味着消费者反馈的问题得到重视,车辆的安全性进一步加强。当然,汽车召回是可以免费维修和更换零件的,所以大家可以放心。 目录 一、什么是召回 二、为什么要召回 三、最近几年召回算法 1.单Embedding向量召回 (1)单塔召回 (2)双塔召回 (3)长短期兴趣召回 2.多Embedding向量召回 (1)输入层 (2)attention (3)胶囊网络 (4)胶囊网络个数的确定 (5)线上serving (6)MIND跟Youtube DNN的关系 (7)MIND跟DIN的关系 (8)为什么选择胶囊网络 3.树召回(第3代召回技术) (1)深度模型 (2)层次兴趣树(刻画用户的兴趣分层信息) (3)树的构建 (4)模型的训练 (5)线上预测(如何从树中检索出top-N用户最感兴趣的item) (6)两个问题 4.图召回 (1)基本图embedding(BGE) (2)基于辅助信息的图embedding(GES) (3)增强式的GES(EGES) (4)线上serving (5)图召回的优势 (6)其它 四、总结 从海量的item中挑选出一小部分作为候选集后,送到排序层用复杂的模型做精排。 主要是算力的局限促生了上图所示的分阶段漏斗体系,即召回阶段+排序阶段。如果选择全部的item作为候选集,耗时以及内存开销巨大,服务响应时间将会是灾难性的。召回模块非常重要,该模块决定了整个系统最终表现的天花板,需要保证能召回高质量(高点击率或高转化率)的候选item,因此如何创新和发展召回技术是对业务有着重大意义的问题,也一直是业界和学术界关注的重点问题。 传统的召回方式是基于启发式规则的召回方法,如基于ItemCF的协同过滤算法,直观可解释性强,实现简单,比较容易开发部署。这里主要关注的是最近几年深度学习广泛用于推荐和广告场景之后的的召回算法。 (2016年谷歌,经典YoutubeDNN向量化召回) 《Deep Neural Networks for YouTube Recommendations》 YoutubeDNN作者将问题建模为用户感兴趣视频的多分类问题(有多少个video,就有多少个类别),输出的是在所有候选视频集合上的概率分布。 1.1.1 特征输入层:用户看过的历史video时序特征embedding向量,用户历史搜索词的时序特征embedding向量,用户的地理位置、年龄、性别等其它用户特征。时序特征embedding向量做平均池化后和其它用户特征的embedding向量做concat. 1.1.2 离线训练:经过若干层全连接后输出用户向量u,假设video个数总共有N个,每个video的embedding向量长度为D,那么在网络的末端会有一个关于所有video的D*N维embedding特征矩阵V(论文中没有清晰地说明这个embedding矩阵如何得到的,按照其它公司的实际运用经验,这个embedding矩阵跟输入层video时序的embedding权重是共享的,而且实验结果也表明,相比单独定义一个和video数一样的embedding矩阵作为softmax层参数,采用共享权重的效果要好很多),通过用户向量u和每个video的embedding向量做内积(这个过程相当于做了一次全连接,全连接的参数与输入层video的embedding权重共享),再过一遍softmax,得出用户对所有video的概率分布。 1.1.3 线上serving:考虑到召回的高性能需求,首先用训练好的召回模型得到user_id相应的user embedding向量,item embedding向量可以线下计算完成(如存储到redis中),然后使用最近邻检索方法(比如faiss,faiss是为稠密向量提供高效相似度搜索的框架)找到相似度最高的 top-N 条候选item返回。 2013年微软发表的关于两段文本的深度匹配模型DSSM,由于具有计算速度快的优势,后来发展成为所谓的“双塔框架”广泛应用于广告或推荐的召回中。双塔模型的一般结构如下,两侧分别对user和item建模,在最后一层计算二者的内积。在此基础上,后续出现一系列改版双塔召回模型,例如2019年谷歌的《Sampling-Bias-Corrected Neural Modeling for Large Corpus Item Recommendations》,采样修正的双塔模型,当item数量十分巨大的时候,双塔模型很难得到充分训练,对此,提出两个改进点:通过batch softmax optimization来提升训练效率和通过streaming frequency estimation来修正sampling bias. deepmcp中的match双塔网络可以直接用来做召回。搜索广告中,基于表示的query-ad双塔匹配模型都能用来做召回。 1.3 长短期兴趣召回 (2019年12月,阿里)《SDM: Sequential Deep Matching Model for Online Large-scale Recommender System》 1.3.1 背景(为什么要分别建模提取用户的长期和短期兴趣) 淘宝电商场景中,通常一个用户的访问行为是一个长序列,而这些序列行为可以划分为由一系列session组成。用户在一个session中往往有明确的购物需求,当开始一个新的session的时候,需求可能又改变了。如果直接在整个行为序列上建模会对推荐系统指标有影响,所以论文中定义最近一次session为短期行为序列,比如,用户想买球鞋,短期内往往只会关注球鞋类的商品,这属于用户短期的兴趣,而在这之前的行为序列(论文中限制7天内)可以看出用户一些长期的兴趣,往往是更一般性的粗粒度兴趣,比如,用户对品牌和店铺的偏好情况。因此,通过模型分别建模用户的长期和短期兴趣是有意义的。session的生成规则如下: 1.3.2 整体网络结构 如上图所示,左下部分基于用户的长期行为,得到表示向量p,左上部分基于用户的短期行为,通过模型计算得到表示向量s,然后将两者通过某种方式进行融合,得到用户最终的长短期兴趣向量o. 通过o和item对应的向量v做内积计算匹配得分,并根据分数高低召回top-N个item。网络的训练方式跟上面讲的YoutubeDNN一样,看成多分类问题。 1.3.3 内部网络结构 如上图所示,在长期行为中挖掘用户对item属性的偏好(如类目、品牌、店铺等),在短期行为中结合Multi-Head Self-Attention过滤掉session内部的误点击(casual click)的影响,并利用Multi-Head挖掘用户在session内的多方面兴趣,最后构造gate自适应地融合长短期兴趣,最终得到用户兴趣的充分表达向量。 (1)长期行为建模(上图左上部分) 所用的数据是最后一个session之前且7天内的用户行为序列。这部分网络主要关注点在于通过长期行为从不同角度刻画用户的兴趣,比如用户经常逛某种类型的店铺、经常复购同一类型的商品等。因此,网络的输入由5种序列组成,分别是用户交互的item序列、用户交互的item的leaf category序列(类似二级分类)、用户交互的item的first level category序列、用户交互的brand序列、用户交互的shop序列。 然后,这5个序列分别和用户embedding向量e(用户年龄,性别,life stage等)作为AttnNet网络的输入,得到5个weighted pooling输出向量,然后把这5个输出向量concat,经过一个全连接层,得到用户长期兴趣向量p。 其中,AttnNet网络用来学习用户对不同的item、二级类目、一级类目、品牌、店铺的偏好程度,其网络结构如上图右上角所示,用户向量和序列中向量分别做内积后过一遍softmax,然后通过加权和输出一个attention后的向量,具体公式如下: (2)短期行为建模(上图左下部分) 对于短期行为,即用户最近一个session里的行为,将item转换为embedding向量后(用户近期 sequence 的 item考虑品牌和商铺等 side information 得到的 embedding向量),通过LSTM学习时序信息(用LSTM的原因是因为rnn模型在session based recommendation中表现出很好的性能),得到每一个item对应的隐层输出向量h. 然后,接下来是一层multi-head self-attention,其作用主要有两点:1)用户的行为中存在一些误点击等噪声行为,通过self-attention可以用于减轻同一个 session 中不相关的偶然行为的影响 2)用户对不同item的关注点不同,通过multi-head self-attention可以提取用户多个兴趣点的信息,比如某个用户挑选连衣裙主要考虑的是颜色和新颖的款式。 最后,通过AttnNet网络做一次attention得到用户短期兴趣向量s,用以获取用户更细粒度的个性化信息,公式如下: (3)长短期兴趣融合(上图中间部分) 论文中长短期兴趣的融合并非将两个向量直接拼接,而是借鉴LSTM/GRU中gate的概念,精心设计了一个门控神经网络,利用该网络自适应学习到的权重对两者做加权融合。 这个门控神经网络的输入是前面提到的3个d维向量:用户向量e,长期兴趣向量p,短期兴趣向量s。通过下面的第1个公式得到一个d维的 gate 向量G,该向量决定了长期兴趣和短期兴趣的贡献占比,再通过下面的第2个公式进一步得到最终的长短期兴趣融合向量o。 (2019年阿里,MIND召回)《Multi-Interest Network with Dynamic Routing for Recommendation at Tmall》 用户的兴趣往往具有多样性,只用一个embedding向量来表示用户的兴趣往往是不够的,除非这个embedding向量的长度足够大,具有很强的表征能力。除此之外,只有一个embedding会造成一定的头部效应,召回的结果往往是比较热门领域的item(头部问题),对于较为小众领域的item,召回能力不足。比如,某个用户可能同时对母婴、摄影、兼职感兴趣,这些不同的兴趣也能从用户时序item的构成上体现,比如行为序列中大部分是母婴类,一部分摄影类,少部分兼职类等,那么能否将这种不同类型的兴趣拆分,而不是都笼统地压缩到一个Embedding向量中,这样可以更准确地召回用户感兴趣的不同类型item. MIND 模型通过引入胶囊网络(capsule network)的思想提取用户不同方面兴趣点(多个embedding向量),具体结构如下图: 2.1 输入层 输入层包括三部分,other features(即年龄、性别等用户特征)、时序特征(即上图中的item1,item2,……,item N)、候选item(即上图中的label)。 2.2 Label-aware Attention 时序item和候选item经过embedding层后,做average pooling(din用的是concat),other features经过embedding后做concat,然后接2个全连接层,输出K和V,这里的K和V是一样的东西,都是指5个d维向量。 通过Label-aware Attention 结构对多个兴趣向量加权(这里所用的思想跟DIN类似,只不过计算权重的方式不一样),上图中的K和V都表示用户多兴趣向量,Q表示候选item的embedding表示,最终用户的embedding表示为一个d维向量: 其中,pow为element-wise 指数运算,p是一个不小于0的可调参数,用来调控attention权重的分布情况,p比较小时,对权重起到平滑作用,p比较大时,对权重起到区分性增强作用(类似图像锐化),上式中softmax(pow(*))是一个Kx1维向量,即归一化后的权重向量。用户的K个d维兴趣向量组成的矩阵表示如下,公式中的K表示用户的兴趣向量个数,在2.4节会具体讲到它的取值计算方法(如何包含other features的信息?猜测是每个用户兴趣向量跟other features做concat): 候选item的embedding表示向量为: 然后计算用户和item交互的概率,计算方法和前面的YouTube DNN相似,通过用户向量和候选item的embedding向量做内积,再过一遍softmax: 2.3 胶囊网络(capsule network) 胶囊网络论文链接:《Dynamic Routing Between Capsules》 CNN很难有效识别图中位置关系,例如图像中存在翻转、倾斜或其它方向性问题时,卷积神经网络的表现往往比较糟糕,针对这个缺陷,2017年Hinton等人提出胶囊网络,胶囊网络和传统的人工神经网络最根本的区别在于网络的单元结构,胶囊网络的单元结构为向量神经元,而普通的人工神经元为标量神经元,详情参考:看完这篇,别说你还不懂Hinton大神的胶囊网络 MIND 召回模型引入胶囊网络的思想,通俗理解,就是把用户行为序列投射到多个embedding向量上,可以理解成是一个类似聚类的过程,把不同的item,聚类到不同的兴趣类别。 单个胶囊的网络结构示例如下: 胶囊网络伪代码: 胶囊网络伪代码图解(参数更新过程): 2.4 胶囊网络个数的确定 不同用户的兴趣向量个数是不一样的,动态调整兴趣向量个数的方式有利于节省计算和存储资源,用户兴趣向量个数(即胶囊网络的个数)的确定所用的公式如下: 上式中,log的真数表示与用户历史交互过的item数目,即时序长度,公式中min层的参数K是用来控制兴趣向量个数的上限,例如K=50,当时序长度分别等于4,8,16,……,2^50时,兴趣向量个数分别等于2,3,4,……,50,当log的真数大于2^50时,兴趣向量个数恒等于50,公式中max层的1是用来控制兴趣向量个数的下限,即为了防止当时序长度等于1时,计算出的兴趣向量个数等于0,由此可见,基于用户时序item长度自适应计算输出向量个数的策略,对于那些与item交互行为较少的用户来说,可以减少这批用户的计算和存储资源。 2.5 线上serving 线上预测不需要用到label-aware attention layer,利用剩下的网络计算用户的多个兴趣向量后,每个embedding兴趣向量通过最近邻检索方法(如局部敏感哈希LSH)得到最相似的 Top-N 候选item集合,公式表示如下: (这里有个问题可以思考下,得到多个兴趣向量后通过权重将这些向量的 embedding 累加起来成为一个,然后去线上检索这一个 embedding 的 Top-N 相似,大家觉得这样操作可以吗?不可以的原因又是什么呢?) 补充:在召回阶段,把用户兴趣拆分成多个embedding向量具有直接价值和意义,前面提到召回阶段容易碰到“头部问题”,即把信息都压缩在一个embedding向量中,通过一个embedding向量拉回来的item,可能集中在头部优势领域中,造成弱势兴趣不太能体现出来。如果把用户兴趣进行拆分,则每个 embedding兴趣向量都可以各自拉回部分相关的item,在很大程度上缓解召回的头部问题。所以,这种兴趣拆分,在召回阶段还是很有必要的。 2.6 MIND与Youtube DNN的关系 跟Youtube DNN相比,Youtube DNN可以看成是MIND的特殊情况,MIND中的K=1时,将退化为Youtube DNN,而MIND可以看成是Youtube DNN的一般化。 2.7 MIND与DIN的关系 跟DIN相比,DIN的attention是在item层级上的应用,计算量大,比较适合做精排。而MIND是在interest层级上的应用,粒度比较粗,可简单看成是粗糙版DIN,MIND将用户向量表示特征的生成与user-item的匹配过程分开,适合做大规模items的召回。 2.8 为什么选择胶囊网络 论文中没有明确说明选择胶囊网络的原因,但作者在文中有提到一句话“capsule networks capable of encoding the relationship between the part and the whole”,即它可以学习到整体与部分间的关系,可能是因为这个才将胶囊网络应用于用户兴趣的拆分。胶囊网络之所以能学习到整体与局部的关系,也不难理解,时序中的所有item可以看成一个整体,从上面的框架图看,每个item跟每个胶囊都是关联的,而每个胶囊负责编码用户某一个方面的兴趣,每个胶囊所偏向的兴趣点跟胶囊内部权重分配的偏向有关系。 目前常用的拆分用户兴趣embedding的方法,主要是胶囊网络和Memory Network,但理论上,很多类似聚类的方法应该都是有效的(上面有提到过胶囊网络所做的事情就是个类似聚类的过程),所以可以将胶囊网络替换成其它能产生聚类效果的方法来做。 (2018年12月阿里)《Learning Tree-based Deep Model for Recommender Systems》(应用于淘宝展示广告平台) 向量化检索过程中,通常是学习得到用户和item两者的embedding向量,然后利用向量内积表示用户对item的偏好程度。这种内积模型的表达能力被证明是有限的,用户和item间更多的交互信息,都是无法被表征的,比如将内积模型中最后的内积运算直接换成MLP能进一步提升模型能力,而像DIN这种对用户兴趣更有洞察力的复杂模型效果被证明能极大的超越内积模型。基于此,阿里自主提出了一种更通用的召回算法框架,该方法具有较强的普适性,它允许容纳任意复杂模型而非限定内积形式,并且能够对全库候选集进行更好的召回。无论在公开数据集还是在阿里数据集上,TDM的召回率和新颖性对比前两代召回技术都有飞跃性的提高(前两代召回技术分别指传统召回和向量化召回,树召回被称为第三代召回技术)。TDM的整体框架图如下: 3.1 深度模型 这里所说的深度模型是指上面框架图中的左边部分,作者设计这个深度模型的想法来源于din那篇论文。模型的输入包括三部分:性别和年龄等用户特征(图中未标出)、时序特征、以及候选item特征(与树节点对应)。图中的Time window 1,Time window 2 … Time window N,表示把用户的时序特征按时间线拆分成了多个窗口(作者这样做的原因:To exploit user behavior that contains timestamp information),即通过划分不同session窗口考虑用户在不同时期的兴趣演变信息。每个窗口内的时序特征通过attention做加权和(attention方式同din),这样做的好处是可以使用户对候选item的感兴趣程度不仅仅是局限在内积形式上(原文:make user´s preferences over candidate items can not be regulated to inner product form)。N个时序窗口输出N个attention后的向量,跟候选item的embedding向量做concat后,进入全连接,最终输出一个概率值,表示用户对候选item的感兴趣程度。从整个过程可看出,user与item不再是简单地通过内积召回,而是加入attention和全连接,使user与item有了充分的交互。 值得注意的是,用户的embedding特征和候选item的embedding特征一起输入深度模型,这样能学习到用户和候选item之间更多的交互信息。这解决了当前的主流技术(即user和item的embedding向量之间做内积近邻召回)无法表征用户和候选item之间更多交互信息的问题,而且利用树结构搜索,所以不需要遍历所有item,使其有望成为下一代的主流技术。 3.2 层次兴趣树(刻画用户的兴趣分层信息) 层次兴趣树见上面框架图中的右下角部分(这里只是以二叉树为示例,实际并没有这种限制),每个叶子结点表示一个item,素材库里有多少个item,就有多少个叶子结点,非叶子结点为抽象结点(原文表述:non-leaf nodes are coarse-grained concepts),例如,倒数第二层结点可以是二级行业结点,倒数第三层结点可以是一级行业结点,结点越往上越抽象,所刻画的粒度越粗,具体含义也越模糊。 树中的每个节点对应一个embedding向量,将向量代入左边的深度模型中,可以得到一个概率值,因此树中的每个节点同时也对应着一个概率值,表示用户对节点的感兴趣程度,那么整棵树就刻画了用户的兴趣分层信息。 3.3 树的构建 利用item自带的类别信息构建初始树。先把类别一样的item放在一起,再将所有item排成一排,排定次序后,从中间劈开,把item分成两份,对每份item再从中间劈开分成两份,以此类推,这样类似二分法的办法,就能搭起一棵树,这就是树的初始化。 有了初始化树,树中的节点对应的初始embedding向量就可以接入深度学习模型进行训练,训练收敛后,我们就有了每个item对应的新embedding向量,然后做k-means聚类,聚成两类(适当调整使两个类别所包含的item数差不多),每个类再聚成两类,这样一层一层聚,就能重新搭起一棵树,这样搭起的树,节点间距离越近,对应的embedding向量之间的相似度也越高。在论文实验中,总共400万个item,单台机器上大概要花1个小时重新构建这么一棵聚类树。 3.4 模型的训练 正负样本的定义:正样本就是用户最终确实表示感兴趣并点击的item,在树里面就是从对应这个item的叶子节点开始,从下往上,所有的父节点都算是正样本。负样本就是,在树的每一层,都随机抽一个节点(只要不是正样本节点)作为负样本,示例见上面的模型大图,红色节点表示负样本,绿色节点表示正样本。 深度模型和树结构采用交替训练的方式:(1)Construct an initial tree and train the model till converging ;(2)Learn to get a new tree structure in basis of trained leaf nodes´ embeddings ;(3)Train the model again with the learnt new tree structure. 首先固定初始TDM树,训练深度模型得到新的节点向量;接着使用新的节点向量通过聚类重新构建一个TDM树;然后再固定TDM树重新训练深度模型,“初始树-模型训练-树重建-模型再训练”如此迭代优化,最终可以得到一个高性能且稳定的模型。 3.5 线上预测(如何从树中检索出top-N用户最感兴趣的item) 假设已经训练好的一个TDM模型,那么如何利用它获得召回候选集呢?采用自顶向下的方式逐层检索,举例说明,有一个用户,我们要召回两个item给它,从上图的level1出发,将level2中的每个节点对应的embedding向量分别代入左边的深度模型中,可以分别计算出一个概率值(相当于每个节点都有一个概率值来代表用户对它的感兴趣程度),概率值越大,则说明该用户越喜欢对应的节点代表的类别(如果是最下层的叶子节点,则是item),选出两个概率值最大的节点(上图中的红色结点2号和4号),从这两个节点出发,对它们的子节点(即level3),再次分别代入左边的深度模型中算出对应的概率值,再选出两个概率值最大的节点(上图中的红色结点6号和11号),如此重复往下,直到最后一层的叶子节点,依然可以按照相同的方法选出两个概率值最大的结点(假设是上图中的红色结点14号和20号),14号和20号item就是针对该用户要召回的最终top-2候选集。 之所以能这样检索,是因为模型在训练时,对树中第j层的每个非叶子节点作了如下的规定: 上式是一个概率值,表示用户u对树中第j层节点n感兴趣的程度,是用节点n的embedding向量拼接入深度模型后计算出来的。 分母表示第j层的归一化项,是为了使第j层所有节点的概率值加起来刚好等于1,分子表示用户对树中节点n的最感兴趣的子节点对应的概率值。 整个公式的物理意义很明显,即用户对树中某节点感兴趣的概率总是等于对其所有子节点中最感兴趣的那个最大概率除以归一化项,这使我们可以从父节点开始找到用户最感兴趣的叶子节点对应的item. 在实际召回候选集之前,可以事先对每个节点关联一个N个元素的最大堆(即该节点的子节点中概率值最大的N个节点),将所有非叶子节点的最大堆采用Key-Value的数据结构存储到redis中,在实际检索时,每个非叶子节点直接从redis中获取兴趣度最大的N个子节点。因此,整个搜索过程是非常高效的,通过树模型检索,可以大大减少检索时间,避免了从海量item库中全量检索的低效率情况,该模型很适合对海量item的候选集召回过程。 3.6 两个问题 问题1:这个方案并不简单,是否给效果带来足够大的提升? 在线效果(来源于论文): 问题2:这么一套复杂的方案,意味着要把排序阶段那么复杂的模型引入到召回阶段,工程能力是否足够去支持真正在线应用? 整个TDM在技术先进性和理论上面还有很多需要突破和优化的地方。 工程实践上,阿里对整体的架构做了抽象化的设计,把它拆分成三个环节: 首先,user targeting service(UTS),它能够负责对用户行为序列、用户特征的基础组织; 其次,deep searching service(DS),它用来做整个树的索引构建和检索的过程; 最后,考虑到在这个过程中要进行复杂的模型计算,构建了model serving service(MS)这样的服务来专门支持高效的GPU计算。 通过这三个环节,形成了高效的在线方案。通过跳层检索、多路并行等性能优化方案,在真实广告业务中,从千万量级广告库召回top2000,整体链路的请求时间增长不超过5%. 离线端依托于阿里开源的X-Deep Learning框架,能够支持千亿级样本,十亿级特征的离线训练。 (2018年5月阿里)《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》 该论文将graph embedding应用于淘宝首页推荐的召回,论文中提出三个模型:基本图embedding(BGE,Base Graph Embedding);基于辅助信息的图embedding(GES,Graph Embedding with Side Information);增强式的GES(EGES,Enhanced Graph Embedding with Side Information); 4.1 基本图embedding(BGE,Base Graph Embedding) 图(a)表示用户的行为序列,把用户在某个时间窗内的连续行为作为一个 session,通常在短周期内访问的item更具有相似性,用户U1有1个session,用户U2和U3都有2个session; 图(b)为根据用户的行为序列构造出来的有向带权图,graph中的每条边都有一个权重,这个权重指的是在所有用户交互行为中,两个item间转移的次数,如果越多的用户点击 item 1后又点击了item 2,则item 1 到 item 2 的边权重越大; 图(c)和图(d)为DeepWalk过程,图(c)表示在graph上随机游走(random walk)生成节点序列,把节点看成词,序列看成句子,图(d)表示用skip-gram(word2vec的一种)来实现graph中的每个节点的embedding,即通过节点序列来描述item与item的共现关系,进而学习到item的向量表示。 整个过程用一句话描述,其实就是通过 “构图 -> 获得序列 -> word2vec训练" 三部曲得到每个item的embedding 表示。 4.2 基于辅助信息的图embedding(GES,Graph Embedding with Side Information) 新item没有用户行为,因此无法根据BGE 训练出向量,为了解决item的冷启动问题,增加item的辅助信息(例如item的类别, 品牌, 商店,价格,标题,图片类型等信息)丰富item表达力度,相当于把item的属性都附带上了。辅助信息相似的item,在向量空间中也应该接近,GES的网络结构图如下所示: 在上图最下面的 Sparse Features 中, SI 0 表示item本身, SI 1 到SI n 分别item的n个辅助信息,item本身及n个辅助信息都对应一个稠密的embedding向量(即上图中倒数第2层的n+1个embedding向量),然后将n+1个向量做平均来表示这个item(公式如下),输出层是一个softmax分类器。 4.3 增强式的GES(EGES,Enhanced Graph Embedding with Side Information) EGES对item及其辅助信息施加不同的权重,即学习一个|V|×(n+1)型的权重矩阵,其中|V|表示item集合V的数量,n表示有n个辅助信息。将GES中的平均求和变成加权求和,计算公式如下,对权重取 e 的指数是为了保证所有权重大于0. 4.4 线上serving 我们最终的目标是学习输入层到隐层的权重矩阵,即所有item的embedding向量组成的矩阵。有了item的embedding后,就可以用双塔结构进行匹配召回候选集,user侧的embedding向量可以通过用户时序特征和其它用户特征输入DNN得到,item侧的embedding向量可以通过GES或EGES得到,最后通过内积,用ANN检索召回。 在工程上,由于用户行为的实时性,user侧向量需要进行实时计算,而item侧的embedding向量可以通过查表得到,以节省资源和计算时间。图embedding向量也可以直接在排序阶段做特征。 4.5 图召回的优势 优势1:从构建图的过程可看出,图中包含了协同信息,用户行为信息,以及内容属性等信息。我们常说的“item1协同item2”,本质上就是说很多用户在item1上发生行为后,大概率也会在item2上发生行为(如点击行为)。图召回把协同信息、用户行为信息、内容属性信息等各种异质信息在一个统一的框架里进行了融合,并统一表示为embedding向量形式,这是它独有的一个优势。 优势2:信息在图中的传播性,对于推荐的冷启动,以及用户行为数据稀疏的场景很合适。 4.6 其它 其它图模型,如GraphSAGE和PinSage,同样也是生成节点embedding后,再用于召回阶段,或直接把节点embedding向量看成蕴含图结构信息的特征给排序阶段用。 1、目前大部分互联网公司的搜索/推荐/广告系统的召回模块都是采用多路召回,是并发存在的,各路召回模型之间互不影响,最后将所有的召回结果做merge,这样做的原因是每个召回算法的建模出发点都是不一样的,各种召回策略各有利弊,可以相互弥补不足,各取所长,使最终的效果更好,正所谓三个臭皮匠,顶个诸葛亮。 2、实际的应用中基于什么样的模型做召回完全依赖于实际的应用场景,不依赖于业务的策略都是扯淡,例如,阿里淘系发表了很多基于 session 做召回或排序的文章,本质上还是 session 在购物场景中是一个很强烈的信息,但在知乎的实践中, session 在其中的区分度并不大。 3、树召回的复杂性和笨重感限制了其在工业界的广泛应用,无论是理论上还是工程上都还有待完善的空间,因此,树召回虽然自称是第3代召回算法,但并不意味着第2代基于向量的召回算法就过时了,就目前看,基于向量的召回仍然是主流,而且在树召回提出之后阿里近两年发表的好几篇论文都是基于向量的召回。至于图召回,网络上对它的评价是有前景的值得探索的一个研究方向。 参考资料: 1、SDM:https://www.sohu.com/a/340104070_99979179 2、SDM:https://zhuanlan.zhihu.com/p/99184565 3、Memory Networks:https://blog.csdn.net/u011274209/article/details/53384232 4、Memory Networks:https://zhuanlan.zhihu.com/p/32257642?edition=yidianzixun&utm_source=yidianzixun&yidian_docid=0HymGR2b 5、Memory Networks:https://blog.csdn.net/u014422406/article/details/70990767?utm_source=blogxgwz0 6、TDM && JDM 阅读笔记:https://zhuanlan.zhihu.com/p/81237608 7、阿里妈妈新一代联合训练框架——JTM模型详解:https://zhuanlan.zhihu.com/p/93424358 8、EGES论文:https://arxiv.org/abs/1803.02349 9、阿里EGES实现:https://zhuanlan.zhihu.com/p/110442164 10、阿里开源Euler:国内首个工业级图表征学习框架:https://zhuanlan.zhihu.com/p/55205636 11、图推荐算法在E&E问题上的应用:https://mp.weixin.qq.com/s/KSW47hbNLaHTw9Ib0wMO8g 12、Skip-Gram模型理解:https://www.jianshu.com/p/da235893e4a5 13、word2vector之skip-gram的例子及原理:https://zhuanlan.zhihu.com/p/29020179 14、推荐系统召回四模型之二:沉重的FFM模型:https://zhuanlan.zhihu.com/p/59528983 15、360展示广告召回系统的算法实践:https://www.seoxiehui.cn/article-166836-1.html 16、蘑菇街电商搜索广告召回匹配1:https://blog.csdn.net/weixin_30332705/article/details/97092954 17、蘑菇街电商搜索广告召回匹配2:https://www.cnblogs.com/Lee-yl/p/11175243.html 18、360广告召回模块:https://www.cnblogs.com/Lee-yl/p/11333535.html 19、个性化召回算法综述:https://blog.csdn.net/weixin_41640583/article/details/86935434 20、向量化召回在360信息流广告的实践:https://zhuanlan.zhihu.com/p/93060649 21、策略算法工程师之路-召回策略(搜索部分):https://zhuanlan.zhihu.com/p/97357462 22、电商搜索广告召回匹配:https://zhuanlan.zhihu.com/p/27850493 23、基于Elastic Search的搜索广告召回方案:https://zhuanlan.zhihu.com/p/28390635 24、电商搜索广告召回匹配:https://zhuanlan.zhihu.com/p/27850493 25、搜索广告算法中4个有趣的定律:https://blog.csdn.net/weixin_33852020/article/details/89690015 26、DeepMatch:https://github.com/shenweichen/DeepMatch 27、深入浅出理解神经网络召回模型的优势:https://mp.weixin.qq.com/s/tTB1zMgCGnzIzuSh1LadUw 28、阿里自主创新的下一代匹配&推荐技术:任意深度学习+树状全库检索:https://zhuanlan.zhihu.com/p/35030348 29、从清华到阿里,他只用6年时间,影响了数亿用户:https://www.toutiao.com/i6455111512888443406/?group_id=6455111512888443406&group_flags=0 30、胶囊网络—Capsule Network:https://www.jianshu.com/p/dc91fd1302c3 31、Hinton大神的胶囊网络:https://www.sohu.com/a/226611009_633698 32、推荐场景中召回模型的演化过程:https://mp.weixin.qq.com/s/Y4g2T6qMGzCcE67bINPiGA 33、推荐系统技术演进趋势:从召回到排序再到重排:https://mp.weixin.qq.com/s/tTB1zMgCGnzIzuSh1LadUw 34、YoutubeDNN实现过程总结:https://zhuanlan.zhihu.com/p/38638747 35、YoutubeDNN论文实现细节:https://zhuanlan.zhihu.com/p/42158565 36、YouTube深度学习推荐系统的十大工程问题:https://www.jianshu.com/p/bfe6f63b1a40 37、TDM算法介绍:https://blog.csdn.net/suspend2014/article/details/104433663 38、阿里基于兴趣树(TDM)的深度学习推荐算法解读:https://zhuanlan.zhihu.com/p/87453893 39、推荐系统技术演进之路:https://www.cnblogs.com/gczr/p/12564617.html 40、推荐系统技术演进趋势:召回->排序->重排:https://zhuanlan.zhihu.com/p/101416475 41、zz阿里妈妈深度树检索技术(TDM)及应用框架的探索实践:https://www.cnblogs.com/cx2016/p/11363282.html 42、阿里妈妈新突破:深度树匹配如何扛住千万级推荐系统压力:https://blog.csdn.net/cpongo3/article/details/89027848 43、SDM:用户长短期兴趣召回模型:https://zhuanlan.zhihu.com/p/99184565 44、阿里深度序列匹配模型SDM:如何刻画大型推荐系统的用户行为:https://www.sohu.com/a/340104070_99979179 45、SDM(Sequential Deep Matching Model)的复现之路:https://zhuanlan.zhihu.com/p/141411747 46、SDM: Sequential Deep Matching Model论文解读:https://zhuanlan.zhihu.com/p/139412123 47、YoutubeDNN论文:https://cseweb.ucsd.edu/classes/fa17/cse291-b/reading/p191-covington.pdf 48、阿里双塔论文:https://dl.acm.org/doi/pdf/10.1145/3298689.3346996?download=true 49、SDM论文:https://arxiv.org/pdf/1909.00385v2.pdf 50、TDM论文:https://arxiv.org/pdf/1801.02294.pdf 51、EGES论文:https://arxiv.org/abs/1803.02349 近日 国家市场监督管理总局发布了 新一批车辆召回信息 一起来看 广汽丰田汽车有限公司、丰田汽车(中国)投资有限公司、一汽丰田汽车有限公司、一汽丰田汽车(成都)有限公司长春丰越分公司召回部分国产及进口汽车 日前,广汽丰田汽车有限公司、丰田汽车(中国)投资有限公司、一汽丰田汽车有限公司、一汽丰田汽车(成都)有限公司长春丰越分公司【受一汽丰田汽车(成都)有限公司委托授权】根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向国家市场监督管理总局备案了召回计划,决定自2024年1月12日起召回以下车辆。 一、广汽丰田汽车有限公司 召回2021年3月31日至2023年9月20日期间生产的部分威兰达汽车,共计2490辆;2021年9月16日至2023年6月16日期间生产的部分汉兰达汽车,共计16辆。 二、丰田汽车(中国)投资有限公司 召回2017年6月7日至2022年11月16日期间生产的部分进口雷克萨斯LM、LS、LC、RX、NX、ES、UX汽车和部分进口丰田ALPHARD、VELLFIRE汽车,共计237辆。 三、一汽丰田汽车有限公司 召回2021年9月14日至2022年6月22日期间生产的部分皇冠陆放汽车,共计5辆。 四、一汽丰田汽车(成都)有限公司长春丰越分公司 召回2019年11月26日至2022年3月11日期间生产的部分RAV4荣放汽车、2021年11月5日生产的部分凌放汽车,共计3辆。 本次召回范围内车辆由于混合动力系统的后驱动电机或传动桥上未粘贴触电警告标签,增加了维修人员意外触电的风险,存在安全隐患。 广汽丰田汽车有限公司、丰田汽车(中国)投资有限公司、一汽丰田汽车有限公司、一汽丰田汽车(成都)有限公司长春丰越分公司将为召回范围内车辆的后驱动电机或传动桥免费粘贴触电警告标签,以消除安全隐患。 广汽丰田汽车有限公司、丰田汽车(中国)投资有限公司、一汽丰田汽车有限公司、一汽丰田汽车(成都)有限公司长春丰越分公司将通过挂号信等方式,通知有关用户此次召回事宜。广汽丰田汽车用户可致电广汽丰田顾客服务中心:800-830-8888(座机)、400-830-8888(手机),一汽丰田汽车用户可致电一汽丰田顾客服务中心:800-810-1210(座机)、400-810-1210(手机),雷克萨斯汽车用户可致电雷克萨斯顾客服务中心:800-810-2772(座机)、400-810-2772(手机),获取此次召回的相关信息。 梅赛德斯-奔驰(中国)汽车销售有限公司召回部分进口GLE SUV混动汽车 日前,梅赛德斯-奔驰(中国)汽车销售有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向国家市场监督管理总局备案了召回计划,自2023年12月29日起,召回生产日期在2019年9月17日至2023年9月28日期间的部分进口GLE SUV混动汽车,共计13433辆。 本次召回范围内车辆因车辆稳定行驶系统(ESP)控制单元软件开发过程中的偏差,辅助制动功能延迟介入,当车辆在潮湿天气等特定环境中以纯电模式行驶时,可能需要驾驶员施加更大的力进行制动,制动距离变长,存在安全隐患。 梅赛德斯-奔驰(中国)汽车销售有限公司将通过梅赛德斯-奔驰授权经销商,对召回范围内的车辆免费升级ESP控制单元软件,以消除安全隐患。 梅赛德斯-奔驰(中国)汽车销售有限公司授权经销商将通过挂号信等方式,通知有关用户召回事宜。用户可以通过座机或手机拨打服务热线:400-818-1188咨询(服务时间为周一至周日,全天24小时)。 斯巴鲁汽车(中国)有限公司扩大召回部分进口傲虎、森林人系列汽车 日前,斯巴鲁汽车(中国)有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向国家市场监督管理总局备案了召回计划。自2023年12月28日起,扩大召回2023年9月4日至2023年9月11日期间生产的部分进口傲虎、森林人系列汽车,共计45辆。本次召回活动是2023年11月24日发布的《斯巴鲁汽车(中国)有限公司召回部分进口CROSSTREK、傲虎、森林人系列汽车》召回活动的扩大召回。 本次召回范围内车辆因热处理不当,前驱动轴万向节外座圈表面可能出现龟裂、材料强度下降,导致在使用过程中出现万向节外座圈破损、动力传输不良、驱动力下降的问题,增加车辆发生碰撞的风险,存在安全隐患。 斯巴鲁汽车(中国)有限公司将免费为召回范围内的车辆检查左右两侧前驱动轴,对缺陷批次零部件,更换前驱动轴,以消除安全隐患。 斯巴鲁汽车(中国)有限公司将通过授权经销商以挂号信、电话、微信等方式通知相关用户,安排召回维修事宜。用户可拨打斯巴鲁汽车(中国)有限公司服务热线:400-818-4860,了解有关召回信息。 浙江极晟机动车有限公司召回部分哈雷戴维森X系列二轮摩托车 日前,浙江极晟机动车有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向国家市场监督管理总局备案了召回计划。自即日起,召回2022年7月14日至2023年4月19日生产的部分哈雷戴维森X系列摩托车,共计1098辆。 本次召回范围内的二轮摩托车,因油箱底部油位传感器密封垫最小密封过盈量偏小,油箱密封不严,可能导致汽油渗漏,存在起火风险。 浙江极晟机动车有限公司将免费为召回范围内的摩托车,更换油位传感器密封垫及油位传感器固定螺栓,以消除安全隐患。 浙江极晟机动车有限公司将以挂号信、电话、微信等形式,通知相关车主召回事宜。用户可拨打浙江极晟机动车有限公司联系电话:400-619-8600,以及当地授权经销商的电话,了解本次召回的详细信息。 原标题:《【提醒】最新召回!涉及多个知名品牌》 阅读原文 近日,国家药监局网站发布了八家医疗器械企业召回通告,其中涉及中国市场的只有三家企业,对于该三家企业的召回产品及批次均未在国内进口和销售,其他企业召回均不涉及中国地区 通过召回信息的查看,我们关注到对于不同的情形召回级别不同,有三级召回、二级召回等区分,在召回报告中还需明确产品名称、注册证或备案凭证、涉及地区和国家、涉及产品批次和数量、召回原因、纠正行动等内容。 接下来带大家来回顾下医疗器械召回的法规要求,对于国内医疗器械产品的召回主要执行《医疗器械召回管理办法》。 1.医疗器械召回的定义: 医疗器械召回,是指医疗器械生产企业按照规定的程序对其已上市销售的某一类别、型号或者批次的存在缺陷的医疗器械产品,采取警示、检查、修理、重新标签、修改并完善说明书、软件更新、替换、收回、销毁等方式进行处理的行为。 2.医疗器械召回情形: 医疗器械召回有 主动召回、责令召回两种情形。 3.医疗器械召回缺陷: 召回所称的存在缺陷的医疗器械产品包括: (一)正常使用情况下存在可能危及人体健康和生命安全的不合理风险的产品; (二)不符合强制性标准、经注册或者备案的产品技术要求的产品; (三)不符合医疗器械生产、经营质量管理有关规定导致可能存在不合理风险的产品; (四)其他需要召回的产品。 4.召回的严重程度划分: 根据医疗器械缺陷的严重程度,医疗器械召回分为: (一)一级召回:使用该医疗器械可能或者已经引起严重健康危害的; (二)二级召回:使用该医疗器械可能或者已经引起暂时的或者可逆的健康危害的; (三)三级召回:使用该医疗器械引起危害的可能性较小但仍需要召回的。 5. 召回时限的要求: 医疗器械生产企业作出医疗器械召回决定的,一级召回应当在1日内,二级召回应当在3日内,三级召回应当在7日内,通知到有关医疗器械经营企业、使用单位或者告知使用者。 声明:此文版权归原作者所有,文中图片均已获得版权方授权使用。若有来源错误或者侵犯您的合法权益,您可通过站内私信与我们取得联系,我们将及时进行处理。通过国家药监局召回信息了解国内召回法规要求的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于通过国家药监局召回信息了解国内召回法规要求、通过国家药监局召回信息了解国内召回法规要求的信息别忘了在本站进行查找喔。
未经允许不得转载! 作者:谁是谁的谁,转载或复制请以超链接形式并注明出处。
原文地址:http://www.zwdbk.com/post/13803.html发布于:2026-01-23



