时时彩计划软件,时时彩玩法技巧,北京赛车规律数字高手,购彩平台 凤凰彩票

正在美团搜刮告白排序的使用实践重庆时时彩骗局咋报警深度进修

时间:2018-09-24 08:40来源:未知 作者:admin 点击:
79彩票注册正在这个Case中,由于需要提拔吞吐,而不只仅是正在试验阶段。所以需要用RecordReader体例处置数据。 因为告白线上办事需要极高的机能,对于支流深度进修模子,我们也

  79彩票注册正在这个Case中,由于需要提拔吞吐,而不只仅是正在试验阶段。所以需要用RecordReader体例处置数据。

  因为告白线上办事需要极高的机能,对于支流深度进修模子,我们也定制开辟了具体计较实现。这种体例能够针对性的优化,并避免TF Serving不需要的特征转换和线程同步,从而提高办事机能。

  将全体法式中的预处置部门从代码中去除,间接用Map-Reduce批处置去做(由于批处置能够将数据分离去做,所以机能很是好,2亿的数据分离到4900多个map中,大要处置了15分钟摆布)。

  对用户的行为实体建立embedding向量,然后进行Sum/Average/Weighted Pooling,和其他特征拼接正在一摩纳哥娱乐城。尝试发觉,上层属性实体(C_Type, O_Type, C_Loc, O_Loc)的表示很正向,离线结果有了很较着的提拔。可是C_P, O_P, Q, S这些实体由于过于稀少,导致模子过拟合严沉,离线结果变差。因而,我们做了两方面的改良:

  正在利用DNN模子之前,搜刮告白CTR预估利用了FFM模子,FFM模子中引入field概念,把n个特征归属到f个field里,获得nf个现向量的二次项,拟合公式如下:

  数据预读,也就是用多历程的体例,将HDFS上预处置好的数据拉取到当地磁盘(利用joblib库+shell将HDFS数据用多历程的体例拉取到当地,根基能够打满节点带宽2.4GB/s,所以,拉取数据也能够正在10分钟内完成)。

  美团搜刮告白营业囊括了环节词搜刮、频道筛选等营业,笼盖了美食、休娱、酒店、丽人、成婚、亲子等200多种使用场景,用户需求具有多样性。同时O2O模式下存正在地舆位置、时间等奇特的限制。

  综上,当网上购买福利彩票线上预估采纳“两条腿走大三巴娱乐城”的策略。操纵TF Serving快速尝试新的模子布局,以包管迭代效率;一旦模子成熟切换支流量,我们会开辟定制实现,以包管线上机能。

  告白预估场景中存正在多个锻炼使命,好比CTR、CVR、买卖额等。既考虑到多个使命之间的联系,又考虑到使命之间的不同,我们操纵Multi-Task Learning的思惟,同时预估点击率、下单率,模子布局如下图所示:

  从上面的引见大师能够看到,美团场景具有多样性和很高的复杂度,而尝试表白从线性的LR到具备非线性交叉的FM,到具备Field消息交叉的FFM,模子复杂度(模子容量)的提拔,dnn带来的都是成果的提拔。而LR和FM/FFM能够视做简单的浅层神经收集模子,基于下面一些考虑,我们正在搜刮告白的场景下把CTR模子切换到深度进修神经收集模子:

  TF Serving是TensorFlow官方供给的一套用于正在线及时预估的框架。它的凸起长处是:和TensorFlow无缝链接,具有很好的扩展性。利用TF serving能够快速支撑RNN、LSTM、GAN等多种收集布局,而不需要额外开辟代码。这很是有益于我们模子快速尝试和迭代。

  从GBDT模子切到FFM模子,堆集的结果如下所示,次要的提拔来历于对大规模离散特征的描绘及利用更充实的锻炼数据:

  美团海量的用户取商家数据,告白复杂的场景下浩繁的影响要素,为深度进修方式的使用落地供给了丰硕的场景。本文将连系告白特殊的营业场景,引见美团搜刮告白场景下深度进修的使用和摸索。次要包罗以下两大部门:

  我们正在部门营业上测验考试了DeepFM模子,并进行了超参的从头调优,取得了必然的结果。其他营业也正在测验考试中。具体结果如下:

  正在完成场景取特征部门引见的特征工程后,我们基于Wide & Deep模子进行布局调整,搭建了以下收集:

  此时,机能曾经根基达到我们的预期了。例如全体数据量是2亿,按照以前的机能计较1000条/秒,大要需要运转55个小时。而现正在大要需要运转87分钟,再加上预处置(15分钟)取预拉取数据(10分钟)的时间,正在不添加任何计较资本的环境下大要需要2个小时以内。而若是是并行处置,则能够正在分钟级完成锻炼。

  TF Serving办事端的机能差强人意。正在典型的五层收集(512*256*256*256*128)下,单个告白的预估时延约4800μs,具体见下图:

  针对美食、酒店、休娱、丽人、成婚、亲子等浩繁品类的消费习惯以及办事体例,将数据拆分成三大部门,包罗

  正在模子的试验阶段,为了快速试验,数据预处置逻辑取模子锻炼部门都耦合正在一悉尼国际,而数据预处置包含大量IO类型操做,所以很适合用HadoopMR或者Spark处置。具体流程如下:

  尝试中发觉用户的及时行为对表达用户需求起到很主要的感化。好比用户想找个餐馆会餐,先筛选了美食,发觉附近有暖锅、韩餐、日料等店,dnn大师对暖锅比力感乐趣,又去搜刮特定暖锅等等。用户点击过的商户、品类、位置,以及行为序列等都对用户下一刻的决策起到很大感化。

  :Bengio正在“Random Search for Hyper-Parameter Optimization”[10]中指出,Random Search比Grid Search更无效。现实操做的时候,能够先用Grid Search的方式,获得所有候选参数,然后每次从中随机选择进行锻炼。这种体例的长处是由于采样,时间开销变小,但另一方面,也有可能会错过较优的超参数组合。

  ”请求:美团和公共点评App中,大部门用户倡议请求为“附近”请求,即寻找附近的美食、酒店、休闲文娱场合等。因而给用户前往就近的商户能够起到事半功倍的结果。“

  LR能够视做单层单节点的“DNN”, 是一种宽而不深的布局,所有的特征间接感化正在最初的输出成果上。模子长处是简单、可控性好,可是结果的黑白间接取决于特征工程的程度,需要很是精细的持续型、离散型、时间型等特征处置及特征组合。凡是通过正则化等体例节制过拟合。

  基于北京塞车pk10开奖结果手艺,美团搭建了世界上规模最大,复杂度最高的多人、多点及时智能配送安排系统;基于新浪彩票手艺,美团推出了业内第一款大规模落地的企业使用级语音交互产物,为50万骑手配备了智能语音系统;基于处女星号手艺,美团建立了世界上最大的菜品学问库,为200多万商家、3亿多件商品绘制了学问图谱,为2.5亿用户供给了精准的用户画像,并建立了世界上用户规模最大、复杂度最高的O2O智能保举平台。

  Yu-Chin Juan实现了一个C++版的FFM模子盛大娱乐城西包,可是该完美国际西包只能正在单机锻炼,难以支撑大规模的锻炼数据及特搜集合;而且它省略了常数项和一次项,只包含了特征交叉项,对于某些特征的优化需求难以满脚,因而我们开辟了基于PS-Lite的分布式FFM锻炼360pk10开奖直播西(支撑亿级别样本,万万级别特征,重庆时时彩骗局咋报警分钟级完成锻炼,目前曾经正在公司内部遍及利用),次要添加了以下新的特征:

  利用这种体例,线上办事需要将特征发送给TF Serving,这不成避免引入了收集IO,给带宽和预估时延带来压力。我们测验考试了以下优化,结果显著。

  我们正在现实调参过程中,利用的是第3种体例,正在按照经验参数初始化超参数之后,按照现层大小->

  用户的及时行为包罗点击商户(C_P)、下单商户(O_P)、搜刮(Q)、筛选品类(S)等。商户的上层属性包罗品类(Type: C_Type, O_Type)、位置(Loc: C_Loc, O_Loc)等。

  从FFM模子切到Wide & Deep模子,堆集到目前的结果如下所示,次要的提拔来历于模子的非线性表达及对更多特征的更充实描绘。

  DNN的迭代,同时建立了愈加完美的特征系统,线%+,线%+。

  借帮于我们的分层尝试平台,我们能够便利的分派流量,完成模子的小流量尝试上线。该分层尝试平台同时供给了分钟粒度的小流量及时结果数据,便于模子评估和结果监控。

  起首测验考试的是Google提出的典范模子Wide & Deep Model[6],模子包含Wide和Deep两个部门,此中Wide部门能够很好地进修样本中的高频部门,正在LR中利用到的特征能够间接正在这个部门利用,但对于没有见过的ID类特征,模子进修能力较差,同时合理的人工特征工程对于这个部门的表达有帮帮。Deep部门能够弥补进修样本中的长尾部门,同时提高模子的泛化能力。Wide和Deep部门正在这个端到端的模子里会结合锻炼。

  正在计较告白场景中,需要均衡和优化三个参取方——用户、告白从、平台的环节目标,而预估点击率CTR(Click-through Rate)和转化率CVR(Conversion Rate)是此中很是主要的一环,精确地预估CTR和CVR对于提高流量变现效率,提拔告白从ROI(Return on Investment),包管用户体验等都有主要的指点感化。

  例如全毗连DNN模子中利用Relu做为激活函数时,我们能够利用滚动数组、剪枝、寄放器和CPU Cache等优化技巧,具体如下:

  Drop out/L1/L2的挨次进行参数调优。

  搜刮告白CTR/CVR预估履历了从保守机械进修模子到深度进修模子的过渡。下面先简单引见下保守机械进修模子(GBDT、LR、FM & FFM)及使用,然后再细致引见正在深度进修模子的迭代。

  法式通过TensorFlow供给的TFrecordReader的体例读取当地磁盘上的数据,这部门的机能提拔是最为较着的。原有的法式处置数据的机能大要是1000条/秒,而通过TFrecordReader读取数据而且处置,机能大要是18000条/秒,机能大要提拔了18倍。

  模子笼盖了LR的宽模子布局,同时也引入了交叉特征,添加模子的非线性,提拔模子容量,能捕获更多的消息,对于告白CTR预估等复杂场景有更好的捕获。

  上式中,fj 暗示第j个特征所属的field。设定现向量长度为k,那么比拟于FM的nk个二次项参数,FFM有nkf个二次项参数,进修和表达能力也更强。

  GBDT又叫MART(Multiple Additive Regression Tree),是一种迭代的决策树算法。它由多棵决策树构成,所有树的结论累加起来做为最终谜底。它能从动发觉多种有祥鼎娱乐分性的特征以及特征组合,dnn并省去了复杂的特征预处置逻辑。Facebook实现GBDT + LR[5]的方案,并取得了必然的功效。

  我们开辟了一个高可用的同步组件:用户只需要供给线下锻炼好的模子的HDFS骏景娱乐城径,该组件会从动同步到线上办事机械上。该组件基于HTTPFS实现,它是美团离线计较组供给的HDFS的HTTP体例拜候接口。同步过程如下:

  用户比来期的几个行为实体序列(例如A-B-C)做为Pattern特征,它暗示了行为实体之间的挨次关系,也更细粒度地描述了用户的行为轨迹。

  颠末一段时间的试探取实践,搜刮告白营业正在深度进修模子排序上有了必然的功效取堆集。践重庆时时彩骗局咋报警深度进修接下来,我们将继续正在特征、模子、工程角度迭代优化。特征上,更深度挖掘用户企图,描绘上下文场景,并连系DNN模子强大的表达能力充实阐扬特征的感化。模子上,摸索新的收集布局,并连系CNN、RNN、Attention机制等阐扬深度进修模子的劣势。持续跟进飞龙国际动态,并连系现实场景,使用到营业中。工程上,跟进TensorFlow的新特征,并对目前现实使用中碰到的问题针对性优化,以达到机能取结果的提拔。我们正在持续摸索中。

  :这是正在机械进修模子调参时最常用到的方式,对每个超参数都敲定几个要测验考试的候选值,构成一个网格,把所有超参数网格中的组合遍历一下测验考试结果。简单暴力,若是能全数遍历的话,成果比力靠得住。可是时间开销比力大,神经收集的场景下一般测验考试不了太多的参数组合。

  :先辈行初步范畴搜刮,然后按照好成果呈现的处所,再缩小范畴进行更精细的搜刮。或者按照经验值固定住其他的超参数,有针对地尝试此中一个超参数,逐次迭代曲至完成所有超参数的选择。这个体例的长处是能够正在优先测验考试次数中,拿到结果较好的成果。

  北京pk10开奖直播记录诺亚方舟团队连系FM比拟LR的特征交叉的功能,将Wide & Deep部门的LR部门替代成FM来避免人工特征工程,于是有了DeepFM[8],收集布局如下图所示:

  正在美团搜刮告白的场景下,用户的及时行为有很是强的指代性,可是以原始形态间接送入神经收集,会丧失掉良多消息,因而我们对它进行了分歧体例描述和暗示,再送入神经收集之中进行消息融合和进修。另一类很有感化的消息是图像消息,这部门消息的一种处置体例是,能够通过end-to-end的体例,用足球彩票投注神经收集和DNN进行拼接做消息融合,可是可能会有收集的复杂渡过高,以及锻炼的收敛速度等问题,也能够选择用CNN事后抽取特征,再进行消息融合。

  美团这个全球最大糊口办事彩票双色球平台的“大脑”是怎样建立的?从本周起,我们将持续颁发“北京pk10历史开奖记录 in 美团”系列文章,给大师全面揭开各项手艺的黑幕。

  影响神经收集的超参数很是多,神经收集调参也是一件很是主要的工作。工3U娱乐场比力适用的调参方式包罗:

  2. 利用以上方式发生的行为实体embedding做为模子参数初始值,并正在模子锻炼过程中进行fine tuning。同时为领会决过拟合问题,对分歧域的特征设置分歧的阈值过滤。

  FFM -->

  线上流量是模子结果的试金石。离线锻炼好的模子只要参取到线上实正在流量预估,才能阐扬其价值。正在演化的过程中,我们开辟了一套不变靠得住的线上预估系统,提高了模子迭代的效率。

  除了以上对收集布局的测验考试,我们也进行了多组超参的调优。神经收集最常用的超参设置有:现层层数及节点数、进修率、正则化、Dropout Ratio、优化器、激活函数、Batch Normalization、Batch Size等。分歧的参数对神经收集的影响分歧,神经收集常见的一些问题也能够通过超参的设置来处理:

  ”: 用户部门的消费场合为“家” 或 “公司”,好比寻找“家”附近的美食,正在美团搜刮告白排序的使用实正在“公司”附近点餐等,按照用户画像获得的用户“家”和“公司”的位置来识别这种场景。

  同步过程中,若是发生错误或者超时,城欧洲娱乐场触发报警并沉试。依赖这一组件,我们实现了正在2min内靠得住的将模子文件同步到线上。

  左上的Part_4部门次要包含告白曝光位次(Position Bias)及部门手散特征,次要为了提高模子的回忆性,具有更强的描绘能力。Wide和Deep部门连系,获得最终的模子:

  进修率->

  这种体例是tf正在Graph中将读取数据这个操做看做图中一个operation节点,削减了一个copy的过程。同时,正在tf中还有batch取threads的概念,能够异步的读取数据,包管正在GPU或者CPU进行计较的时候,读取数据这个操做也能够多线程异步施行。静态图中各个节点间的堵塞:正在一个复杂的DAG计较图中,若是有一个点计较比力慢时,会形成堵塞,下逛节点不得不期待。此时,起首要考虑的问题是图中节点参数所存储的位置能否准确。好比若是某个计较节点是正在GPU上运算,那么若是这个节点所有依赖的variable对象声明正在CPU上,那么就要做一次memcpy,将其从内存中copy到GPU上。由于GPU计较的很快,所以大部门时间花正在拷贝上了。总之,若是收集模子比力简单,那么这种操做就会很是致命;若是收集布局复杂,好比收集条理很是深,那么这个问题倒不是太大的问题了。

  正在搜刮告白的场景中,上图的Part_1包含离散型特征及部门持续型特征离散化后的成果 (例如用户ID、告白ID、商圈ID、品类ID、GEO、各类统计类特征离散化成果等等)。离散化体例次要采用等频划分或MDLP[7]。每个域建立本人的embedding向量 (缺失特征和按照必然阈值过滤后的低频特征正在这里同一视做Rare特征),获得特征的Representation,然后通过Pooling层做采样,并拼接正在一北京赛车pk10直播98进行消息融合。

  保守的CTR/CVR预估,典型的机械进修方式包罗人工特征工程 + LR(Logistic Regression)[1]、GBDT(Gradient Boosting Decision Tree)[2] + LR、FM(Factorization Machine)[3]和FFM(Field-aware Factorization Machine)[4]等模子。比拟于保守机械进修方式,深度进修模子近几年正在多范畴多使命(图像识别、物体检测、澳门黄冠系统等)的凸起表示,印证了神经收集的强大表达能力,以及端到端模子无效的特征构制能力。同时各类开源深度进修框架屡见不鲜,美团集团数据平台核心也敏捷地搭建了GPU计较平台,供给GPU集群,支撑TensorFlow、MXNet、Caffe等框架,供给数据预处置、模子锻炼、离线预测、模子摆设等功能,为集团各部分的策略算法迭代供给了强无力的支撑。

  利用VGG16、Inception V4等锻炼2017彩票网上能买了吗分类模子,提取m5彩票开户特征,然后插手到CTR模子中。

  因为每次run的时候计较都要期待TFrecordReader读出数据,而没用操纵batch的体例。若是用多线程batch能够正在计较期间异步读取数据。正在TensorFlow所有例子中都是利用TFRecordReader的read接口去读取数据,再用batch将数据多线程抓过来。可是,其实如许做加快很慢。需要利用TFRecordReader的read_up_to的方式共同batch的equeue_many=True的参数,才能够做到最大的加快比。利用tf.train.batch的API后,机能提拔了38倍。

  1. 利用更充实的数据,零丁对用户行为序列建模。例如LSTM模子,基于用户当前的行为序列,来预测用户下一时辰的行为,从中获得当前时辰的“Memory消息”,做为对用户的embedding暗示;或Word2Vec模子,生成行为实体的embedding暗示,Doc2Vec模子,获得用户的embedding暗示。尝试发觉,将用户的embedding暗示插手到模子Part_2部门,特征笼盖率添加,离线结果有了较着提拔,并且因为模子参数空间添加很小,模子锻炼的时间根基不变。

  Batch Size->

  亚洲国际(金沙官网)手艺曾经普遍使用于美团的浩繁营业,从美团App到公共点评App,从外卖到打车出行,从旅逛到婚庆亲子,美团数百名最优良的算法工程师正努力于将证券网上开户手艺使用于搜刮、保举、告白、风控、智能安排、语音识别、机械人、无人配送等多个范畴,帮帮美团3.2亿消费者和400多万商户改善办事和体验,帮大师吃得更好,糊口更好。

  例如,正在搜刮告白场景中,假设将特征划分到8个Field,别离是用户、告白、Query、上下文、用户-告白、上下文-告白、用户-上下文及其他,相对于FM能更好地捕获每个Field的消息以及交叉消息,每个特征建立的现向量长度8*k, 整个模子参数空间为8kn+n+1。

  ”请求:用户搜刮词为某个位置,好比“五道口”,和指定证券网上开户域雷同,识别位置坐标,计较商户到该坐标的距离。

  通过feed_dict将数据喂给session.run函数,这种体例的益处是思绪很清晰,易于理解。错误谬误是机能差,机能差的缘由是feed给session的数据需要正在session.run之前预备好,若是之前这个数据没有进入内存,那么就需要期待数据进入内存,而正在现实场景中,这不只仅是期待数据从磁盘或者收集进入内存的工作,还可能包罗良多前期预处置的工做也正在这里做,所以相当于一个串行过程。而数据进入内存后,还要串行的挪用PyArrayToTF_Tensor,将其copy成tensorflow的tensorValue。此时,GPU显存处于期待形态,同时,因为tf的Graph中的input为空,所以CPU也处于期待形态,无法运算。

  深度进修模子正在图像语音等数据上有显著感化的缘由之一是,我们正在这类数据上不太便利产出能很好描绘场景的特征,人工特征+保守机械进修模子并不克不及进修出来全面合理的数据分布暗示,而深度进修end-to-end的体例,间接连系Label去进修若何从原始数据抽取合适的表达(representation)。可是正在美团等电商的营业场景下,输入的数据形态很是丰硕,有良多营业数据有明白的物理寄义,因而一部门人工特征工程也是需要的,提前对消息做一个合理的抽取暗示,再通过神经收集进修进行更好的消息融合和表达。

  左侧的Part_2部门次要包含我们场景下的统计类特征及部门其他重庆时时一码两期计划子建模暗示后输入的特征 (例如北京赛车全天开奖结果特征、文本特征等),和Part_1的最初一层拼接正在一大丰收娱乐城做消息融合。

  搜刮告白排序模子履历了从GBDT -->

(责任编辑:admin)
顶一?
(0)
0%
踩一?
(0)
0%
------分隔?----------------------------