搜索引擎之机器学习排序为什么出现较晚

发布时间: 2021-01-09
    利用机器学习技术来对搜索结果进行排序,这是近几年非常热门的研究领城。信息检索领城已经发展几十年,为何将机器学习技术和信息检索技术相互结合出现的较晚,主要要有两方面的原因。
    方面是因为,搜索基本检索模型可以看出,用来对查询和文档的相关性进行排序,所考虑的因素并不多,主要是利用词频、逆文档频率和文档长度这几个因子来人工报合排序公式。因为考虑因素不多,由人工进行公式拟合是完全可行的,此时机器学习并不能派上很大用场,因为机器学习更适合采用很多特征来进行公式拟合,此时若指望人工将几十种考虑因素拟合出排序公式是不太现实的,而机器学习做这种类型的工作则常合适。随着搜索引擎的发展,对于某个网页进行排序需要考虑的因素越来越多,比如网页的PageRank 值、查询和文档匹配的单词个数、网页URL链接地址长度等都对网页排名产生影响,Google 目前的网页排序公式考虑了200 多种因子,此时机器学习的作用即可发挥出来,这是原因之。


     另外个原因是: 对于有监督机器学习来说,首先需要大量的训练数据,在此基础上可能自动学习排序模型,单靠人工标注大量的训练数据不太现实。对于搜索引举来说,尽管无法靠人工来标注大量训练数据,但是用户点击记录是可以当做机器学习方法训练数据的替代品,比如用户发出个查询,搜索引攀返回搜索结果,用户会点击其中某个网页,可以假设用户点击的网页是和用户查询更加相关的页面。尽管这种假设很多时候并不成立,但是实际经验表明使用这种点击数据来训练机器学习系统是确实可行的。

本文由SEO优化整理,本文不代表本站观点,

本文地址:搜索引擎之机器学习排序为什么出现较晚:/news/opti/246.html

上一篇: 两大模式,教你做好产品体验分析

下一篇: 中兴财报:2018年q第三季度净利润5.64亿元 同比下降64.98%

Copyright © 2012-2021(tech.tipapple.com) 版权所有 Powered by 万站群

本站部份内容来源自网络,文字、素材、图片版权属于原作者,本站转载素材仅供大家欣赏和分享,切勿做为商业目的使用。

如果侵害了您的合法权益,请您及时与我们,我们会在第一时间删除相关内容!