推荐算法的“前世今生”

  • 时间:
  • 浏览:0
  • 来源:1分时时彩官网_1分时时彩正规平台_1分时时彩平台网址

声明:本文来自于微信公众号 刺猬公社(ID:ciweigongshe),授权站长之家转载发布。

算法收集是未来之物,它是信息过载时代智能收集的产物;算法收集或也终将成为过去之物,机会下一代技术的发展永远无需 突破当代人的想象,就像宋朝人无法想象移动互联网。

作者| 童淑婷  字节跳动平台责任研究中心研究员

算法收集、编辑收集、社交收集……在信息时代,我们我们我们我们我们我们 常常讨论信息收集什么的什么的问题 ,相关概念也成为大热名词。

但事实上,信息资源一个劲在人类的进化和发展中位于着重要位置。社交收集是最古老的收集辦法 ,编辑收集也比我们我们我们我们我们我们 想象得更早。

而我们我们我们我们我们我们 歌词 把算法收集置于人类社会信息收集的历史长河中,便能清楚地看了它的“前”与“后”——从你你你这个淬硬层 来看,新鲜的算法推荐,着实要是 新鲜。

亘古的信息收集什么的什么的问题

信息收集,是另另一一二个 多亘古什么的什么的问题 。

不妨从另另一一二个 多有趣的联想现在开始了:在人类文明早期,群居的祖先们依靠收集和狩猎生存。机会狩猎是另另一一二个 多非常危险的技术活,我们我们我们我们我们我们 前要交流狩猎作战的信息和经验,来提高成功率。

比如,猎物总出 时用哪几个信号召集同伴?从哪几个位置伏击猛兽效果更好?我们我们我们我们我们我们 通过手势和发声,把哪几个重要信息收集给同伴——这便是“社交收集”,人类社会最原始的信息收集辦法 。

“知”(甲骨文):

 甲骨文的“知”就表示谈论和传授行猎、作战的经验。

社交收集的意思是基于社交关系的直接和自然的收集。《人类简史》用“八卦”来描述你你你这个信息交流,指出八卦对人类进化的重要作用。

另三种自古有的是的信息收集形式,则是编辑收集。着实英文“edit”一词的总出 和报纸相关,可你你你这个收集形式早已有之。

在口传时代,由古希腊盲诗人荷马搜集、收集而成的“荷马史诗”(《伊利亚特》和《奥德赛》)要是 典型例子。汉语将“编辑”解释为“收集资料,收集成书”。去其形,取其义,你你你这个信息收集的根本型态是:信息经过收集后收集至接受者,有加工和把关的意涵。

无论社交收集,还是编辑收集,它们都机会历史悠久。要是 承载哪几个收集辦法 的具体媒介在不断更新和变化,也给哪几个收集辦法 带来了新的机会。

比如,互联网通过对社交关系的限制(地域、血缘等)突破,在三种程度上实现了跨区域的社交联结,也让社交收集的范围从家庭、线下社区,转向更广的兴趣群体。

进入互联网时代,科学家和工程师有的是努力避免信息过载环境下的收集什么的什么的问题 ,早期三种代表性的避免方案是分类目录和搜索引擎——前者,通过人工编辑把知名网站分门别类,让用户根据类别来查找网站,典型如雅虎、Hao123 等;后者,让用户通过搜索关键词找到所需信息,避免了分类目录的有限覆盖什么的什么的问题 ,典型如谷歌、百度等。

实际上,这三种避免方案的思路无需新鲜,很大程度上无需 分别对应图书馆的分类馆藏和百科全书的条目索引。

纵观整个历史长河,我们我们我们我们我们我们 不能自己发现:信息环境是变化的,避免方案是具体的,但信息收集的需求和辦法 却是相通的。它们有的是回答另另一一二个 多什么的什么的问题 ——怎么还可以有效地连接人和信息。

推荐算法:熟悉的新我们我们我们我们我们我们  

算法收集的总出 和普遍应用,原因人类现在开始了运用机器大规模地避免信息收集什么的什么的问题 ,人类社会信息收集的动力从人力转向了次要自动化——从“人找信息”,到“信息找人”。

站在人类社会信息收集的长河中看,算法收集着实是另另一一二个 多新鲜事物,但它的使命和根基却是熟悉的。从你你你这个切口去思考,不能自己回答为哪几个你你你这个时代诞生了推荐算法:

第一,新的信息环境和人类的信息需求动力,呼唤三种新的信息收集避免方案。

面对信息过载的环境和碎片化的信息消费场景,怎么还可以从极少量信息中找到每人及感兴趣的信息,是一件非常困难的事情。作为重要工具的搜索引擎,无需 次要满足我们我们我们我们我们我们 的需求,但最适用于需求明确的场景。机会用户无法准确描述每人及的信息搜索需求,甚至对每人及的需求有的是充分了解呢?

这原因,我们我们我们我们我们我们 前要另另一一二个 多无需 主动根据我们我们我们我们我们我们 的兴趣和需求来收集信息的方案。早在 1995 年出版的《数字化生存》(Being Digital)中,尼古拉·尼葛洛庞帝便提出“我的日报”(The Daily Me),认为在线新闻将使受众主动取舍每人及感兴趣的内容,预言未来信息的每人及化。

在当时,你你你这个设想机会被认为是“白日做梦”。机会个体之间自然有差异,而为了社会的总体时延,我们我们我们我们我们我们 一个劲尽机会寻找信息的“公约数”。

随着技术的发展,推荐系统的总出 给人类的信息收集带来了三种机会:我们我们我们我们我们我们 无需每次都提供明确的需求,要是 通过为不同个体的信息需求建模,从而主动推荐无需 满足我们我们我们我们我们我们 兴趣和需求的信息。

第二,信息技术的发展,为个性化推荐系统的总出 提供了物质条件。

一方面,移动互联网发展,每每人及都另另一一二个多 多终端,这使得信息的收集无需 低成本定位到不同的个体用户。

每人及面,AI技术的心智心智心智开花结果期期期期是什么是什么 和硬件资源的进化,为个性化推荐提供了技术实现路径:机器学习模型的应用,淬硬层 学习的快速发展等,提供了有力的算法工具;而大规模分布式机器学习框架的总出 、GPU对淬硬层 学习的加速能力得到普遍验证、专用淬硬层 学习芯片的总出 (TPU、寒武纪),又提供了另一层保障。

1994 年美国明尼苏达大学GroupLens研究组推出第另另一一二个 多自动化推荐系统 GroupLens(1),提出了将协同过滤作为推荐系统的重要技术,也是最早的自动化协同过滤推荐系统之一。

1998 年亚马逊(Amazon.com)上线了基于物品的协同过滤算法,将推荐系统推向服务千万级用户和避免百万级商品的规模,无需 产生质量良好的推荐。

4006 年 10 月,北美在线视频服务提供商 Netflix 现在开始了举办著名的Netflix Prize推荐系统比赛。参赛者如能将其推荐算法的预测准确度提升10%,可获得 400 万美元奖金。参赛的研究人员提出了若干推荐算法,大大提高推荐准确度,极大地推动了推荐系统的发展。

2016 年,YouTube发表论文(2),将淬硬层 神经网络应用推荐系统中,实现了从大规模可选的推荐内容中找到最有机会的推荐结果。

自第另另一一二个 多推荐系统诞生,至今已有二十多年。现在,算法推荐的思路和应用,机会深入到你你你这个你你你这个互联网应用中。

比如,内容收集平台的个性化阅读(今日头条、抖音等)、搜索引擎的结果排序(谷歌、百度等)、电商的个性化推荐(亚马逊、淘宝等)、音视频网站的内容推荐(如Netflix、YouTube等)、社交网站的(Facebook、微博、豆瓣等),等等。

根据第三方监测机构“易观”发布的《 2016 中国移动资讯信息收集市场研究专题报告》: 2016 年,在资讯信息收集市场上,算法推送的内容将超过400%。到今年,你你你这个比重想必更大。

如今,我们我们我们我们我们我们 探讨算法收集的价值,最常提到的是提高了信息收集的时延,它表现在:解放了次要人力,同時 突破了人力对信息收集造成的限制,实现长尾内容的有效收集,从而更高效地完成人和信息的匹配。

然而,还有一层意义较少他们触及:通过算法实现的个性化推荐,真正关注和理解个体。每另另一一二个 多个体都另另一一二个多 多意义不同的“终端”,而有的是永远将个体置于群体中去总体理解。也即尼葛洛庞帝所言的“在数字化生存的情况报告下,我要是 ‘我’,不再是人口统计学中的另另一一二个 多‘子集’。”——这也是“personal”(个性化)中“person”的意涵所在。

人性身旁,算法有更多机会 

算法为人智能地匹配信息,但它推荐的辦法 还是在于人。

即便推荐算法发展得更加心智心智心智开花结果期期期期是什么是什么 ,我们我们我们我们我们我们 在和算法的日常相处中,也难免会有你你你这个困惑:有时,希望算法再“聪明”、更理解每人及你你你这个;有时,无需想老关注每人及感兴趣的内容,也看了看公共热点;还有时,会猜想每人及除了哪几个需求之外,会无需有的是你你你这个的潜在兴趣?……

今天,对内容推荐的批评声音中,包括让视野窄化、信息低俗化、人的边缘化等——哪几个声音从根本上折射出人类永恒关注的什么的什么的问题 :信息的淬硬层 和淬硬层 ,以及人的主体性。面对哪几个追问,也许转而用三种整体的和发展的视角,更不不利于我们我们我们我们我们我们 去理解什么的什么的问题 。

首先,算法推荐是重要的,但它无需详细。人类有多种信息需求场景,不同的信息收集辦法 和工具在互相配合来满足用户的需求。哪几个收集辦法 的具体工具,或许在不同阶段此消彼长,但本质上并这麼详细取代对方。

举个简单的例子:假设另另一一二个 多初级电影爱好者想在周末看一部电影,会有几种机会?机会他今天看了库布里克的作品,他机会直接打开搜索框,搜索“库布里克”导演,看看他导演的作品还有哪几个每人及没看了;机会他每人及这麼特定的想法,便机会打开个性化推荐的APP,在熟悉每人及喜好的信息流中,刷一刷看有这麼感兴趣的电影;当然,机会他运气好,微信加了另另一一二个 多电影发烧友,无需 能直接请对方推荐几部。

从你你你这个例子中,无需 看了:搜索引擎满足了用户有明确目的时的主动查找需求;而推荐系统无需 在用户这麼明确目的的完后 ,帮助我们我们我们我们我们我们 发现感兴趣的新内容——从你你你这个意义上看,“推荐”和“搜索”实际上是满足我们我们我们我们我们我们 不同需求的另另一一二个 多互补的工具。

当个性化推荐应用发展很快的完后 ,我们我们我们我们我们我们 机会会不由自主地假设它位于每人及的详细信息场景;然而,在现实情况报告里,另另一一二个 多人在日常生活中接触信息的渠道,远比我们我们我们我们我们我们 想象得要更加丰沛 —— 2016 年Seth Flaxman等学者进行的一项实验,也证明了你你你这个结论(3)。

该研究请 5 万名参与者,自主报告每人及最近获取信息的新闻媒体来源,同時 通过电子手段直接监测和记录我们我们我们我们我们我们 的实际新闻消费行为,包括网页浏览历史等。两项数据的对比后,研究最终发现我们我们我们我们我们我们 实际的媒体消费比我们我们我们我们我们我们 所想象的更具有多样性。

再者,从根本上来说,算法是运用智能来避免信息收集什么的什么的问题 的思路,而非另另一一二个 多绝对的和定型的操作手段,它三种也在不断发展。算法与编辑、社交无需对立,将三者有机结合无需 帮助实现更有效的信息匹配。

《内容算法》一书中,作者把算法移觉为“是个筐,哪几个都能往装进 ”:算法是基于我们我们我们我们我们我们 对现实世界的理解进行的抽象和建模,所有我们我们我们我们我们我们 关心的因素(编辑收集、社交收集)都无需 转化为算法推荐的参考因素。

实际应用的推荐系统通常有的是使用多种推荐算法,来提高推荐系统的个性化、多样性、健壮性(即鲁棒性)。比如:运用基于内容的推荐算法,避免用户和内容的冷启动什么的什么的问题 ;在拥有了一定的用户行为数据后,根据业务场景的前要综合使用基于用户的协同过滤(UserCF)、基于物品的协同过滤(ItemCF)、矩阵分解或你你你这个推荐算法进行离线计算和模型训练,并综合考虑用户的社交网络数据、时间相关和地理数据等进行推荐。

与此同時 ,人工编辑也在关键的完后 发挥作用。比如在今日头条平台,由人工审核和机器算法同時 对内容进行把关。另另一一二个 多拥有良好推荐机制和规则的平台,无需 助力高质量内容的传播,从而不利于内容生态的发展。新技术环境中,专业内容生产和编辑团队的价值不仅无需褪色,有的是这麼重要。

最后,从我们我们我们我们我们我们 围绕算法收集的探讨中,无需 看了我们我们我们我们我们我们 面对信息时的两对永恒需求——每人及向和公共向、已知的和未知的。人类永远希望二者无需 达到动态的平衡,而你你你这个平衡点又往往因人而异。这给算法的发展和完善提供了动力,也带来了什么的什么的问题 。

对于个体来说,另另一一二个 多趋于理想态的信息生态,机会前要具备社会性、群体性、个体性,兼顾信息的淬硬层 和淬硬层 ——你你你这个什么的什么的问题 ,算法无需 避免,也正在尝试避免;但你你你这个什么的什么的问题 ,机会人类每人及也无法很好地解题,最终还是要不断回归到人性三种。信息收集技术发展和完善的身旁动力,还是在于人,在于人对信息收集理想模式的永恒追寻。在这过程中,人始终具有其独特的价值和能动性,坚守“技术为人”。

结尾

算法收集是未来之物,它是信息过载时代智能收集的产物;算法收集或也终将成为过去之物,机会下一代技术的发展永远无需 突破当代人的想象,就像宋朝人无法想象移动互联网。但无论怎么还可以,人类追寻信息的脚步是无需停止的,你你你这个追寻要是 信息收集长河奔流的动力。

追问了推荐算法的“前世”与“今生”,这麼在技术发展的未来,算法的“来世”会是怎么还可以?