游戏电视苹果数码历史美丽
投稿投诉
美丽时装
彩妆资讯
历史明星
乐活安卓
数码常识
驾车健康
苹果问答
网络发型
电视车载
室内电影
游戏科学
音乐整形

一文教你,如何构建推荐系统?

  推荐阅读:RedisNginx设计模式Spring全家桶Dubbo阿里P8技术精选文档一级棒!高并发微服务架构Dockerk8s再也不怕被问倒了!阿里架构师强推:JVM多线程KafkaRedisNginx等实战电子版书籍1。概述
  最近有被咨询到一些关于推荐系统的问题,今天笔者将为大家分享一些关于如何构建一个推荐系统。2。内容2。1什么是推荐系统?
  推荐系统是一种信息过滤系统,它旨在预测用户对某项商品的评价。然后,此预测的评分用于向用户推荐商品。预测评分较高的商品将推荐给用户,这个推荐系统用于推荐范围广泛的项目。比如,它可以用于推荐电影、产品、视频、视频、音乐、新闻、书籍、衣服、游戏、酒店、餐饮、路线等等。几乎所有的大公司都使用它来增强业务,丰富用户的体验,例如腾讯、优酷、爱奇艺这类推荐视频,淘宝、京东推荐商品,微信、QQ推荐好友等。2。2USERITEM矩阵
  在上图中的USERITEM矩阵中,每一行代表一个用户,每一列代表一个物品,每一个单元格代表一个用户对一个物品的评分。总共有N个用户和M和物品。这里Aij是用户Ui对物品Ij的评分,Aij级别范围这里定义为1到5。如果一个矩阵表示一个用户Ui是否观察了一个物品Ij,同样也可以使用二进制来表示,例如这里Aij要么是0,要么是1。
  USERITEM矩阵是非常稀疏的矩阵,这意味着此矩阵中的许多单元格都是空的。因为,单个用户无法对所有的物品进行评分。在现实情况中,一个用户给总物品数的评分不到1。因此,这个矩阵中大约99的单元都是空的。这些空单元格可以使用NaN表示,而不是数字。假如,N是100万,M是1万,那么NM1061041010就是一个非常大的数字。现在一个普通用户给5个物品打分,那么平均给出的评级总数将是5100万5106评级。矩阵稀疏度计算公式如下:矩阵稀疏度空单元数总单元数
  将案例中的值带入公式计算,矩阵稀疏度(10105106)10100。9995
  这意味着99。95的单元格都是空的,这实际上是极端稀疏的。而推荐系统的任务是,假设一个用户Ui喜欢物品I1、I5、I7。然后我们必须向用户Ui推荐一个他她最可能喜欢的Ij物品。2。3推荐系统类型
  下面我们通过一些例子来理解推荐系统的类型。2。3。1协同过滤
  假设有4个用户和4个物品如上图所示,4个用户都购买了物品1和物品2。用户1、用户2、用户3也购买了物品3,但是用户4还没有看到物品3。因此,物品3可以推荐给用户4,现在只有用户3购买了物品4,因此,我们不能向用户4推荐物品4,因为只有用户4购买了物品4,而其他用户没有购买物品4,这就是协作过滤的工作原理。注意:在这里,用户1、用户2、用户3,这三个用户过去都统一购买了物品3,因此在未来用户4可能会喜欢物品3,这是用户1、用户2、和用户3过去对物品3的统一喜好
  2。3。2内容过滤
  基于内容的过滤在方法上与经典的机器学习技术相似。它需要一种表示物品Ij和用户Ui的方法。在这里,我们需要收集关于物品Ij和用户Ui的信息,然后我们需要创建物品Ij和用户Ui的特性。最后,我们将这些特征结合起来,并将它们输入到机器学习模型中进行训练。这里Label是用户Ui对物品Ij给出的评分。
  一旦我们有了上面提到的关于物品和用户的信息,我们就可以创建一个物品向量,其中应该包含关于上面提到的物品信息。然后,我们可以类似的创建一个用户向量,该向量应该包含关于上述用户的信息,我们可以为每个用户Ui和物品Ij生成特性。最后结合这些特性,建立适合于机器学习模型的大数据集。注意:在这里,刚刚解释了一种创建基于内容的过滤特性的近似方法。这些功能应经过精心设计,以便在不相互依赖的情况下直接影响评分(标签)。最后尽可能创建独立的功能,同时它们应该非常依赖于评分(标签),这意味着它们应该直接影响评分(标签)。
  2。3。3相似过滤2。3。3。1用户相似
  上图是一个非常简单的基于用户相似的推荐。实现步骤如下:
  第一步:构建用户与用户之间的相似矩阵
  如上图,每一行代表一个用户,其中包含一个用户对所有物品给出的评分。例如,对应于用户Ui的行是大小为m的向量。因此,上述矩阵的每一行都是一个列向量(默认情况下,每个向量都是列向量),大小为m。现在,我们可以构造一个用户之间的相似矩阵,它将是一个大小为nn的平方对称矩阵,在这里,我们可以使用余弦相似度计算两个用户之间的相似度。
  在这里,两个用户将是相似的基础上,他们给出了相似的评分。如果任何两个用户是相似的,那么这意味着他们都对物品给出了非常相似的评分,因为这里的用户向量只不过是USERITEM矩阵的一行,而该行又包含了用户对物品给出的评分。因为余弦相似度可以从0到1,并且1表示最高相似度,所以所有对角线元素都将是1,因为用户与用户之间的相似度最高。这里Sim12是用户U1和用户U2的相似性得分。以此类推,Simij是用户Ui和用户Uj的相似性得分。
  第二步:找到相似用户
  第三步:选择相似用户喜欢的物品
  第四步:推荐物品2。3。3。2物品相似
  第一步:创建物品之间的相似矩阵
  在这里,两个物品将在所有用户对两个物品给出相似评分的基础上相似。如果任何两个物品是相似的,那么这意味着所有用户对它们都给出了非常相似的评分,因为这里的物品向量只是USERITEM矩阵的列,而USERITEM矩阵的列又包含用户对物品的评分。因为余弦相似度可以从0到1,并且1表示最高相似度,所以所有对角线元素都将是1,因为具有相同项的相似度最高。这里Sim12是用户I1和用户I2的相似性得分。以此类推,Simij是用户Ii和用户Ij的相似性得分。
  第二步:找出相似的物品然后推荐2。3。4矩阵分解
  关于矩阵分解是比较有意思的,这里我们可以来看看一个计算公式:
  这里以日常生活中的电影来作为例子。例如,每个用户看电影的时候都有偏好,这些偏好可以直观的理解成:喜剧、动作、爱情、动漫等。特性矩阵(用户)表示的就是用户对这些因素的喜欢程度。同样,每一部电影也可以用这些因素描述,因此物品矩阵表示的就是每一部电影这些因素的含量,也就是电影的类型。这样子两个矩阵相乘就会得到用户对这个电影的喜欢程度。3。总结
  推荐系统的类型,简要概述如下:协同过滤:简单来说,就是利用某兴趣相投,拥有功能经验的群体喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的评分,并记录下来以达到过滤的目的,进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的记录也是相当重要。内容过滤:通过在抓取每个物品的一系列特征来构建物品档案,以及用户购买的商品特征来构建基于内容的用户档案。用户档案和商品档案都以使用信息提取技术或信息过滤技术,提取的关键词集合来表示。鉴于两个档案都以权重向量的形式来表,则相似度分别则可以使用如余弦近似度方程等启发式方程来计算得到。其他的技术如分类模型,构建一个统计方法或者数据挖掘方法,来判断文档内容和用户是否相关。相似过滤:找到和目标用户兴趣相似的用户集合,以及找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户(基于用户相似)。计算物品之间的相似度,以及根据物品的相似度和用户的历史行为给用户生成推荐列表(基于物品相似)。矩阵分解:简单来说,就是每一个用户和每一个物品都会有自己的一些特性,用矩阵分解的方法可以从评分矩阵中分解出用户(如特性矩阵、物品矩阵)。这样做的好处其一是得到了用户的偏好和每一件物品的特性,其二是分解了矩阵的维度。4。结束语
  这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!

鸿海首款电动车ModelT下月交车续航超400公里2月14日消息,据中国台湾经济日报报道,鸿海首款电动车进入交车倒计时,第一家客户为中国台湾地区高雄客运采购的电动巴士ModelT,将于3月初正式交车,总量达30至50辆。……闭着眼睛可以选购的加湿器阿尔卡司T700体验评测存在即合理北方的冬春季节因室外环境寒冷干燥,加之冬季供暖室内空气会更干燥,而增加室内湿度的土法子就是放置一盆清水,通过水的蒸发来增加室内湿度,这种方法还算凑效,不过这种增……使用助听器可以使听力变得越来越好吗?佩戴助听器只是辅助你听到声音,保护你的剩余听力不再进一步变得更差,是不能让你的听力越来越好的。助听器只是个辅助听声音的产品,只是利用残余听力,提升聆听效果。戴上之后不会改……先导智能2018利润增长2亿智云股份则下滑3千万差别好大随着国家对新能源汽车补贴的逐步退坡,国内动力电池业洗牌加速,而动力电池制造设备企业似乎也变得动荡起来。我们通过几家动力电池设备制造企业的业绩报告来一探究竟。年报部分……2021年度区块链犯罪诈骗汇总报告随着区块链技术热度不断走高,虚拟货币作为其核心的新兴技术产物,逐渐成为了犯罪分子的新目标,导致行业混乱。被广泛用于非法集资、诈骗、洗钱、赌博、勒索等,在过去的一年中,基于区块链……7月高端手机份额小米600元档位冠军,6000以上只有苹果和市场调研机构Counterpoint发布2021年7月份国内智能手机市场情况报告,针对各品牌手机份额占比、价位段占比作出详细说明。小米品牌称霸百元机市场,苹果、华为、vivo占……这款人人称赞的相机软件,到底好用在哪在当今的智能互联网时代,硬件的升级和软件技术的不断更新使我们用手机就能拍出具有质感的大片,因此各种拍照和修图APP的竞争也逐步沦为红海,滤镜、美颜、贴纸这些都成了标配,人们似乎……来说说小米OPPOvivo的粉丝,能否用上鸿蒙Harmony抖音上一位名叫民教主PGC的一位博主说,他会安排一直研发团队给予鸿蒙的开源版本研发ROM包,计划首批适配小米,接下来适配OPPO、vivo,是不是很开心,想我小米、OPPO、v……顺丰造车?新公司注册新能源汽车业务此前,房地产、互联网、手机、家电等企业都相继表示造车后,快递企业宣布造车似乎也在情理之中。日前,顺丰已经注册成立了上海顺资嘉科技有限公司,这是由顺丰集团全资控股的一家全新……Elasticsearch8。1。3已发布Elasticsearch是一个基于Lucene库的搜索引擎。它提供了一个分布式、支持多租户的全文搜索引擎,具有HTTPWeb接口和无模式JSON文档。Elasticsearc……5G发展困难,贪婪的手机企业不愿降价,运营商无奈再开4G价格近日有媒体报道指运营商纷纷推出4G套餐,降低4G流量费和语音通话费用,在当下5G时代已在进行之时运营商重推4G套餐,或许是因为5G的发展面临困难所致。运营商公布的5G用户……御银股份,露笑科技,北方华创,中青宝,京城股份,陕西金叶加油旭光电子是智能电网概念龙头。京城股份是氢能源概念龙头一哥。楚江新材是第三代半导体碳化硅概念。新能源汽车电动化方向是很好的,这样有利于摆脱对石油的依赖,提升制造业的水平。旗天科技……
50元解决手机内存容量小的问题?笔记本硬盘NAS锁住回忆对于魔改君这种自媒体作者来说,每天最多的事自然就是大量的拍照,微信和QQ了。目前使用的手机是苹果的XSMAX64G,所以经常为了内存容量的问题而烦恼。今天随手……赵立新亮相北影节开幕式双语主持共赴年度光影邀约第八届北京国际电影节4月15日20:00于京举办开幕式,演员赵立新主持盛典,传奇大亨陆昱晟化身开幕式主持人,中英双语彰显才华,与全世界的电影人一起共赴年度光影邀约。主持人……苏童小说改编电影纸骑兵官宣女主角花落95后小花李凯馨星关系2月25日讯由著名作家苏童的两部短篇小说《纸》和《骑兵》改编而来的电影《纸骑兵》正在紧张筹备中,日前已官宣女主角由99后新晋电影小花李凯馨担纲。电影《纸骑兵》的制作团队也……陆川华谊再携手749局接续十四载光影情缘陆川华谊再携手《749局》接续十四载光影情缘6月15日,导演陆川亮相华谊电影之夜,宣布与老东家华谊兄弟合作新片《749局》。该片融科幻、灾难、爱情、动作等多种类型元素于一……iphone11promax和11pro区别一览iphone今年的iPhone11系列名字真是让人眼花缭乱,最长的iphone11promax也就是老大哥,也就是iPhonexsmax的延续款,相信很多都好奇iphone11promax……10月生猪价格跌至5元时代,年底会暴涨吗?10月6日,最新全国猪价出炉:黑龙江涨2毛,4。54。7元斤;河北稳定,4。85。1元斤;山东稳定,4。85元斤;安徽下跌,4。85元斤;云南稳定,4。54。7元斤;广东下跌,……疯狂的拳头热映力上加力巩金悦表现抢眼过去在许多人的印象中,只要提起肌肉男,想到的都是清一色的外国猛男形象,然而自从2020年电影《锤神》上映并获得一致好评后,很多人都会自然而然的将肌肉男三个字具象成几个名字王巍、……Axure原型全集434套【元件部分】5013:最全的Web设计Axure元件库5012:数据图表Axure元件库5011:移动端设计Axure元件库5010:IPad设计Axu……王巍受邀终结者发布会成肌肉电影第一人星关系11月1日讯近日,经典科幻动作电影《终结者》系列最新篇章《终结者:黑暗命运》举行发布会,导演蒂姆米勒、主演阿诺施瓦辛格、琳达汉密尔顿、麦肯兹戴维斯等主创集体亮相,发布会还……遇见你真好上海看片会,张海宇详解斑马吻,被赞超敬业由顾长卫执导的电影《遇见你真好》自上映以来,就因为对青春的独特见解而备受关注,而由张海宇饰演的男主角谢伦,更因为像极了每个女生上学时,坐在身后的调皮男生而被广大网友称为后座男生……电影遇见你真好热映中后座男生张海宇受好评顾长卫导演的青春怀旧喜剧电影《遇见你真好》正在热映中,张海宇所饰演的谢伦以一个幽默搞怪又不乏真情的体育生形象,给观众带来了不少欢乐,同时也唤起了网友对于学生时光里后座男生的集体……当谢伦遇见火峰今年春天的笑点和泪点都被张海宇承包了张海宇的首部电影作品《遇见你真好》正在火热上演中,而他的另外一部话剧作品《水面之下》也在天桥艺术中心小剧场迎来了第三场高潮。这位被导演顾长卫和徐小朋同时看中的演员,可谓承包了今……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网