纠纷奇闻作文社交美文家庭
聚热点
家庭城市
爱好生活
创业男女
能力餐饮
美文职业
心理周易
母婴奇趣
两性技能
社交传统
新闻范文
工作个人
思考社会
作文职场
家居中考
兴趣安全
解密魅力
奇闻笑话
写作笔记
阅读企业
饮食时事
纠纷案例
初中历史
说说童话
乐趣治疗

在大数据面前,每个人都是赤裸的

7月11日 霸鲸观投稿
  我的女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,这是在鼓励她怀孕吗?
  一个男子冲进一家商店,要求经理出来见他,并怒不可遏地说出了上述这句话。
  几天后,经理打电话向这个男人致歉时,他的语气却变得平和了起来:我跟我女儿谈过了,她的预产期是8月份。是我完全没有意识到这个事情的发生,说抱歉的人应该是我。
  《大数据时代》
  上面这段内容讲的是美国一家零售商通过分析大量女性的消费记录,根据购物的内容变化来推测怀孕的月份乃至预产期,据此来精准投放购物广告。
  结果表明,拥有大量数据的机器比粗心的父亲更早知道女儿的身体状况。这无疑是让人汗颜的。
  这个例子仅仅只是大数据应用的一个缩影。事实上,在这个大数据时代,万事万物产生的海量数据之中蕴藏着丰富的信息,把握好了就是无数的商机。
  什么是大数据?
  从字面的意思来看,大数据就是大量的数据。业界一般认为数据量达到普通的设备存不下,算不动的程度,就可以称之为大数据了。
  大数据又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。
  维基百科
  大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
  百度百科
  大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。
  MBA智库
  从上面的几种定义可以看出,首先,数据量要大到常规方式无法处理的程度;再者,大数据作为信息资产,需要通过处理从中获取价值信息。
  大数据到底有多大?
  普通个人电脑所能存储的数据,一般是几百个GB到几个TB的级别。
  例如,常见的固态硬盘,512GB就已经比较大了;常见的机械硬盘,可达1TB2TB4TB的容量。
  表达数据容量的KB,MB,GB和TB之间的关系,大家应该都很熟悉了:
  KB(KiloByte)千字节,也就是1024B
  MB(MegaByte)兆字节,也就是1024KB
  GB(GigaByte)吉字节,也就是1024MB
  TB(TeraByte)太字节,也就是1024GB
  而大数据是什么级别呢?PBEB级别。其实就是在TB的基础上每一级接着乘以1024。
  PB(PetaByte)皮字节,也就是1024TB
  EB(ExaByte)艾字节,也就是1024PB
  ZB(ZettaByte)泽字节,也就是1024EB
  YB(YottaByte)尧字节,也就是1024ZB
  上述的这些大的单位在日常生活中几乎接触不到,而且常人也已经无法直观地感受到这些单位能大到什么让人吃惊的程度。下面我们举个简单的例子来说明。
  一本《红楼梦》:纯文本(未压缩),约2MB
  一张1200万像素的照片(未压缩):约34MB
  一部90分钟的电影(H。264编码):约2。5GB(也就是2500MB)
  这样算下来,一块1TB的硬盘大约可以存储50万本电子书,3万张图片,400部电影。假定三天时间看完一本书,这50万本就需要4000多年才能看完。
  1PB的容量大约可存储5亿本书,3千万张图片,或40万部90分钟的电影。看书的时间过于夸张就不说了,这些电影也需要持续近140年时间才能看完。
  1EB这个单位的庞大已经超乎了人们的想象,仅仅存放这些数据需要大约2000个机柜的存储设备。
  如果并排放这些机柜,可以连绵1。2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。
  真的有企业会产生如此海量的数据吗?
  事实上,阿里、百度、腾讯这样的互联网巨头,因为其拥有数亿的用户,这些海量用户产生的数据量早已超越PB级,接近EB级。
  大数据是怎样产生的?
  随着互联网,物联网的发展,万事万物皆可连接,皆可源源不断地产生数据,从涓涓细流汇聚成汪洋大海。
  经过移动互联网的大爆发,中国的上网用户数已经约等于智能手机的用户数,通过4G网络随时连接,实时在线。
  这些用户在手机上的每一次滑动和点击,都会被各式各样的APP上传并存储,以及在微博,微信,知乎,抖音等各种社交或者UGC类APP上创作的文本,图片和视频,形成海量的数据。
  物联网方面也不遑多让。据GSMA智库预测,到2025年全球将会有18亿移动物联网连接(总共31亿蜂窝物联网连接),以及138亿工业物联网连接,其中63亿在亚太地区和中国,占总数的65。
  如果放在以前,计算机的硬件(存储,计算)等资源还很金贵的情况下,这些数据只能是经过简单汇总之后就被丢掉。
  然而随着技术的发展,计算机硬件的存储和计算能力越来越强,越来越不值钱,这些原本被认为食之无肉弃之有味数据才能被大量存储和处理,并挖掘价值。
  目前微信拥有11亿的用户,每天发送数百亿条消息,还有朋友圈,支付,扫一扫,摇一摇等多种行为都存储在微信的后台。
  如果要从这些海量数据中分析所有微信用户的行为习惯,比如每天的使用时长,偏好发语音还是文字,对哪些类型的公众号感兴趣等数据就没有那么简单了。这就是各种大数据技术诞生及发展的驱动力。
  大数据有哪些特点?
  由于大数据的描述众说纷纭,4个V,5个V,乃至8个V的说法都有。本文就简采用IBM的4V说:大量(Volume),高速(Velocity),多样(Variety),价值(Value)。
  1、大量:这一点是大数据最基础的属性,前面讲过了。也就是说:大数据分析的是所有样本,不是随机抽样,因此可进行多维度,更详细的分析。
  2、高速:数据产生地快,对分析和使用的速度要求也很高。如果像刻舟求剑一样,分析地虽然精确,但耗时过长,以至于结论早已过时,终究是没有用处的。
  试想一下,在网上买书的时候,系统会根据目前浏览的书来智能推荐用户还可能感兴趣的其他书,这个是要求秒级响应的。如果过了半小时才算出结果来,用户很可能早都购物结束了。
  3、多样:数据的来源多种多样,格式不一,既有传统的结构化数据,更多的则是非结构化数据。
  结构化数据就是可以按照预定义的关系模型来存储的数据。
  非结构化数据指的那些没有固定格式,内容需要分析识别才知道的数据,一般就是网页,图片,音频,视频等数据。这些数据占比可达80以上。
  也就是说,大数据不是精确性,而是混杂性,只要这些数据拥有可供挖掘的信息,就都来者不拒。
  4、价值:数据虽多,但价值密度很低,必须经过大量的分析和提取,才能较为准确地发现其中蕴藏的规律。
  据不完全统计,公安机关全国每年需要存储的数据量高达3。3EB,结合视频监控和人脸识别,实现犯罪嫌疑人的快速识别和实时布控。
  中国的犯罪率是很低的,收集并存储如此多的数据,就是为了进行大海捞针,可见大数据的价值密度之低。
  并且,大数据的价值体现在对数据内部的相关性的挖掘,而非对因果性的求索。这个世界是复杂的,有相关性的事件之间不一定有直接的因果关系。
  我们不必纠结于事件之间具体的前因后果,只要知道它们之间是有正向或者负向联系的,只需照着做就能体现数据分析的价值了。这是一种实用主义的态度。
  举例来说,沃尔玛超市发现把啤酒和尿布放在一起时,啤酒的销量会大幅增加。此时摆在老板面前两个选择:是继续研究苦苦研究这个现象内在的因果关系呢,还是赶紧所有门店都如此配置起来好更快地赚钱?
  答案显然是后者。大数据分析是用来发现相关性来创造价值的,而非探索因果关系进行科研。
  大数据有哪些用处?
  1、用户画像
  千万人撩你,不如一人懂你。在现实世界里,唯一懂你的TA就是默默关注着你的大数据。
  你的一举一动,都被各种APP记录下来并进行分析,找出典型特征,并据此跟你打上各式各样的标签。这些标签汇聚起来就是你这个人在网络上的化身,美其名曰用户画像。
  通过搜集并分析多维数据,这些用户画像可以包罗万象,每一个用户在大数据面前都是一丝不挂的。基于对用户的了解,各种各样的精准营销就可以高效进行了。
  如此一来,你打开购物APP,醒目位置显示的都是自己想要买的东西;打开资讯APP,头条里面推荐的都是自己偏好的内容;打开搜索引擎,搜出来的东西都正好是自己想要找的。
  亚马逊技术专家曾经说过:如果系统运作良好,亚马逊应该只推荐你一本书,而这本书就是你将要买的下一本书。
  2、决策支撑
  在移动通信领域,所有用户产生了海量的信令交互,网络测量报告,以及各种各样的业务数据。
  这些信息都是被记录下来的,除了可以用来追踪用户,解决故障之外,还能用来了解自身的网络覆盖,容量,用户满意度等指标,并能和对手进行对比分析。
  基于这些大数据的分析结果,网络优化,用户体验提升等操作都可以有的放矢,更为方便高效。
  在医疗领域,大量患者产生的海量数据可以用来进行临床治疗对比,药品研发,疾病诊断,甚至还能作为医保政策,额度等调整优化的依据。
  除了上面的例子之外,大数据还在互联网,金融,以及各种垂直行业内部都有着丰富的应用场景。总结起来就是知己知彼,百战不殆,运筹帷幄,决胜千里。
  大数据和云计算,人工智能及5G之间有什么关系?
  由于大数据分析需要对大量的数据进行分解,统计,汇总,一台机器肯定搞不定,于是就有了分布式计算的方法。
  也就是说,将大量的数据分成很多的小份,每台机器只处理其中的一小份,多台机器并行处理,处理速度得以大幅提升。
  例如著名的Terasort对1个TB的数据排序,如果单机处理,怎么也要几个小时,但并行处理,仅需要209秒即可完成。
  在分布式计算框架下,大数据的处理,可以分为数据收集,数据存储,数据处理(资源管理与服务协调,计算引擎),数据分析,数据可视化这几层。
  大数据需要大量的服务器资源,但这些资源可能并不是随时都满负荷工作的。例如使用大数据来分析公司的财务情况,可能只需一周分析一次,但把这成千上万台机器放在机房里,每周用一次是非常浪费的。
  这正是云计算诞生的初衷。如果能在不同的时间,把这些闲置机器提供的网络,存储以及计算能力共享给其他公司使用,资源的利用率将大大提升。
  云计算通过硬件资源的虚拟化,相当于平台的提供者,而大数据是海量数据的高效处理,相当于云计算平台上的大型应用。
  那大数据和人工智能有没有关系?实际上,大数据是人工智能发展的前提。
  目前人工智能的主流算法是深度学习,其能够大展身手需要两个条件:强大的计算能力和高质量的大数据。其中最具有代表性的系统,就是著名的谷歌大脑。
  这是一个庞大的深度学习计算框架,拥有数万台高性能的计算机和顶级图形处理器组成的计算单元,可以完成大规模,多维度,多层次的深度学习模型训练。
  据悉,在谷歌大脑建立不久,谷歌就使用了一个拥有16000的CPU组成的超大规模计算机集群,让机器用深度学习模型自己看了一千万段视频,终于把人工智能训练地学会了如何从视频中辨认出一只猫来。
  因此,没有大数据所提供的足够的学习样本,深度学习系统搭建得再完美也没用。可以这么说,深度学习算法是灵魂,云计算是肉体,大数据则是粮食。
  没有粮食,肉体和灵魂就都成了空中楼阁。只有这三者合力,才能揭开人工智能应用的新篇章。而5G提供的万物互联,正是人工智能的粮食大数据产出的肥沃土壤。
  这就是大数据和云计算,人工智能,以及5G之间剪不断理还乱的联系。
  好了,本期的内容就到这里,希望对大家有所帮助。
  全文完
  参考文献:
  1、《大数据时代》,维克托迈尔舍恩伯格,肯尼思库尼耶
  2、《看懂大数据,这一篇就够了!》,鲜枣课堂
  3、《大数据技术体系详解,原理,架构与实践》,董西成
投诉 评论 转载

LK分享自动驾驶车载激光雷达技术现状分析本报告将自动驾驶领域最为关键的传感器激光雷达作为中心,通过调研其所扮演重要角色的领域自动驾驶,以及自动驾驶和激光雷达的国内外发展现状,深入了解激光雷达的技术背景。以目前智能车生……睿赛德科技喜迁新址,RTThread进入新的加速发展阶段2018年3月30日,中国自主物联网操作系统RTThread所属公司上海睿赛德电子科技有限公司(以下简称睿赛德科技)宣布乔迁新址,于上海浦东新区达尔文路88号半岛科技园11号楼……在大数据面前,每个人都是赤裸的我的女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,这是在鼓励她怀孕吗?一个男子冲进一家商店,要求经理出来见他,并怒不可遏地说出了上述这句话。几天后,经理打电……写给王兴的商业信函如何接触到行业领袖(KOL)年末跟省内某高校的同学们分享时讲的,取其中片断重新整理记录下来,给初入职场的年轻人;你和所有的大佬只有一步之遥。。。。。。2010年,我很看好团购模式,也是百……接着奏乐接着舞,一起燥起来吧舞力全开2021评测在11月10日,育碧携《刺客信条》系列最新作《英灵殿》与玩家见面。可能是这次的维京传奇吸引了太多玩家,让11月12日发售的《舞力全开2021》显得有些黯然失色。作为育碧旗下雷打……深圳市龙华区现代服务业分项资助项目清单来了,节后可开始申报深圳市龙华区现代服务业分项资助项目清单来了!以下十四个项目申报时间:2020年10月9日2020年11月6日有适合您企业申报的项目可早做准备哦!双……修家谱该出多少钱?亏没亏,自己看文化传承中国人从古至今注重孝道,对于祖宗先人留下的祖训家规,那更如同是家族的一种信仰。而家谱则正好作为记录家族历史的一种载体,让后人能够和先人隔着时空交流,也正是这种交流……1195G7版WINMax2021全球首测,战神之父购买了WWINMax20211195G7版,终于跟大家见面了!此次BIOS将TDP功耗做了调整,如下表:PowerLimit1PowerLimit2Nomina……荣耀60系列能超越苹果13系列吗?感谢您的阅读!荣耀60系列会超过iPhone13吗?这个问题,我们很难说一个明确的答案。但是,我们可以毫不犹豫的告诉大家,荣耀60系列并非是一款高性能的机型,……新天科技智能水气表领军企业,好行业好公司仍需好时机选股理由:业绩大幅增长成交量放大增长确定性强证券简称:新天科技评级:BBB数据截止日期:2019年9月30日单位:亿元证券代码:300259;成立日期:200……武则天神秘情史四位男宠如何讨女皇欢心?命运又有何不同?掐死自己的女儿,毒杀大儿子李弘;幽禁二儿子李贤,流放三儿子李旦,武则天在走向权力巅峰的过程中,受到到种种非议。作为一代女皇,她的情史更让人津津乐道,那么曾和她关系亲密的人到底是……会计还敢这样开发票,离被稽查不远了小规模纳税人税收优惠额度扩大后,又有一些纳税人又动起来歪脑筋,给人代开一些费用普通发票,让对方企业虚列费用,达到偷税的目的。有很多小规模的纳税人简单地认为自己虚开发票不会……
精华数字技术如何更好赋能健康中国?67W闪充高配旗舰仅售2299元,12GB128GB,还买什中国医生票房超9亿,导演刘伟强医学顾问可在现场随时喊cut游戏背夹哪家强?这篇文章里有要的答案大叔讲家里以前玉米脱粒要全家干上半个月现在脱粒机1小时搞定为了敏感肌小宝宝的洗澡自由,美而浦除氯美肤沐浴过滤器广州车展开幕在即,多款新车强势来袭,先收藏这份攻略周朝阳谁的青春不迷茫我月薪6500工作稳定小镇生活,昨天突然没了工作动画先行三年,姗姗来迟的赛马娘手游首日畅销榜TOP3ampampquot小途锐ampampquot回归,新款途观谷歌AndroidQ强势来袭,吊打iOS13系统,苹果地位恐
都说孩子写作业拖延是因为懒,人性到底懒不懒吹气球保友办公椅,国产家具之光煤矿机电设备检修管理问题研究10年前,北京有过一个贫民版天才少年班,如今他们怎么样了?中考解压发泄的种方式高温下的故事李泽刚万有引力方程杨玏和王玉雯这对儿,又被拍到了迟到的申辩孩子的自信从哪里来?聊聊与自信有关的两个因素关东楔子王

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找美丽时装彩妆资讯历史明星乐活安卓数码常识驾车健康苹果问答网络发型电视车载室内电影游戏科学音乐整形