如何准确又通俗易懂地解释大数据及其应用价值

2024-05-19 12:58

1. 如何准确又通俗易懂地解释大数据及其应用价值

首先我觉得wikipedia上那句话已经够清楚了。再解释也只是用家常话同义重复而已。‘大数据’概念本身强调的是处理大数据的能力和技术,大数据的应用价值不在于它‘大’,而在于其细粒度信息的价值(微观干预的能力)。这一点的确很多人、很多出版物都没说清楚。

1 先举几个例子来说明什么是粗粒度信息,什么是细粒度信息:

各省市妹纸的bra size排名是粗粒度信息,每个实名妹纸的bra size是细粒度信息;
张三的九型人格类型是粗粒度信息,张三每次在某些特定情境中的行为记录是细粒度信息;
一家媒体/一个品牌/一个品牌官微的影响力是粗粒度信息,这家机构每次发出的信息到达了谁、这些人产生了什么反应是细粒度信息;
......

2 信息的价值是什么?信息给它的拥有者带来了什么?更直观的感受、更精细的判断、更准确的预测...这些都是某种中间目标/中间价值,而非终极目标/终极价值。信息的终极价值体现在做功:信息的使用者利用一段信息(相比于没有这段信息时)多做了一些事(这些事的价值用做功来衡量),这就是这段信息的价值。也因为如此,信息只有和与之匹配的做功机器放在一起才有价值。太阳光谱特征对太阳能电池厂家有价值,但对农民就没有价值;全国各地区妹纸的bra size对当代的bra厂家有价值,对二百年前的织布厂就没价值,因为农民和织布厂的生产只依赖粗粒度的信息(光照强度、全国人均布料消费量)。

3 所有提到‘大数据是用普查代替抽样’的类似说法,都必然说不到点子上。

为什么这么说?因为我们要搞清楚一件事:无论是抽样还是普查,都是一种宏观测量+操作视角,目的都是得到宏观观测量(研究对象的整体特征),宏观观测量是为了进行宏观干预的,宏观干预的行动效率这就是这个信息的价值极限——不管用什么方法取得这个信息,无论这个量变得多么准确。

举例来说,如果我有一台热机(heat engine),那么我需要利用温度计取得'温度'这个宏观量(至多4byte吧)指挥我的热机做功。现在有个做大数据的家伙出现了,说:你怎么还在用上个世纪的抽样方法获得的数据管理你的工作?!现在用我的xx分析仪,我可以立即给出你的热机里每个气体分子的热运动数值!他说干就干,立刻安装好全套设备,并架设好仪表板,给我一一展示:“你看这热分布与粒径分布的交叉分析,你看这涨落...这可是实时处理的mol级数据呢...”,最后呢,我必然要打断他:“这些都很好,但是我还是想知道,温度在哪显示?”

如果我拥有的不是一台普通热机,而是一台3D打印机,或者是一台纳米打印机,或者是量子计算机之类的,那么大数据对我就非常有用,这些都不是依赖于宏观观测量能做的工作。

4 大数据的应用价值很大,但现在的应用普遍错位。

在这个‘大数据‘概念刚开始被鼓吹、技术刚兴起的年代,这样的错位在现实中一再发生,这一点也不荒唐。一方面,一些大数据技术公司正在千方百计地鼓动农民和织布厂购买大数据(大数据时代的电子政务、大数据时代的品牌战略)。不是说更准确的数据对电子政务完全没价值,但是投入产出比肯定不高,因为这些数据用抽样一样可以保证精度,数据再多,热机功率也无法突破极限。

另一方面,也是更可笑的方面,是一些拥有大数据的企业,正在千方百计地把他们的数据换算成’更精确的温度‘——手握大量数据,也有微观干预的技术可行性,但是他们只想用热机的方式利用这些数据(例如某浪总想把微博定位成媒体)。

总之【更新日志:看到上面的答案互踩得挺热闹的,我也来欢乐地踩一下高票答案们】:

把bra size数据归纳为’各国bra 
size排行榜'给娱乐新闻供稿不是大数据的价值(抽样也可实现),利用bra size数据提高陌生男女速配几率是大数据的价值(更高效率的微观干预);
将市场交易信息汇总成实时数据供宏观政策决策不是大数据的价值(抽样也可实现),根据个人交易记录和行为特征降低在线交易的撮合成本是大数据的价值(更高效率的微观干预);
目前排名第一答案中的『在知乎上如何能获得更多赞同?』不是大数据的价值(基于统计,抽样也可实现),问题变成『给定任意用户u,他在时间T写一个答案内容A,预测给赞的名单L=L(u,A)、L的演化L(t)=L(u,A,T)』才是大数据的价值(必须依赖细粒度信息才能实现的预测);
目前排名第二答案中的举例『重建了整个罗马城的3D模型』、『糖果厂生产糖果的红绿比例是什么?』不是大数据的价值(利用了大数据,但没产生额外的价值——不用大数据也能建立罗马城的影像,也能统计颜色比例),问题变成『根据每个旅行者的个人兴趣重建最佳罗马城浏览路线』、『糖果厂改进生产流程,使出厂糖果的颜色和甜度自动匹配下单客户的口味』是大数据的价值(不用大数据无法实现)。

如何准确又通俗易懂地解释大数据及其应用价值

2. 如何准确又通俗易懂地解释大数据及其应用价值

  大数据的用途,所谓学以致用,大数据领域在各个行业都可以应用,这里举出几个有趣的例子,在Linkedin的时候,CEO提出经济图谱的概念,希望整合用户,公司,工作机会,技能,学校,帖子变成一个复杂而有蕴含无限可能的数字化社会。找对象,有个国外的极客,他抓取了dating网站的数据,根据有些指标如地理,年龄,兴趣,建立下面的3D模型找到真爱;例如阿里巴巴通过数据魔方(它们的大数据产品),提炼出消费跟女生胸部成正比的结论。在移动App上,今日头条通过你的个人社会化信息,建立起兴趣图谱推荐文章并且随着你的使用会越来越聪明;在线教育领域:MOOC中的M就是大规模的意思;其他如互联网金融人人贷,通过大数据积累信用,释放一些传统金融体系下未被满足而又广泛存在的巨大需求,最近也是拿到1.3亿美金的融资。硅谷有家Wealthfront做大数据理财,23andMe提供个人基因组的“大数据“。等等

  对于迅速成长的中国市场,大公司也意味着大数据,BAT三家都是对大数据的投入也是不惜余力,我4年前在Baidu的的时候,就提出框计算的东东,最近两年成立了硅谷研究院,挖来Andrew Ng作为首席科学家,研究项目就是百度大脑,在语音,图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。腾讯作为最大的社交应用对大数据也是情有独钟,自己研发了C++平台的海量存储系统。淘宝去年双十一主战场,2分钟突破10亿,交易额突破571亿,背后是有很多故事,当年在百度做Pyramid(按Google三辆马车打造的金字塔三层分布式系统)有志之士,继续在OceanBase创造神话。而阿里云当年备受争议,马云也怀疑是不是被王坚忽悠,最后经历了双十一的洗礼证明了OceanBase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面这么多数据几何级数增长,另一方面存储带宽都是巨大成本,没价值就真破产。

3. 如何准确又通俗易懂地解释大数据及其应用价值

  大数据说到底就是一个大字。到底有多大?拿维基百科上的例子来说,CERN做的LHC(大型强子对撞机)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1TB的硬盘。

  在这些数据里寻找希格斯玻色子的证据,是真正的大海捞针。这么大的数据你给我用Excel算算看?不要说计算,根本连载入内存都不可能。

  再比如说,Facebook据说拥有500亿以上的用户照片。前些日子美国波士顿发生了爆炸案。这些照片里可能就有爆炸案的线索。那你给我找找看那张照片上面有嫌犯?波士顿马拉松仅运动员就有两三万人,围观群众近五十万。在同一时间同一地点拍摄的照片可能有几十万张,录像可能有几千小时。用人工一张一张看过来是不切实际的。如果要考察爆炸案前后几天的照片那就更不现实了。还有的照片根本就没有时间和地点信息。

  再举一个例子。2009年华盛顿大学的研究人员使用15万张Flickr上的图片,重建了整个罗马城的3D模型。整个重建过程的计算使用了496个CPU核心,耗时8小时。如果每张照片按100KB计算,总数据量达到15GB。至少要达到这个级别的数据,才能称得上大数据。

如何准确又通俗易懂地解释大数据及其应用价值

4. 如何准确又通俗易懂地解释大数据及其应用价值

  大数据说到底就是一个大字。到底有多大?拿维基百科上的例子来说,CERN做的LHC(大型强子对撞机)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1TB的硬盘。

在这些数据里寻找希格斯玻色子的证据,是真正的大海捞针。这么大的数据你给我用Excel算算看?不要说计算,根本连载入内存都不可能。

再比如说,Facebook据说拥有500亿以上的用户照片。前些日子美国波士顿发生了爆炸案。这些照片里可能就有爆炸案的线索。那你给我找找看那张照片上面有嫌犯?波士顿马拉松仅运动员就有两三万人,围观群众近五十万。在同一时间同一地点拍摄的照片可能有几十万张,录像可能有几千小时。用人工一张一张看过来是不切实际的。如果要考察爆炸案前后几天的照片那就更不现实了。还有的照片根本就没有时间和地点信息。

再举一个例子。2009年华盛顿大学的研究人员使用15万张Flickr上的图片,重建了整个罗马城的3D模型。整个重建过程的计算使用了496个CPU核心,耗时8小时。如果每张照片按100KB计算,总数据量达到15GB。至少要达到这个级别的数据,才能称得上大数据。

5. 如何准确又通俗易懂地解释大数据及其应用价值?

大数据说到底就是一个大字。拿维基百科上的例子来说,CERN做的LHC(大型强子对撞机)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1TB的硬盘。在这些数据里寻找希格斯玻色子的证据,是真正的大海捞针。这么大的数据你给我用Excel算算看,不要说计算,根本连载入内存都不可能。

如何准确又通俗易懂地解释大数据及其应用价值?

6. 如何准确又通俗易懂地解释大数据及其应用价值?

    一样平常我都是用这个例子开始先容大数据入门:

    大数据入门,你和我做个思索,过去有个国王很开心想夸奖他的宠臣,然后说让他来提任何嘉奖,这个大臣给国王看下面这个棋盘,是个8*8的方格,要是我在每个标号的格子内放米粒,第一个格子放1粒米,背面的格子总是前面格子的两倍。那么题目来了,要是我把整个棋盘放满,必要多少米粒?你和我学过级数的话,可以快速做个演算,它的推演是1+2+4...+2^63=2^64-1这个数字多大很多人没印象,反正要是然的要兑现的话,这个国度肯定是停业了。着实我把这个棋盘分成上下两半,在上一半统共必要的米粒是2^32,这并不是个很大的数,着实前几年谋略机的32位便是那么大,但下半场就完全不一样了,这是个平方级别的scale,宇宙中全部沙砾都标号也不必要这么大的数字。如今大家也通常听到什么手机64位处理惩罚器,着实并无实际意义。
    应用场景很多:

    大数据的用途,所谓学以致用,大数据范畴在各个行业都可以应用,这里举出几个风趣的例子,在Linkedin的时间,CEO提出经济图谱的见解,盼望整实用户,公司,事变机遇,技能,学校,帖子变成一个巨大而有蕴含无穷大概的数字化社会。找东西,有个外洋的极客,他抓取了dating网站的数据,凭占据些指标如地理,年龄,兴趣,创建下面的3D模型找到真爱;比方阿里巴巴通过数据魔方(它们的大数据产品),提炼出斲丧跟女生胸部成正比的结论。在移动App上,本日头条通过你的个人私家社会化信息,创建起兴趣图谱保举文章并且随着你的利用会越来越智慧;在线教诲范畴:MOOC中的M便是大范围的意思;其他如互联网金融大家贷,通过大数据积聚名誉,开释一些传统金融体系下未被餍足而又遍及存在的巨大需求,近来也是拿到1.3亿美金的融资。硅谷有家Wealthfront做大数据理财,23andMe提供个人私家基因组的“大数据“。等等

    大数据公司
    2014年总结的BigData公司列表,你和我大抵可以分成底子架会商应用,而底层都是会用到一些通用技能,如Hadoop,Mahout,HBase,Cassandra,我在下面也会涵盖。在阐发这一块,Cloudera,Hortonworks,MapR作为Hadoop的三剑客,一些运维范畴,MangoDB,Couchbase都是NoSQL的代表,作为办事范畴AWS和GoogleBigQuery一触即发,在传统数据库,Oracle收购了MySQL,DB2老牌银行专用,Teradata做了多年纪据堆栈。上面的Apps更多,比如交际斲丧范畴Google,Amazon,Netflix,Twitter,贸易智能:SAP,GoodData,一些在告白媒体范畴:TURN,Rocketfuel,做智能运维Sumologic等等。客岁的新星Databricks陪伴着Spark的海潮震撼Hadoop的生态体系。

    中国的大数据
    对付敏捷生长的中国市场,至公司也意味着大数据,BAT三家都是对大数据的投入也是不吝余力,我4年前在Baidu的的时间,就提出框谋略的东东,近来两年创建了硅谷研究院,挖来AndrewNg作为首席科学家,研究项目便是百度大脑,在语音,图片辨认大幅进步正确度和召回率,近来还做了个无人自行车非常风趣。腾讯作为最大的交际应用对大数据也是情有独钟,本身研发了C++平台的海量存储体系。淘宝客岁双十一主战场,2分钟突破10亿,买卖业务额突破571亿,背后是有很多故事,当年在百度做Pyramid(按Google三辆马车打造的金字塔三层散布式体系)有志之士,连续在OceanBase创造神话。而阿里云当年备受争议,马云也猜疑是不是被王坚忽悠,末了经历了双十一的洗礼证明白OceanBase和阿里云的靠谱。小米的雷军对大数据也是拜托厚望,一方面这么多数据多少级数增长,另一方面存储带宽都是巨大本钱,没代价就真停业。

7. 如何准确又通俗易懂地解释大数据及其应用价值

  大数据说到底就是一个大字。到底有多大看拿维基百科上的例子来说,CERN做的LHC(大型强子对撞机)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1TB的硬盘。

在这些数据里寻找希格斯玻色子的证据,是真正的大海捞针。这么大的数据你给我用Excel算算看看不要说计算,根本连载入内存都不可能。

再比如说,Facebook据说拥有500亿以上的用户照片。前些日子美国波士顿发生了爆炸案。这些照片里可能就有爆炸案的线索。那你给我找找看那张照片上面有嫌犯看波士顿马拉松仅运动员就有两三万人,围观群众近五十万。在同一时间同一地点拍摄的照片可能有几十万张,录像可能有几千小时。用人工一张一张看过来是不切实际的。如果要考察爆炸案前后几天的照片那就更不现实了。还有的照片根本就没有时间和地点信息。

再举一个例子。2009年华盛顿大学的研究人员使用15万张Flickr上的图片,重建了整个罗马城的3D模型。整个重建过程的计算使用了496个CPU核心,耗时8小时。如果每张照片按100KB计算,总数据量达到15GB。至少要达到这个级别的数据,才能称得上大数据。

如何准确又通俗易懂地解释大数据及其应用价值

8. 如何准确又通俗易懂地解释大数据及其应用价值

大数据说到底就是一个大字。到底有多大?拿维基百科上的例子来说,CERN做的LHC(大型强子对撞机)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1TB的硬盘。

  在这些数据里寻找希格斯玻色子的证据,是真正的大海捞针。这么大的数据你给我用Excel算算看?不要说计算,根本连载入内存都不可能。

  再比如说,Facebook据说拥有500亿以上的用户照片。前些日子美国波士顿发生了爆炸案。这些照片里可能就有爆炸案的线索。那你给我找找看那张照片上面有嫌犯?波士顿马拉松仅运动员就有两三万人,围观群众近五十万。在同一时间同一地点拍摄的照片可能有几十万张,录像可能有几千小时。用人工一张一张看过来是不切实际的。如果要考察爆炸案前后几天的照片那就更不现实了。还有的照片根本就没有时间和地点信息。

  再举一个例子。2009年华盛顿大学的研究人员使用15万张Flickr上的图片,重建了整个罗马城的3D模型。整个重建过程的计算使用了496个CPU核心,耗时8小时。如果每张照片按100KB计算,总数据量达到15GB。至少要达到这个级别的数据,才能称得上大数据