论大数据的思想形态和价值维度

论大数据的思想形态和价值维度

清华基于微博分析的大数据幸福指数发现,周六的时候人最幸福,相信大家心情都很好,今天就不说无聊的科技了。关于大数据的思维、理念和方法论被反复消费。本来是想直接去互动环节的。哥哥还是要求一些规定动作后,我就先弹几十分钟,唱几十分钟。既然是漫谈,就没必要扣题目。它在哪里?如果你有任何问题,我可以随时加入讨论。

先说大数据思想的形成。自从人类开始书写和数字,数据就产生了。就数据增长曲线而言,最小初值确实要经历一个漫长的过程,才能达到人类能够感知的曲线拐点。谷歌前CEO埃里克·施密特(Eric schmidt)曾给出一个有趣的数据:从人类文明的黎明到2003年产生的数据,仅相当于2010年两天产生的数据。一旦越过拐点,在摩尔大数据定律的滚滚铁轮下爆发出指数效应:最近两年产生的数据量相当于之前产生的所有数据。

在漫长的数据存储过程中,数学和统计学逐渐发展起来,人们开始重视数据的定量分析。人类进入信息时代之前的例子数不胜数。比如经济方面,黄仁宇先生在对宋代经济的分析中发现了“数理”(即数量分析)的广泛应用(可惜王安石变法始而无终)。再比如军队。不管真假,“向林彪学习数据挖掘”这一桥段背后的量化分析思想无疑有其现实基础,甚至可以追溯到2000多年前。孙膑正是通过编造“把10万个炉子减为5万个炉子,再减为3万个炉子”的数据,利用庞涓的定量分析习惯,对其进行诱捕和杀伤。

20世纪五六十年代,磁带取代了穿孔卡片机,引发了数据存储的革命。磁盘驱动器马上发现,它带来的最大想象空间不是容量,而是随机读写的能力,一下子解放了数据工作者的思维模式,开始了数据的非线性表达和管理。数据库应运而生,从分层数据库(IBM为阿波罗登月设计的,现在CCB还在用),到网状数据库,再到现在的通用关系数据库。决策支持系统(DSS)起源于数据管理,并在20世纪80年代演变为商业智能(BI)和数据仓库,为数据分析开辟了道路,即赋予数据以意义。

在那个时代,数据管理和分析最强大的应用是业务。第一个数据仓库是为宝洁公司制造的,第一个万亿字节的数据仓库是在沃尔玛。沃尔玛的典型应用有两个:一个是基于retaillink的供应链优化,与供应商共享数据,指导其产品设计、生产、定价、配送、营销的全过程,而供应商可以优化库存,及时补货;二是购物篮分析,也就是常说的加啤酒加尿布。关于啤酒和纸尿裤,几乎所有的营销书籍都令人信服。我告诉你,是Teradata的一个经理编的,人类历史上从来没有过。但是,先教育市场,再收获,是积极的。

仅次于沃尔玛的乐购,专注于客户关系管理(CRM),细分客户群体,分析他们的行为和意图,做精准营销。

这一切都发生在20世纪90年代。在2000年代,科学研究产生了大量的数据,如天文观测和粒子碰撞。第四范式是数据库大师吉姆·格雷提出的,是对数据方法论的改进。前三种范式分别是实验(伽利略从斜塔上扔下来)、理论(牛顿受一个苹果启发,形成了物理学经典定律)、模拟(粒子加速太贵,核试验太脏,所以用计算代替)。第四种范式是数据探索。其实这并不新鲜。开普勒根据之前行星位置的观测数据拟合椭圆轨道,这就是数据法。但是到了90年代,科研数据太多,数据探索成为突出的研究。在今天的学科中,有一对孪生兄弟,计算XX和XX信息学。前者是模拟/计算范式,后者是数据范式,如计算生物学和生物信息学。有时候计算XX包括数据范式,比如计算社会学,计算广告学。

2008年,克里斯·安德森(长尾理论的作者)在《连线》杂志上写了一篇文章《理论的终结》,引起轩然大波。他的主要观点是,有了数据,就不需要模型,或者说很难获得一个可解释的模型,所以模型所代表的理论是没有意义的。给你讲讲数据,模型,理论。我们先来看一个大概的图。

首先,我们在观察客观世界时从三个点收集数据。根据这些数据,我们可以对客观世界有一个理论上的假设,可以用一个简化的模型来表示,比如三角形。可以有更多的模型,比如四边形,五边形。随着观察的深入,又采集了两个点。这时候发现三角形和四边形的模型都是错的,于是确定模型是五边形,这个模型反映的世界就在那个五边形里,却不知道真正的时间是圆的。

大数据时代的问题在于,数据多而杂,无法再用简单明了的模型来表达。这样,数据本身就成了模型。严格来说,数据和应用数学(尤其是统计学)已经取代了理论。安德森以谷歌翻译为例。统一的统计模型取代了各种语言的理论/模型(如语法)。如果能从英语翻译成法语,就能从瑞典语翻译成汉语,只要有语料库数据。谷歌甚至可以翻译Clayton(StarTrek编译的语言)。安德森提出的是关联性而非因果性的问题,勋伯格(以下简称老舍)只是捡了人的智慧。

当然,科学界并不认同理论的终结,认为科学家的直觉、因果性和可解释性仍然是人类取得突破的重要因素。有了数据,机器就能发现隐藏在当前知识版图中的未知部分。没有模型,知识版图的上限就是机器线性增长的计算能力,无法扩展到新的空间。人类历史上,每一次知识疆域的跨越式扩张,都是天才们和他们的理论首先吹响的号角。

2010左右,大数据浪潮卷起,这些争论很快被淹没。看Google trends,“bigdata”这个词当时就跳了起来。小号手有几个,一个是IDC,每年给EMC一份digitaluniverse的报告,上升到Zebyte的范畴(给你一个概念,现在硬盘是TB,1000太=1拍,阿里和脸书的数据是几百拍,1000拍=1拍,百度是个位数。一个是麦肯锡,它出版了《大数据:创新、竞争和生产率的下一个前沿》。一个是《经济学人》,重要作家之一是肯尼斯?库克耶;还有一个是Gartner,发明了3V(大、杂、快)。其实这个3V是2001编的,只是在大数据的背景下有了新的解读。

在我国,黄总、总也是在2011左右开始呼吁关注大数据。

2012子沛的《大数据》一书,对教育政府官员做出了巨大贡献。老舍和库克耶的《大数据时代》提出了三大思想,现在已经奉为圭臬,但不要把它们当成放之四海而皆准的真理。

例如,不要对整个数据集进行采样。实事求是地说,1。没有一套完整的数据,数据都是孤岛;2.全集太贵了。鉴于大数据信息密度低,是贫矿,投入产出比不一定好;3.抽样在宏观分析中仍然有用,盖洛普用5000个样本击败百万次调查的做法仍然具有现实意义;4.抽样应具有随机性和代表性。采访火车上的农民工,得出他们都买了票的结论,这不是一个好的抽样。现在只做固话抽样调查不好(手机是大头),基于国外Twitter抽样也不完全有代表性(不包括老年人);5.采样的缺点是有百分之几的偏差,甚至会丢失黑天鹅的信号。所以,在全套数据存在且可分析的前提下,全量是首选。总量>好的抽样>;质量不均匀。

况且杂合是因为准确。拥抱杂糅(这样的客观现象)是一种很好的态度,但不代表喜欢杂糅。数据清理比以前更重要了。如果数据失去了识别性和有效性,就应该扔掉。老舍引用Google的结论,少数高质量的数据+复杂的算法被大量低质量的数据+简单的算法打败,来证明这种思维。彼得的研究是网络文本分析,这是真的。然而,谷歌的深度学习已经证明这并不完全正确。对于信息维度丰富的语音和图片数据,需要大量的数据和复杂的模型。

最后,要有关联性,而不是因果性。对于大量的小决策,相关性是有用的,比如亚马逊的个性化推荐;对于小批量的重大决策,因果关系仍然很重要。就像中医一样,只到了相关的阶段,却没有解释,也不能断定某些树皮和虫壳就是治愈的原因。发现西医的相关性后,要做随机对照试验,排除一切可能导致“治愈果”的干扰因素,获得因果关系和可解释性。商业决策也是如此。相关性只是开始。它取代了拍脑袋的假设和直觉,而后面验证因果关系的过程依然重要。

把大数据的一些分析结果在相关性上实现也是一种伦理需要,动机不代表行为。预测分析也是一样,不然警察预测人会犯罪,保险公司预测人会生病,社会会很麻烦。大数据算法极大的影响了我们的生活,有时候感觉还挺悲哀的。就是算法觉得借不借都能拿到钱。谷歌每次调整算法,很多线上业务都会因为排名靠后而受到影响。

时间不多了。我会贴一些关于价值维度的东西。大数据的思想中很重要的一点是,除了决策的智能,还有数据本身的价值。这一点我就不赘述了。引用马云的一句话,“信息的起点是我认为我比别人聪明,数据的起点是别人比我聪明;信息是你把数据编辑后给别人的,数据是你收集后给比你聪明的人的。”大数据能做什么?值V如何映射到其他3V和时空象限?

并贴出解释。体积空间维度中的“见微”与“知”。小数据是微妙的和个人的。我曾在《一代宗师》中形容为“看见自己”;大数据了解并反映自然界和群体的特征和趋势。我把它比作“见世面,见众生”。“写”促“微”(比如把人群细分成桶),拉“微”(比如把同类人的喜好推荐给个人)。“微”和“写”也体现了时间维度。个人价值在最初产生衰变时最大,最后随着时间退化为集体价值。

速度的时间维度中的“现在”和“全部清除”。在时间的原点,当下就是灵光一闪之间的实时智慧。结合过去(负轴)和预测未来(正轴),我们都可以理解,也就是我们可以获得永恒的智慧。西游记中对真假美猴王的描述,一个是“知时明变”,一个是“知前知后”,正好对应。为了实现普遍知识,我们需要总体分析、规定分析和处置分析(需要采取什么行动来使设定的未来发生)。

变体空间维度中的“错误辨析”与“意义理解”。基于海量多源异构数据,我们可以甄别和过滤噪声,查漏补缺,去伪存真。理解达到了更高的层次,从非结构化数据中提取语义,使机器能够窥探人的思想境界,达到了结构化数据分析过去无法达到的高度。

先看看,对宏观现象规律的研究早就有了。大数据的知识有两个新特点。一个是从抽样到总量。比如央视关于“你幸福吗?”去年是街头抽样。不久前中国经济生活调查关于幸福城市排名的结论,是基于654.38+万份问卷(654.38+07题)的抽样得出的。清华行为与大数据实验室做的幸福指数(跟随熊婷、我和本群很多朋友的参与)是基于新浪微博数据全集(感谢老王)。这些数据是人们的自然表达(而不是对问卷的被动回答),有语境,所以更真实,更有解释力。是空气、房价还是教育让北上广不幸福?微博中更容易传播的正面情绪还是负面情绪,数据告诉你答案。《中国经济生活调查》说“我们甚至能听到最小的声音”,这是夸张的说法。抽样和传统的统计分析方法采用一些简化的模型进行数据分布,忽略了异常和长尾。总分析能看到黑天鹅,听到长尾的声音。

另一个特点是从定性到定量。计算社会学是定量分析在社会学中的应用。一批数学家和物理学家成为了经济学家和自由主义者,现在他们也可以选择成为社会学家。国泰君安3I指数也是一个例子。基于几十万用户的数据,主要反映投资活跃度和投资收益水平,建立量化模型推断整体投资景气度。

再看微观,我觉得大数据真正的差异化优势在于微观。自然科学是宏观的,具体的,微观的,抽象的,那么大数据就很重要。我们更注重社会科学,就是先微观具体,再宏观抽象。徐小年简直认为宏观经济学是伪科学。如果市场是个人行为的总和,我们看到的就是一幅抽象画,我们无法理解。通过客户细分,可以逐渐形成一个大致可以理解的现实画面,但是是马赛克,再通过差异化甚至定位个体,就可以形成一个高清画面。我们每一个人现在都生活在零售商的桶里(前面提到过乐购发明了这个概念),最简单的反映背景,比如高收入和低收入,然后反映行为和生活方式,比如“精打细算”和“右键群体”(右键对比)。另一方面,我们消费者也希望得到个性化的尊重,今天没人要本obody。

了解和掌握客户比以往任何时候都重要。奥巴马赢得大数据是因为他知道乔治·克鲁尼是约旦河西岸40-49岁女性的男神,莎拉·杰西卡·帕克(《欲望都市》主角)是东岸同龄女性的偶像。他还得更细分,摇摆州每个县每个年龄每个时间在看什么电视,摇摆州(俄亥俄州)1%选民一段时间的投票倾向,Reddit的摇摆选民。

对于企业来说,需要从以产品为导向转变为以客户(买方)甚至用户为导向,从关注用户背景转变为关注用户的行为、意图和意向,从关注交易的形成转变为关注每一个交互点/触点。用户是从什么路径找到我的产品的,决定了他们之前做过什么,购买后有什么反馈,是通过网页、QQ、微博还是微信。

现在来说说第三个。时间就是金钱,炒股就是快鱼吃慢鱼。用免费的股票交易软件,有几秒钟的延迟,而占美国交易量60-70%的高频程序化交易,会发现低至1美分的毫秒交易机会。时间又是生命。美国国家海洋和大气管理局的超级计算机在日本311地震后9分钟就发布了海啸预警,为时已晚。时间或机会。现在所谓的购物篮分析,其实并不是真正的购物篮,而是一张已经结账的小收据。真正有价值的是,当顾客还在提着购物篮,在浏览、试穿、挑选商品的时候,他/她的选择在每一次接触中都受到影响。数据的价值是有半衰期的,最新鲜的时候个性化价值最大,逐渐退化到只有集体价值。当下的智慧是从刻舟求剑到知道时机成熟。原来10年的人口普查是在刻舟求剑,现在的百度迁徙地图却在东莞出事的时候体现出来了。当然,现在的不一定完全准确。事实上,如果没有更多更长的数据,仓促解读百度的迁移图是有可能陷入误区的。?

第四个是安全的。时间有限,就简单点说吧。也就是说,我们只知道东风是predictiveanalytics,确定借箭目标,开出借草船的药方,这是一个prescriptiveanalytics。我们需要处方分析来提高响应能力、降低流失率并吸引新客户。

错误识别就是利用多源数据过滤噪声,查漏补缺,去伪存真。一个例子是20多个省市的GDP总和超过全国GDP。我们的GPS有几十米的误差,但是结合地图数据就可以很精确。GPS在城市高楼里没有信号,可以结合惯性导航。

小I涉及大数据下的机器智能,这是个大问题,不展开。贴一段我的文章:有人说,人在“萧艺”领域是不可替代的。这是前大数据时代的事实。《Moneyball》讲的是定量分析和预测对棒球的贡献。它在大数据背景下存在误区:第一,它其实不是大数据,而是一种已有的数据思维和方法;二是有意无意忽略了侦察兵的作用。从读者的角度来看,奥克兰运动家队总经理比利·比恩用定量分析代替了球探。事实上,在使用量化工具的同时,比恩也增加了侦察的成本。军功章里一半是机器,一半是人,因为球探测量的是运动员的定性指标(如竞争力、抗压能力、意志力等。)那是不能用几个结构化的量化指标来描述的。大数据改变了这一切。无意识地记录人的数字足迹,增强机器学习(尤其是深度学习)理解思想的能力,可能会逐渐改变机器的劣势。这一年,我们看到了基于大数据的情感分析、价值分析和个人刻画。当这些应用于人力资源时,它们或多或少地反映了童子军的作用。

以上是边肖为您分享的关于漫谈大数据的思想形态和价值维度。更多信息可以关注环球常春藤分享更多干货。