正文:
一.大数据完全颠覆传统的思维方式:1.全面而非抽样。在过去的科学分析中,一般采用抽样的方法,即从数据集中抽取一部分样本数据,通过对部分样本数据的分析来推断全集数据的特征。而如今在大数据时代,大数据核心技术是海量数据存储和处理能力。分布式文件系统、分布式数据库提供了近乎无限的数据处理能力。分布式编程框架MapReduce提供了对海量数据并行计算的能力。所以,有了大数据技术的支持,分析方法可以直接针对全集数据,速度快,分析能力强。
2.效率而非精确。在过去的科学分析中,由于采用对部分抽样数据进行分析,得出的结果要应用于全集数据中,所以会有误差,而要使误差控制在全集数据可以接受的范围内,就要精确算法,其次才是提高算法效率。现如今大数据时代,直接使用全集数据进行分析,就不存在误差被放大到无法接受的范围,所以精确度已经不是首要目标,相反,大数据时代具有“秒级响应”的特点,需要保证在极短的时间中就要完成数据分析,并得出结果,否则就会失去数据的价值,所以效率才是关注的主要目标。
3.相关而非因果。在之前的数据分析中,一方面去解释事物发展背后的原因,另一方面要预测未来可能发生的事物。例如某商场这段期间业务下滑,该商场的IT部门就要对销售数据进行分析,找出下滑原因。同时该IT部门对微博数据进行分析发现人们对养生关注度很高,所以商场会进大量的保健品供市民选购。而如今大数据时代,通过对大量数据的挖掘,开始不再关心因果关系,而是转而关注相关性。就如很经典的啤酒尿布的案例:男人会去商场给孩子买尿布,顺便会给自己买啤酒。因此把啤酒和尿布这两个有相关性的东西放在一起,可以促进双倍销量,而本身啤酒和尿布并没有太大的因果关联。
二、大数据思维:
模型思维:根据应用需求,找到与应用相关的特征,建立起有关重要的特征模型。
算法思维:对找到的诸多特征进行筛选,分析每个特征所占比重,得出对应的参数。
数据来源广度性思维:在进行数据潜在价值挖掘时,不应仅局限于本系统的数据来源,而应用发散的眼光对系统外部数据进行手机采用。
应用大数据思维解决生活事物的实例-预测谁是恐怖分子:1.警方人为分析恐怖分子的典型特征——没有工作,男性,银行账户变动情况,从未使用过社交网络等。
2.通过统计分析和机器学习算法筛选出恐怖分子的重要特征,并且分析出每个特征的占比,建立特征模型。——排除没有工作,每周五银行账户变动大的称为恐怖分子的可能更大。
3.除警方自己掌握的信息外,还需要更广度的信息来源。——商场提供信息是购物支付多于现金;保险公司提供信息是从未投过人身保险。
4.选择适当的机器学习算法计算每个重要特征对预测结果的影响比重建立预测模型。
5.将该地区范围内的人根据特征模型提取相应的特征,使用预测模型,预测每个人是恐怖分子的概率。
三、数据挖掘中的贝叶斯算法:
如今在大数据时代,正确处理海量数据就显得十分重要了。大数据处理的基本流程是:对海量异构数据进行抽取和集成并且按一定的格式对数据进行存储,然后进行最核心的部分即数据分析,用户可以根据自己的需求对这些数据进行分析处理,如数据挖掘、机器学习、数据统计。最后将处理后的结果以可视化的方式展示给人们。
其中数据挖掘是在整个流程中起到不可替代的重要地位。数据挖掘可以分为:广义知识挖掘、关联知识挖掘、类知识挖掘、预测型知识挖掘、特异性知识挖掘。[2]在这里举一个类知识挖掘中的贝叶斯分类算法在生活中的应用——反垃圾邮件技术。
如果事件组 A1,A2,…Ak 为一完备事 件组,则对任一事件 B(其 P(B)≠0)有:
我们将邮件大体可以分为正常邮件和垃圾邮件,使用贝叶斯过滤器对两种邮件进行自行学习,分析每封邮件中词汇发生的频率差异。贝叶斯算法分析邮件的工作过程如下:
(1) 建立垃圾邮件集和正常邮件集。
(2)过滤器提取邮件主题和邮件体中的独立字串。
(3) 每一种邮件对应一个哈希表,其中good对应正常邮件集而bad 对应垃圾邮件集。表中存储 TOKEN 串到字频的映射关系。
(4)计算每个哈希表中TOKEN串出现的概率P=(某TOKEN串的字频)/(对应哈希表的长度)[5]
(5)我们需要判断当新接送的邮件出现TOKEY的字串时,该邮件为垃圾邮件的概率。
A事件——邮件为垃圾邮件;;t1,t2 …….tn 代表 TOKEN串则P(A|ti)表示垓邮件为垃圾邮件,条件是该邮件出现 TOKEN 串 ti 时P1(ti)=表示正常邮件出现的概率;P2(ti) =表示垃圾邮件出现的概率则P(A|ti)=P1(ti)/[(P1(ti)+P2(ti)];
(6)建立新的哈希表 probability,存储 TOKEN 串 ti 到 P(A|ti)的映射。
(7)至此,垃圾邮件集和正常邮件集的学习过程结束。根据建立的哈希表 probability 可以估新接受到的邮件为垃圾邮件的可能性。
总结:在如今的大数据时代,具备大数据思维方式可以更加灵活、高效、迅速的解决一些事物,更加推动了信息化的时代的发展。在对大数据处理时所用到的关键技术数据挖掘在很多领域如银行、电信、交通等方面都做出很大贡献,成为对人类生活产生重大影响力的新型技术。