大数据技术说白了是干啥-大数据是冷门专业吗

广告 X
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址

「大数据」深入浅出大数据:图文详解到底什么是Hadoop?

一个新概念出来,你说上网去了解一下是怎么回事,结果都是一篇篇由生涩的专业词汇堆砌起来的高深莫测的长篇大论,搞了大半天你还是不知道到底什么意思。其实,对于普罗大众来讲,描述清楚一件事情,往往就是举两三个例子的事,没那么多故作高深的东西。

这不,今年这个“数据要素”一词经常被提及,常见于各大报端,尤其在资本市场里是新潮感十足,一直是资本开”故事会“的好谈资。那么到底什么是数据要素呢?其实很简单的东西,没那么高深,而且我们每个人都能触手可及。先从一个小故事讲起。

大家还记得西游记里有这么一回,一个渔夫,他听从了一个樵夫的建议,每天给一个算卦的老先生送一条金色鲤鱼,而算卦的老先生则告诉这个渔夫,每天什么时间在什么地点撒网捕鱼,只要渔夫按算卦先生给的信息照做,从来都是满载而归,没有哪一次放了空。至于后来因此发生的一连串故事,就当另话了。

这个镜头一直深深地烙印在我脑海中,因为我时时在想,如果我也有一种神奇的力量依附于身,面临选择的时候能给我提供准确有用的信息,那该多好哇!故事中的那个算卦老先生,我们可以理解为他每天给到渔夫一个精准的经纬度数据和时间信号,渔夫据此每次都能渔获满满。而现实当中,比如你想去钓鱼,谁又不想能得到类似这种高精度的经纬度定位数据信息呢?面对江河万千,谁都会有“鱼在哪里”的感慨。

数据要素,说白了就是有用的,能产生经济价值的可量化的数据信息。有几个特性,其一,它是能产生经济价值的,说白了就是能卖钱的;其二,这个信息必须是量化的,也就是以数据化的方式来呈现;其三,它必须是可持续跟踪的,一次性的这种信息它还不算数。

我提一个概念,大家可以将思维无限放开。大家有没有在某一个瞬间,感觉到咱们所处的这个地球空间乃至宇宙空间,是否像极了一个巨大无比又精确无比的超级电脑?世间一切都是被编好了程序按部就班的运转,所有的逻辑都已经被数据量化写入了源代码。这世界上所有的东西,它无时无刻都被这个强大的程序计算着,什么样的路由就产生什么样的参数,什么样的参数就触发什么样的程序反应,一切的一切,无论你怎么变化,都尽在宇宙这个精心编写好的程序控制之中。0+1就会产生0+1的路径反应,1+1就会产生1+1的路径反应,无论你怎么动,都有设计好的路由等着你。

在整个地球和宇宙面前,人类从诞生到现在所留存的时间,实在是微不足道。我们人类也是从近代还不到500年的时间里开始以科学的思维认识自然利用自然。我们从最近的最具标志性的工业革命开始一路看来,工业化、机器化、自动化、智能化这是多么明显的标签!用一句话来概括,就是人类的发展进程,已然决然的在开始融入、回归这个宇宙世界的本源:程序化。科技发展的终极结果,就是程度越来越高的程序自动化。

什么意思呢?刚开始在一个漫长的历史时间里,咱们人类认识自然和宇宙是靠想象靠观察靠感悟,这个连接通道是天人感应。在机器化、自动化、智能化时代不断演进的这一路上,我们已经在习惯依赖工具设备客观地以数据化的方式来分析、理解一件事情。比如在现代化的农业生产中,我们在土壤里埋下了四通八达的感应探头,在天空上运行着成百上千的监测卫星,这些工具设备将探测到的所有信息全部以数字量化的形式反馈给电脑控制主机,由相应分析软件通过分析这些数据得出有用结论,据此给出是否启动施某种肥、喷水作业等各种指令给到自动化设备终端,从翻地到播种再到收获这一整个过程,全程都是设计好的程序自动控制,而将人的主观性完全抛弃。

从上面的描述中,大家是否能感觉到,智能化的下一阶段就是程序化?而不管智能化,还是程序化,它都高度依赖一个东西,就是数据要素,这是智能分析的基础。为什么不说是信息要素?这个是关键,只有数据化的东西,才能被智能化分析工具所接受。信息这个东西,可以是人能接受的,但是机器设备它接受不了。大家都知道计算机的语言符号是0和1,一切信息都将以0和1组合的方式输入给计算机,它才能听得懂。被“0和1”的这一过程,就是数据化。更直白点说,数据化就是量化,就是假设这世间一切信息,都可以通过数字的方式来定义和描述,这样才能打通人和智能设备之间沟通的通道。

我们人类的智能化已经处于普及应用的初期阶段了。一切皆可人工智能,居则智能家居,出则自动驾驶,这些都已经在广泛普及的路上了。大家想过没有,这些人工智能设备能正常开始工作,它就需要大量地有效地准确地数据来源,由谁来提供这些数据?由谁来使用这些数据?供需关系一旦成立,市场就诞生了。所谓的“数据确权”,就是指确定提供某类数据的所有权人是谁。市场经济由来已久,物权法、版权法等所有权法也由此应运而生,规范和保护了卖方的权利,才能保证整个供需市场的均衡发展。既然数据要素已经建立了广泛的供需关系,那么这种东西它就理应成为一种可以作为价值交换的商品。

以后,你想做一门生意,可是不知道水的深浅。你可以花钱从大数据信息出售方买来你想要的一切信息,他可以提供给到你相关行业的市场规模,需求量、供应量,市场分布、消费者个性化特征等等,就已经类似于算卦先生给你提供一个准确的经纬度数据告诉你在哪里才能捕到鱼了。自从有了互联网和大数据,这世界一切,哪里还有什么私密可言呢?!这还只是一个最最浅显的,易于大家理解的例子,实际上,数据要素无论是广度和深度,它的市场空间发展程度已经远远超过你想象,渗透到了任何一个空间。

大数据与我们有什么关系?

1998年9月4日,Google公司在美国硅谷成立。正如大家所知,它是一家做搜索引擎起家的公司。

无独有偶,一位名叫Doug Cutting的美国工程师,也迷上了搜索引擎。他做了一个用于文本搜索的函数库(姑且理解为软件的功能组件),命名为Lucene

左为Doug Cutting,右为Lucene的LOGO

Lucene是用JAVA写成的,目标是为各种中小型应用软件加入全文检索功能。因为好用而且开源(代码公开),非常受程序员们的欢迎。

早期的时候,这个项目被发布在Doug Cutting的个人网站和SourceForge(一个开源软件网站)。后来,2001年底,Lucene成为Apache软件基金会jakarta项目的一个子项目。

Apache软件基金会,搞IT的应该都认识

2004年,Doug Cutting再接再励,在Lucene的基础上,和Apache开源伙伴Mike Cafarella合作,开发了一款可以代替当时的主流搜索的开源搜索引擎,命名为Nutch

Nutch是一个建立在Lucene核心之上的网页搜索应用程序,可以下载下来直接使用。它在Lucene的基础上加了网络爬虫和一些网页相关的功能,目的就是从一个简单的站内检索推广到全球网络的搜索上,就像Google一样。

Nutch在业界的影响力比Lucene更大。

大批网站采用了Nutch平台,大大降低了技术门槛,使低成本的普通计算机取代高价的Web服务器成为可能。甚至有一段时间,在硅谷有了一股用Nutch低成本创业的潮流。

随着时间的推移,无论是Google还是Nutch,都面临搜索对象“体积”不断增大的问题。

尤其是Google,作为互联网搜索引擎,需要存储大量的网页,并不断优化自己的搜索算法,提升搜索效率。

Google搜索栏

在这个过程中,Google确实找到了不少好办法,并且无私地分享了出来。

2003年,Google发表了一篇技术学术论文,公开介绍了自己的谷歌文件系统GFS(Google File System)。这是Google公司为了存储海量搜索数据而设计的专用文件系统。

第二年,也就是2004年,Doug Cutting基于Google的GFS论文,实现了分布式文件存储系统,并将它命名为NDFS(Nutch Distributed File System)

还是2004年,Google又发表了一篇技术学术论文,介绍自己的MapReduce编程模型。这个编程模型,用于大规模数据集(大于1TB)的并行分析运算。

第二年(2005年),Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。

2006年,当时依然很厉害的Yahoo(雅虎)公司,招安了Doug Cutting。

2004年之前,雅虎使用Google搜索引擎作为自家搜索服务的。之后,雅虎放弃了Google,开始自己研发搜索引擎。

加盟Yahoo之后,Doug Cutting将NDFS和MapReduce进行了升级改造,并重新命名为Hadoop(NDFS也改名为HDFS,Hadoop Distributed File System)。

这个,就是后来大名鼎鼎的大数据框架系统——Hadoop的由来。而Doug Cutting,则被人们称为Hadoop之父

Hadoop这个名字,实际上是Doug Cutting他儿子的黄色玩具大象的名字。所以,Hadoop的Logo,就是一只奔跑的黄色大象。

我们继续往下说。

还是2006年,Google又发论文了。

这次,它们介绍了自己的BigTable。这是一种分布式数据存储系统,一种用来处理海量数据的非关系型数据库。

Doug Cutting当然没有放过,在自己的hadoop系统里面,引入了BigTable,并命名为HBase

好吧,反正就是紧跟Google时代步伐,你出什么,我学什么。

所以,Hadoop的核心部分,基本上都有Google的影子。

2008年1月,Hadoop成功上位,正式成为Apache基金会的顶级项目。

同年2月,Yahoo宣布建成了一个拥有1万个内核的Hadoop集群,并将自己的搜索引擎产品部署在上面。

7月,Hadoop打破世界纪录,成为最序1TB数据的系统,用时209秒。

此后,Hadoop便进入了高速发展期,直至现在。

Hadoop的核心,说白了,就是HDFS和MapReduce。HDFS为海量数据提供了存储,而MapReduce为海量数据提供了计算框架

Hadoop核心架构

让我们来仔细看看,它们分别是怎么工作的。

首先看看HDFS。

整个HDFS有三个重要角色:NameNode(名称节点)、DataNode(数据节点)和Client(客户机)。

典型的主从架构,用TCP/IP通信

NameNode:是Master节点(主节点),可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

DataNode:是Slave节点(从节点),是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。

Client:切分文件;访问HDFS;与NameNode交互,获得文件位置信息;与DataNode交互,读取和写入数据。 

还有一个Block(块)的概念:Block是HDFS中的基本读写单元;HDFS中的文件都是被切割为block(块)进行存储的;这些块被复制到多个DataNode中;块的大小(通常为64MB)和复制的块数量在创建文件时由Client决定。

我们来简单看看HDFS的读写流程。

首先是写入流程

1 用户向Client(客户机)提出请求。例如,需要写入200MB的数据。

2 Client制定计划:将数据按照64MB为块,进行切割;所有的块都保存三份。

3 Client将大文件切分成块(block)。

4 针对第一个块,Client告诉NameNode(主控节点),请帮助我,将64MB的块复制三份。

5 NameNode告诉Client三个DataNode(数据节点)的地址,并且将它们根据到Client的距离,进行了排序。

6 Client把数据和清单发给第一个DataNode。

7 第一个DataNode将数据复制给第二个DataNode。

8 第二个DataNode将数据复制给第三个DataNode。

9 如果某一个块的所有数据都已写入,就会向NameNode反馈已完成。

10 对第二个Block,也进行相同的操作。

11 所有Block都完成后,关闭文件。NameNode会将数据持久化到磁盘上。

读取流程:

1 用户向Client提出读取请求。

2 Client向NameNode请求这个文件的所有信息。

3 NameNode将给Client这个文件的块列表,以及存储各个块的数据节点清单(按照和客户端的距离排序)。

4 Client从距离最近的数据节点下载所需的块。

(注意:以上只是简化的描述,实际过程会更加复杂。)

再来看MapReduce。

MapReduce其实是一种编程模型。这个模型的核心步骤主要分两部分:Map(映射)Reduce(归约)

当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。

是不是有点晕?我们来举个例子。

上图是一个统计词频的任务。

1 Hadoop将输入数据切成若干个分片,并将每个split(分割)交给一个map task(Map任务)处理。

2 Mapping之后,相当于得出这个task里面,每个词以及它出现的次数。

3 shuffle(拖移)将相同的词放在一起,并对它们进行排序,分成若干个分片。

4 根据这些分片,进行reduce(归约)。

5 统计出reduce task的结果,输出到文件。

如果还是没明白的吧,再举一个例子。

一个老师有100份试卷要阅卷。他找来5个帮手,扔给每个帮手20份试卷。帮手各自阅卷。最后,帮手们将成绩汇总给老师。很简单了吧?

MapReduce这个框架模型,极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

哦,差点忘了,在MapReduce里,为了完成上面这些过程,需要两个角色:JobTrackerTaskTracker

JobTracker用于调度和管理其它的TaskTracker。JobTracker可以运行于集群中任一台计算机上。TaskTracker 负责执行任务,必须运行于 DataNode 上。

2011年11月,Hadoop 1.0.0版本正式发布,意味着可以用于商业化。

但是,1.0版本中,存在一些问题:

1 扩展性差,JobTracker负载较重,成为性能瓶颈。

2 可靠性差,NameNode只有一个,万一挂掉,整个系统就会崩溃。

3 仅适用MapReduce一种计算方式。

4 资源管理的效率比较低。

所以,2012年5月,Hadoop推出了 2.0版本

2.0版本中,在HDFS之上,增加了YARN(资源管理框架)层。它是一个资源管理模块,为各类应用程序提供资源管理和调度。

此外,2.0版本还提升了系统的安全稳定性。

所以,后来行业里基本上都是使用2.0版本。目前Hadoop又进一步发展到3.X版本。

经过时间的累积,Hadoop已经从最开始的两三个组件,发展成一个拥有20多个部件的生态系统。

在整个Hadoop架构中,计算框架起到承上启下的作用,一方面可以操作HDFS中的数据,另一方面可以被封装,提供Hive、Pig这样的上层组件的调用。

我们简单介绍一下其中几个比较重要的组件。

HBase:来源于Google的BigTable;是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。

Hive:是一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Pig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

ZooKeeper:来源于Google的Chubby;它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度。

Ambari:Hadoop管理工具,可以快捷地监控、部署、管理集群。

Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。

Mahout:一个可扩展的机器学习和数据挖掘库。

再上一张图,可能看得更直观一点:

高可靠性:这个是由它的基因决定的。它的基因来自Google。Google最擅长的事情,就是“垃圾利用”。Google起家的时候就是穷,买不起高端服务器,所以,特别喜欢在普通电脑上部署这种大型系统。虽然硬件不可靠,但是系统非常可靠。

高扩展性:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可以方便地进行扩展。说白了,想变大很容易。

高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。这个其实也算是高可靠性。

低成本:Hadoop是开源的,依赖于社区服务,使用成本比较低。

基于这些优点,Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。

Hadoop的应用非常广泛,包括:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等,都可以使用它进行部署。

目前,包括Yahoo、IBM、Facebook、亚马逊、阿里巴巴、华为、百度、腾讯等公司,都采用Hadoop构建自己的大数据系统。

除了上述大型企业将Hadoop技术运用在自身的服务中外,一些提供Hadoop解决方案的商业型公司也纷纷跟进,利用自身技术对Hadoop进行优化、改进、二次开发等,然后对外提供商业服务。

比较知名的,是Cloudera公司。

它创办于2008年,专业从事基于Hadoop的数据管理软件销售和服务,还提供Hadoop相关的支持、咨询、培训等服务,有点类似于RedHat在Linux世界中的角色。前面我们提到的Hadoop之父,Doug Cutting,都被这家公司聘请为首席架构师。

Spark同样是Apache软件基金会的顶级项目。它可以理解为在Hadoop基础上的一种改进。

它是加州大学伯克利分校AMP实验室所开源的类Hadoop MapReduce的通用并行框架。相对比Hadoop,它可以说是青出于蓝而胜于蓝。

前面我们说了,MapReduce是面向磁盘的。因此,受限于磁盘读写性能的约束,MapReduce在处理迭代计算、实时计算、交互式数据查询等方面并不高效。但是,这些计算却在图计算、数据挖掘和机器学习等相关应用领域中非常常见。

Spark是面向内存的。这使得Spark能够为多个不同数据源的数据提供近乎实时的处理性能,适用于需要多次操作特定数据集的应用场景。

在相同的实验环境下处理相同的数据,。其它方面,例如处理迭代运算、计算数据分析类报表、排序等,Spark都比MapReduce快很多。

此外,Spark在易用性、通用性等方面,也比Hadoop更强。

所以,Spark的风头,已经盖过了Hadoop。

相比于云计算技术来说,大数据的应用范围比较有限,并不是所有的公司都适用,也不是所有的业务场景都适用,没有必要跟风追捧,更不能盲目上马。

対于个人来说,大数据系统的架构非常庞大,内容也非常复杂,入门起来会比较吃力(实践练习倒是门槛很低,几台电脑足矣)。所以,如果不是特别渴望朝这个方向发展,可以不必急于学习它。或者说,可以先进行初步的了解,后续如果真的要从事相关的工作,再进行深入学习也不迟。

文章来源:https://mp.weixin.qq.com/s?src=11&timestamp=1693133077&ver=4738&signature=bx-5Z8rNmkOZbGK8SMP4bUOXYxTKK-Kc1IY*n2jPJKDBDdWAoRMiFVrAzrbIKfW7uporcViq*c3FnBG9426ePs3XwRNzjgcF5uot91uTu3I2heLjg7nDDw6RVvWFycTx&new=1

让数据更有价值|数据资产管理体系

大数据预测=社会成见

什么是社会成见?

社会成见其实是对社会历史经验的一种总结,是对未来必然重演历史的一种信心和预测,其实这和现在的人工智能大数据预测并无二异。

何为大数据预测?

说白了就是基于历史数据进行挖掘,寻找有规律的价值性的信息,从而对未来作出一定的预测。从统计学的角度,就是从当下数据推演,最大概率可能发生的结果。

那为什么社会成见往往是带有一定的贬义,而大数据预测就变成了高大上的科学?

社会成见也是基于人的对历史规律的认知,而这种认知,往往是以口口相传的形式进行经验积累。很多社会成见,其实是经历了漫长的时间,人们一次又一次在实践中得到验证,最终那些看上去屡试不爽的经验被保留了下来。

其实社会成见也就是社会经验,当我们把它描述成社会成见的时候,往往我们是因为对它的结论表示不认同。

假设你是一位年过35,有着丰富的业务经验和充沛的精神活力的职场精英,你兢兢业业,一丝不苟,全心全意为公司付出。却看到周围有些职场年轻人,能力经验不如你,却往往得过且过,上班时常摸鱼,有种躺平摆烂的状态。

你觉得自己在职场上应该是年富力强,可以挑大梁的香饽饽,却没成想自己会成为岌岌可危的被裁员的那位,且再也很难找到一份愿意接纳你的工作。会不会觉得职场对35岁以上的人,简直是严重的社会成见!

大数据技术说白了是干啥-大数据是冷门专业吗

确实,社会成见对历史规律的某种结论和认知,很多时候当持有这些社会成见的人,没有及时更新自己的认知,仍愿沿用旧有的习惯和认知去做决策。

同时,对于个体的差异性,他们也无暇去深入了解,凭借着经验主义做决策,在他们看来是一件简单而高效的事。

大数据是如何运作的呢?

假设大数据能够抓取职场上每一个人的相关数据,形成一套职场精英的价值衡量指标体系,这个指标体系涵盖个人经验、职业技能、工作态度、沟通能力、身体素质、年龄、家庭关系、身高、体重等等。

那么也许根据某一特定时期的历史经验数据,大数据有可能会推测出35岁以上的职场人,会存在相对比较大的概率,会处在一个职业瓶颈期。

那么这个时候我们可能会说,这是一个相对科学的统计结果。

但很多时候,就跟我们的工资被平均是一样的。个体差异存在一个极大不确定性,如果将这套职场精英指标体系运用在个人的 PK当中,那结果也许大相径庭。

就如同我们刚才举的35岁职场精英的例子,他的指标值可能远大于大多数的职能年轻人,但在群体PK当中,他的能力值被平均掉了。

大数据的科学性在于它能做精细化的预测,并且它的数据能动态调整更新。

如果大数据能追踪每个人的职场生命周期,可以为你和公司进行双向精准匹配,随着你个人能力和状态的提升,你将获得更多的职场机会,相信这对于每个人都是公平的。

最后说一下结论吧,大家往往都是希望活在确定性下,而这种确定性应该是有一定的规律可循的,我们可以遵循这种规律,去一步步实现我们的预期,亦或是有选择性的放弃。

而这种规律性,人们更愿意它是一种基于数理逻辑的科学结论,而不是主观臆断或讳莫如深的潜规则。

大数据是一种工具,好与坏在于使用工具的人,只有尊重每个群体,理解个体的独立性与差异化,赋予个体在相对确定规则下的自由选择权,不是笼统一刀切,相信才更会滋养出更多 的生命力与活力吧。

上一篇: DAO骗局—dao骗局
下一篇: 我能投资未来、我能投资未来 奇书网下载

为您推荐