大数据技术,发展趋势如何?
大数据一度野蛮生长,在利益催化之下出现浮华泡沫;但不可否认的是,在大数据时代,数据挖掘、分析,可以通过方方面面来影响我们的生活,不仅更便利,而且还直接可以提升幸福感。那么,大数据未来的发展趋势有哪些呢?
美国PC Magazine总编辑柯斯塔表示,他认为大数据的发展趋势以数字汇流对未来最具冲击,结合物联网、区块链、人工智能、语音识别等技术,这些科技相辅相成。
未来大数据应用七大趋势
1趋势一:物联网
物联网:“一句式”理解物联网
把所有物品通过信息传感设备与互联网连接起来,进行信息交换,即物物相息,以实现智能化识别和管理。
物联网是新一代信息技术的重要组成部分,也是“信息化”时代的重要发展阶段。
其英文名称是:“Internet of things(IoT)”。顾名思义,物联网就是物物相连的互联网。
这有两层意思:
其一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;
其二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信,也就是物物相息。
2趋势二:智慧城市
智慧城市
智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。
随着人类社会的不断发展,未来城市将承载越来越多的人口。目前,我国正处于城镇化加速发展的时期,部分地区“城市病”问题日益严峻。为解决城市发展难题,实现城市可持续发展,建设智慧城市已成为当今世界城市发展不可逆转的历史潮流。
这项趋势的成败取决于数据量跟数据是否足够,这有赖于政府部门与民营企业的合作;此外,发展中的5G网络是全世界通用的规格,如果产品被一个智慧城市采用,将可以应用在全世界的智慧城市。
3趋势三:增强现实(AR)与虚拟现实(VR)
拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,是一种多源信息融合的、交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。
增强现实(AR)是相对容易被误解的,相比起虚拟现实(VR)来说,它不是单纯被创造出来的--而3D建模、模拟世界这样的纯粹被创造出来的东西更好理解。所谓现实,就是我们肉眼看得到的、耳朵听的见的、皮肤感知的到的、身处的这个世界。如果广义的说,在现实的基础上利用技术将增添一层相关的、额外的内容,就可以被称为增强现实。这两个技术最近开始降价跟提升质量,走向大众市场,FB发表了头戴式VR设备Oculus Go,售价只要200美元;微软也发表了VR系统,可搭配HTC、三星与ACER 等品牌的硬件使用。VR应用一开始以电玩为主,现在的应用却超越电玩,例如可以用来教学,靠着VR设备,把家里的插头电线完成配线,就像有水电技师在教学一样。
4趋势四:区块链技术
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。
区块链技术是指一种全民参与记账的方式。所有的系统背后都有一个数据库,你可以把数据库看成是就是一个大账本。目前是各自记各自的账。
柯斯塔表示,这项技术本质是编译码跟加解密,可以有效加密信息。区块链有很多不同应用方式,美国几乎所有科技公司都在尝试如何应用,最常见的应用是比特币跟其他加密货币的交易。
5趋势五:语音识别技术
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
语音识别是通用的无屏幕接口,可以迅速地整合在各项工具上,在智能设备跟手机上很好用,而Amazon的智能喇叭Echo现在发展到第三代,可以开关智能电灯、开口询问就能搜寻信息等。这项产业有个很大优点,就是发展技术的公司都打算把这项技术商品化,像是google、Amazon跟苹果的语音识别技术都可透过授权,使用在其他业者的硬件服务上。
6趋势六:人工智能(AI)
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能需要被教育,汇入很多信息才能进化,进而产生一些意想不到的结果。AI影响幅度很大,例如媒体业,现在计算机跟机器人可以写出很好的文章,而且1小时产出好几百篇,成本也低。AI对经济发展会产生剧烈影响,很多知识产业跟白领工作也可能被机器人取代。但他对于AI的态度很正面,这会让生活更好,例如自驾车绝对比人驾车更安全。
7趋势七:数字汇流
何为数字汇流?
大约从 1995 年左有,就陆续有人在讨论所谓“数位汇流”,说有一天电话、电视、音响、电脑与游戏机,将会整合成一个装置。事实上这件事情早就发生了,iPhone 就是这样的装置。但这件事情也还没发生,因为在客厅,你还是需要一个 50 寸的荧幕和一组 6.1 声道喇叭,好好去享受你的影音。iPhone 或许可以接上这些周边,但总不能每次老爸的电话一响,大家看到一半的电影就要暂停吧?
所以数位载具会汇流,每个装置都可以兼当另一个装置使用。但那大概不代表每个人都只买一个数位装置,事实上,在不同的使用情境之下,我们还是会需要很不一样的数位装置 - 光是萤幕大小就有好多种选项,音响效果、摄影机,都需要不同的配套。所以数位汇流比较像是“iCloud”,也就是说所有的装置会存取同一个远端资料库,让你的数位生活可以完全同步,随时、无缝的切换使用情境。
但除了“载具”的汇流,我们更应关心的是另一个数位汇流,一个网路商业模式的汇流,或者更明确的说,数字汇流就是“内容”与“电子商务”的汇流。
对未来冲击最大的一项趋势,就是将上述六项趋势合并起来的效果,像是84亿个物联网设备,可用区块链技术加强安全性;智慧城市透过物联网,就能产生海量数据,这些数据需要由人工智能进行分析;虚拟现实和语音识别也需要透过人工智能不断学习,这些科技发展息息相关,相辅相成,所以数字汇流是最重要的趋势。
大数据成为时代发展一个必然的产物,而且大数据正在加速渗透到我们的日常生活中,从衣食住行各个层面均有体现。大数据时代,一切可量化,一切可分析。谁也不能断定大数据未来真正的发展趋势,但一定是以多种技术为依托且相互结合,才能释放大数据的“洪荒之力”,你觉得大数据的未来发展趋势有哪些呢?
大数据未来投入趋势及发展前景
Syncsort发布了第四次年度大数据调查结果,详细介绍了大数据的未来趋势以及所面临的挑战。根据研究结果,2018年企业应该着重注意以下五大趋势:
1、数据湖的组成正在改变。关系数据库管理系统和NoSQL数据库的数量在今年有所增加。关系数据库管理系统甚至超越了传统的企业数据仓库,云存储库正在日益普及。
2、传统平台将继续为数据湖做出重大贡献。与去年相比,相当重要的变化是访问大型主机数据并将其整合到数据湖中的人数增加了27%。
3、数据质量和合规性是许多企业面临的首要挑战。百分之四十的受访者认为这是他们将在明年继续努力改善的重要问题。
4、另一个趋势是数据湖将保持更新,以支持数据使用。71%的受访者将ETL列为最引人注目的数据湖用例,其中高级/预测分析和实时分析分别位于第二和第三位。尽管这些案例需要最新数据,但是超过75%的受访者表示要保持数据同步。
5、最后,企业将继续投资于大数据。百分之九十的公司发现,使用Hadoop和Spark而不是传统技术在节省资金和提高数据洞察力方面是有价值的。
Syncsort首席技术官TendüYoğurtçu表示,我们看到数据湖计划的采用日益增多,企业非常关注数据湖中数据治理,通过先进的分析和机器学习以及部署包括云在内的混合环境来增加收益。但是,只有企业可以访问企业数据,创建可信数据集并建立有效的数据治理实践,才能解锁这些好处。这促使企业不仅可以适应数字化转型,而且可以利用它使业务蓬勃发展。
大数据市场前景令人瞩目 未来5年如何实现?
大数据的技术是数据管理技术的一种,数据管理系统有着悠久的发展历史,它是所有计算机应用的基础。
一、数据管理技术发展背景
大数据的技术是数据管理技术的一种,数据管理系统有着悠久的发展历史,它是所有计算机应用的基础。谈到数据管理的软件,必须关注数据管理软件所依赖的硬件环境和它来解决的应用场景,我们可以通过图1来认识数据管理软件的位置。首先它是一种软件,处于底层硬件和上层应用之间,本质上是利用计算机硬件的存储和计算能力,对数据进行存储、管理、加工等操作,最终为了支持上层各类应用。
图1 数据管理技术发展背景
数据管理技术到现在至少有50年的发展历史,大概经历了几个发展阶段,见图2。第一个阶段是关系型数据模型的提出,为关系数据库发展奠定了理论基础;第二个阶段是Oracle和DB2等商业关系型数据库的兴起和发展壮大,开始了商业数据库产品在各行各业的应用,数据库也正式成为了继服务器、操作系统之外的第三个必须品;第三阶段由于业务场景的需要,数据库被分为面向业务的事务数据库和面向分析统计的分析数据库,两者之间的架构和建模方式也发生了变化,这是数据库技术的第一次分离;第四个阶段是数据库技术的分布式浪潮,最早是从数据分析端产生的,单机无法应对海量数据分析的需求,分布式水平扩展的需求提上日程,Hadoop、Spark和各类NoSQL都是为了应对这一需求而诞生,而分布式的技术也在2010年左右扩展到了事务数据库领域,主要为了应对越来越多的互联网业务。
图2 数据管理系统的发展阶段
数据管理系统处于硬件和应用之间的位置决定了它自身的技术演进主要依赖于底层硬件的发展和上层应用端的需求变化。在硬件端,从上世纪70年代开始,通用服务器的芯片、内存的发展就遵循摩尔定律,单机的性能越来越强,推动着数据库的处理能力不断增强,利用内存能力也是一大趋势。而进入2000年,芯片处理能力的增长赶不上业务和数据的增长,单机系统的瓶颈显露,导致数据管理系统向分布式架构转型。在应用端,业务的互联网化、在线化使得业务流量和访问频率呈指数级的增长,单机集中式架构处理遇到瓶颈,而移动互联网下动辄上千万的级的用户量,提出了海量数据分析的挑战,分布式架构正是为应对这些挑战而生。
二、大数据技术发展历程
大数据的应用和技术起源于互联网,首先是网站和网页的爆发式增长,搜索引擎公司最早感受到了海量数据带来的技术上的挑战,随后兴起的社交网络、视频网站、移动互联网的浪潮加剧了这一挑战。互联网企业发现新数据的增长量、多样性和对处理时效的要求是传统数据库、商业智能纵向扩展架构无法应对的。
在此背景下,谷歌公司率先于2004年提出一套分布式数据处理的技术体系,即分布式文件系统谷歌文件系统(Google file system,GFS)、分布式计算系统MapReduce和分布式数据库BigTable,以较低成本很好地解决了大数据面临的困境,奠定了大数据技术的基础。受谷歌公司论文启发,Apache Hadoop实现了自己的分布式文件系统HDFS、分布式计算系统MapReduce和分布式数据库HBase,并将其进行开源,这是大数据技术开源生态体系的起点。
2008年左右,雅虎最早在实际环境中搭建了大规模的Hadoop集群,这是Hadoop在互联网公司使用最早的案例,后来Hadoop生态的技术就渗透到了互联网、电信、金融乃至更多的行业。2009年UCBerkley大学的AMPLab研发出了Spark,经过5年的发展,正式替换了Hadoop生态中MapReduce的地位,成为了新一代计算引擎,而2013年纯计算的Flink诞生,对Spark发出了挑战。2014年之后大数据技术生态的发展进入了平稳期。
图3 大数据分析技术的发展历程
经过10年左右的发展,大数据技术形成了以开源为主导、多种技术和架构并存的特点。从数据在信息系统中的生命周期看,大数据技术生态主要有5个发展方向,包括数据采集与传输、数据存储、资源调度、计算处理、查询与分析。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术,兼顾离线和实时数据的采集和传输。在存储层,HDFS已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了K-V(key-value)、列式、文档、图4类NoSQL数据库体系,HBase、Cassandra、MongoDB、Neo4j、Redis等数据库百花齐放。资源调度方面,Yarn独领风骚,Mesos有一定发展签里。计算处理引擎方面慢慢覆盖了离线批量计算、实时计算、流计算等场景,诞生了MapReduce、Spark、Flink、Storm等计算框架。在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案,Hive、HAWQ、Impala、Presto、Drill等技术与传统的大规模并行处理(massively parallel processor,MPP)数据库竞争激烈。
图4 大数据技术生态
三、大数据技术发展趋势
2014年以后,整体大数据的技术栈已经趋于稳定,由于云计算、人工智能等技术发展,还有芯片、内存端的变化,大数据技术也在发生相应的变化。总结来看主要有几点发展趋势:
一是流式架构的更替,最早大数据生态没有办法统一批处理和流计算,只能采用Lambda架构,批的任务用批计算引擎,流式任务采用流计算引擎,比如批处理采用MapReduce,流计算采用Storm。后来Spark试图从批的角度统一流处理和批处理,Spark Streaming采用了micro-bach的思路来处理流数据。近年来纯流架构的Flink异军突起,由于其架构设计合理,生态健康,近年来发展特别快。而Spark近期也抛弃了自身微批处理的架构,转向了纯流架构Structure Streaming,流计算的未来霸主还未见分晓。
二是大数据技术的云化,一方面是公有云业务的成熟,众多大数据技术都被搬到了云上,其运维方式和运行环境都发生了较大变化,带来计算和存储资源更加的弹性变化,另一方面,私有部署的大数据技术也逐渐采用容器、虚拟化等技术,期望更加精细化地利用计算资源。
三是异构计算的需求,近年来在通用CPU之外,GPU、FPGA、ASIC等芯片发展迅猛,不同芯片擅长不同的计算任务,例如GPU擅长图像数据的处理,大数据技术开始尝试根据不同任务来调用不同的芯片,提升数据处理的效率。
四是兼容智能类的应用,随着深度学习的崛起,AI类的应用越来越广泛,大数据的技术栈在努力兼容AI的能力,通过一站式的能力来做数据分析和AI应用,这样开发者就能在一个工具站中编写SQL任务,调用机器学习和深度学习的算法来训练模型,完成各类数据分析的任务。
四、总结与展望
数据管理技术已经发展了50多年了,大数据技术是在数据管理技术的基础上,面向大规模数据分析的技术栈,它主要是分布式架构的设计思路,通过并行计算的方式来提升处理效率,同时具备了高扩展能力,根据业务需求随时扩展。经过15年左右的发展,大数据的技术栈逐渐成熟,然而近年来云计算、人工智能等技术的发展,还有底层芯片和内存端的变化,以及视频等应用的普及,都给大数据技术带来新的要求。未来大数据技术会沿着异构计算,批流融合,云化,兼容AI,内存计算等方向持续更迭,5G和物联网应用的成熟,又将带来海量视频和物联网数据,支持这些数据的处理也会是大数据技术未来发展的方向。
作者简介
姜春宇:中国信息通信研究院云计算与大数据研究所大数据与区块链部副主任,大数据技术标准推进委员会办公室主任。研究方向为大数据技术应用、数据库技术、数据资产管理、数据流通。建立了国内首个大数据产品能力评测体系,制定了Hadoop平台、MPP数据库、数据集成工具、数据管理平台、分布式数据库等多项大数据技术标准规范。参与起草《促进国家大数据发展行动纲要》,参与编写工信部《大数据产业十三五规划》,参与起草国内第一个数据交易规则,参与编写《数据资产管理实践白皮书》、《金融分布式事务数据库白皮书》。
吴震:大数据风控发展前景广阔
近年来,大数据行业的发展可以说是非常的好,它改变了我们的生活,同时也给我们生活带来了许多的便利,逐步成为我们生活中重要角一。
随着大数据技术的逐步成熟以及国家政策的大力推进,大部分企业将进一步加大在大领域的投入。经资料查询,受访企业普遍看好大数据的发展前景,大部分的受访企业计划着未来加大对大数据的投入,并且其中部分企业预计还要加大力度对大数据的投入,预计增长50%,显而易见,大数据未来投趋入势将呈现比较好的幅度。
如图表:未来大数据投入趋势
由图可见,我国各型企业正在逐步意识到大数据的业务价值和商业价值,并且鉴于数据量的迅猛增长和大数据分析所带来得巨大价值,在未来几年,不论是企业级还是中小企业用户,都将会在大数据分析上进行投入,通过部署新的数据分析方案来提高大数据创造价值的效率。未来大数据的投入趋势也将会逐步呈现上涨趋势。
大数据技术目前正处于在落地应用的初期,从大数据自身发展和行业发展的趋势来看,大数据未来的前景还是不错的,大数据本身就能够创造出更多的价值,且大数据相关技术紧紧围绕数据价值化展开,为整个信息化赋能。目前在互联网领域,大数据技术已经得到了较为广泛的应用。就目前来看大数据和生活中各行各业紧密相连,不管是新兴企业还是传统行业,大数据都必然落地。
所以大数据的发展空间是比较大的,前景也是比较好的,从就业角度讲,学习大数据是一个不错的选择哟,想要学习或者想要选这方面专业的小伙伴可以坚持自己的想法。