一、大数据的概述
1.1 大数据的概念
最近几年,IT行业最火的名词中,少不了"大数据"、"人工智能"、"云计算"、"物联网"、"区块链"等等这些名词。针
对于"大数据"这个名词,现在更是全国老百姓,老少皆知的一个词语。但是什么是大数据,除了IT行业的专业人士
外,其他人乃至其他行业的人,除了能说出"数据量大"之外,好像真的不能再更深层次的解释了。那么我们来看看
下面几个权威机构给出的解释。
维基百科 给出的定义:
数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信息。
麦肯锡全球研究所 给出的定义:
一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据集合。
研究机构 高德纳(Gartner)给出的定义:
"大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信
息资产
概念总结:
海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合。
1.2 大数据的特征
早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐
章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中
的热门词汇。最早应用“大数据”的是世界著名的管理咨询公司麦肯锡公司,它看到了各种网络平台记录的个人海量
信息具备潜在的商业价值,于是投入大量人力物力进行调研, 对“大数据”进行收集和分析的设想,在2011年6月发
布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告
得到了金融界的高度重视,而后逐渐受到了各行各业关注。 那么大数据到底有什么特征呢?我们怎么去理解大数据
呢?有专业人士总结了4V说法,也有相关机构总结了5V说法,甚至6V说法。不管哪种说法,下面四个特征,是大
家普遍认可的。
-1. Volume:巨大的数据量
-2. Variety:数据类型多样化
-3. Velocity: 数据增长速度快
-4. Value:价值密度低
1.3 大数据的应用场景
大数据本身是一个抽象的概念, 对当前无论是企业还是政府、或是高校等单位来说,是一个面临着数据无法存储、
无法计算的状态的形容词。大数据的数据,分为三种类型:
-1. 结构化的数据
即有固定格式和有限长度的数据。
-2. 半结构化的数据
是一些XML或者HTML的格式的数据。
-3. 非结构化的数据
现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页、语音,视频等。
那么大数据可以做什么呢?
在海量的各种各样类型的价值密度低的数据中,我们要进行的是:数据采集,数据存储,数据清洗,数据分析,数据
可视化。
简单一句话,就是大数据让数据产生各种"价值"。可以说,大数据的核心作用就是"数据价值化",这个过程就是大
数据要做的主要事情。那么就可以概括成:
- 记录已经发生的一切
- 描述正在发生的一切
- 预测将要发生的一切
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
现在已经应用"大数据"的案例有:
- 预测犯罪
- 预测流感的爆发
- 预测选举
- 根据手机定位和交通数据,规划城市
- 根据库存和需求,实时调价
- 推动医疗信息化发展,远程医疗
1.4 大数据的发展前景
大数据技术目前正处在落地应用的初期,从大数据自身发展和行业发展的趋势来看,大数据未来的前景还是不错
的,具体原因有以下几点:
- 大数据本身的价值体现,
本身的数据价值化就会开辟出很大的市场空间。目前在互联网领域,大数据技术已经得到了较为广泛的应用。 大数
据造就了新兴行业
- 大数据推动了科技领域的发展
不仅体现在互联网领域,还体现在金融、教育、医疗等诸多领域,尤其是现在的人工智能。
- 大数据产业链的形成
经过近些年的发展,大数据已经初步形成了一个较为完整的产业链,包括数据采集、整理、传输、存储、分析、呈
现和应用,众多企业开始参与到大数据产业链中,并形成了一定的产业规模,相信随着大数据的不断发展,相
关产业规模会进一步扩大。
- 国家大力扶持大数据行业的发展
1.5 企业大数据的一般工作流程
1.5.1 数据源
数据的来源有如下内容:
- 关系型数据库
* 各种关系表,如订单表、账号表、基本信息表
- 日志文件
* 用户行为数据
* 浏览了哪些页面(网页、App、电视机顶盒),导航栏上的哪些选项等等
- 三方数据
* 第三方的接口提供数据
* 爬虫等
1.5.2 数据采集或者同步
常用数据采集导入框架:
- sqoop:
用于RDBMS与HDFS之间数据导入与导出
- flume:
采集日志文件数据,动态采集日志文件,数据流
flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理
- kafka:
主要用于实时的数据流处理
flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据
1.5.3 数据存储
常用数据存储框架
- HDFS、 HBase、ES
1.5.4 数据清洗
即对数据进行过滤,得到具有一定格式的数据源
常用框架(工具):MapReduce、Hive(ETL)、SparkCore、sparksql等
1.5.5 数据分析
对经过数据清洗后的数据进行分析,得到某个指标
常用框架(工具):MapReduce、Hive、SparkSQL、impala(impa:le)、kylin
1.5.6 数据展示
即将数据分析后的结果展示出来,也可以理解为数据的可视化、以图或者表具体的形式展示出来
常用工具:
metastore、Javaweb、hcharts、echarts
1.6 数据部门的组织架构
目前的数据部门有三种模式
1.6.1 分散式
1.6.2 集权式
1.6.3 混合式
1.7 云计算的概念
1)概念
云计算是以虚拟技术为核心,进行统一管理硬件设施,平台,软件等;它通过网络提供了可伸缩的、廉价的分布式计算
能力;它用出租的方式提供给用户,用户只要花低价,在具备网络接入条件的地方,就可以随时随地获得所需的各种IT
资源;类似于国家统一管理水,电,煤气等等。
2)云计算的种类
- 公有云:公有云面向所有用户提供服务,只要是注册付费的用户都可以使用
- 私有云:私有云只为特定用户提供服务
- 混合云:混合云综合了公有云和私有云的特点
3)服务的种类
-1. IaaS(基础设施即服务):IaaS将基础设施(计算资源和存储)作为服务出租。
在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用 Internet从IaaS服
务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。
举个例子:假如你现在要做一个网站,你肯定要有一台服务器或者虚拟机,要么自己搭建,要么买服务器运营商的。说
白了,IaaS就是解决企业硬件问题的,包括服务器、存储设备、网络设备等基础设施。基础设施有了,你就可以搭建环
境了。
-2. PaaS(平台即服务):PaaS把平台作为服务出租
举个例子:假如你现在要做一个网站,你不想自己买服务器搭环境,你就直接购买别人的PaaS服务。PaaS一般会为企业
解决硬件的租赁问题,以及操作系统的选装,开发测试环境的搭建,及各种编程语言的选装等,提供一个运行的直接用
的软件平台。有了PaaS你就可以在上面做开发工作了,当然,一些别的程序及软件还得你自己安装配置。
-3. SaaS(软件即服务)。SaaS把软件作为服务出租。
举个例子:你现在想做一个网站,你不会做,你只要购买别人的成熟软件,配置几下就能使用了。说白了就是卖软件
的,你不用租用服务器,开发软件等费时间的工作,你直接购买别人的软件通过互联网就能使用,也不需要本地安装,
也就是软件即服务的意思,你出钱,别人出软件服务。
4)云计算的关键技术
-1. 虚拟化
云计算的核心技术之一就是虚拟化技术。所谓虚拟化,是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一
台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间
内运行而互不影响,从而显著提高计算机的工作效率。
虚拟化的核心软件VMM,是一种运行在物理服务器和操作系统之间的中间层软件。VMM是一种在虚拟环境中的“元”操作系
统。他们可以访问服务器上包括CPU、内存、磁盘、网卡在内的所有物理设备。VMM不但协调着这些硬件资源的访问,也
同时在各个虚拟机之间施加防护。当服务器启动并执行VMM时,它会加载所有虚拟机客户端的操作系统同时会分配给每一
台虚拟机适量的内存,CPU,网络和磁盘。
-2. 分布式存储
云计算的另一大优势就是能够快速、高效地处理海量数据。在数据爆炸的今天,这一点至关重要。为了保证数据的高可
靠性,云计算通常会采用分布式存储技术,将数据存储在不同的物理设备中。这种模式不仅摆脱了硬件设备的限制,同
时扩展性更好,能够快速响应用户需求的变化。
分布式存储与传统的网络存储并不完全一样,传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成
为系统性能的瓶颈,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务
器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
在当前的云计算领域,Google的GFS和Hadoop开发的开源系统HDFS是比较流行的两种云计算分布式存储系统。
GFS(GoogleFileSystem)技术:谷歌的非开源的GFS(GoogleFileSystem)云计算平台满足大量用户的需求,并行地
为大量用户提供服务。使得云计算的数据存储技术具有了高吞吐率和高传输率的特点。
HDFS(HadoopDistributedFileSystem)技术:大部分ICT厂商,包括Yahoo、Intel的“云”计划采用的都是HDFS的数
据存储技术。未来的发展将集中在超大规模的数据存储、数据加密和安全性保证、以及继续提高I/O速率等方面
-3. 分布式计算
问题分解为若干小问题,分配给各个计算机再综合起来
-4. 多租户
1.8 物联网的概念
1.8.1 概念
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、
人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
1.8.2 物联网关键技术
物联网是物与物相连的网络,通过为物体加装二维码、RFID标签、传感器等,就可以实现物体身份唯一标识和各
种信息的采集,再结合各种类型网络连接,就可以实现人和物、物和物之间的信息交换。因此,物联网中的关键
技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。
1.8.3 扩展
射频识别(RFID)是 Radio Frequency Identification 的缩写。
其原理为阅读器与标签之间进行非接触式的数据通信,达到识别目标的目的。RFID 的应用非常广泛,典型应用有动物晶
片、汽车晶片防盗器、门禁管制、停车场管制、生产线自动化、物料管理。
1.9 大数据与云计算、物联网的关系
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。从云计算和大数据概念的诞
生到现在,二者之间的关系非常微妙,既密不可分,又千差万别。因此,我们不能把云计算和大数据割裂开来作为
截然不同的两类技术来看待。此外,物联网也是和云计算、大数据相伴相生的技术。
1.9.1 大数据、云计算和物联网的区别。
- 大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;
- 云计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式,廉价地提供给用户;
- 物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。
1.9.2 大数据、云计算和物联网的联系。
从整体上看,大数据、云计算和物联网这三者是相辅相成的。
物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来
数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需
要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理