大数据学习之概述以及应用场景

我爱海鲸 2022-05-11 16:04:16 暂无标签

简介大数据、云计算、物联网以及其关系与应用

一、大数据的概述

1.1 大数据的概念

   最近几年,IT行业最火的名词中,少不了"大数据"、"人工智能"、"云计算"、"物联网"、"区块链"等等这些名词。针
对于"大数据"这个名词,现在更是全国老百姓,老少皆知的一个词语。但是什么是大数据,除了IT行业的专业人士
外,其他人乃至其他行业的人,除了能说出"数据量大"之外,好像真的不能再更深层次的解释了。那么我们来看看
下面几个权威机构给出的解释。

   维基百科 给出的定义:

   数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信息。

   麦肯锡全球研究所 给出的定义:

   一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据集合。

   研究机构 高德纳(Gartner)给出的定义:

   "大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信
息资产

   概念总结:

   海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合。

1.2 大数据的特征

   早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐
章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中
的热门词汇。最早应用“大数据”的是世界著名的管理咨询公司麦肯锡公司,它看到了各种网络平台记录的个人海量
信息具备潜在的商业价值,于是投入大量人力物力进行调研, 对“大数据”进行收集和分析的设想,在2011年6月发
布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告
得到了金融界的高度重视,而后逐渐受到了各行各业关注。 那么大数据到底有什么特征呢?我们怎么去理解大数据
呢?有专业人士总结了4V说法,也有相关机构总结了5V说法,甚至6V说法。不管哪种说法,下面四个特征,是大
家普遍认可的。

   -1. Volume:巨大的数据量
   -2. Variety:数据类型多样化
   -3. Velocity: 数据增长速度快
   -4. Value:价值密度低

1.3 大数据的应用场景

   大数据本身是一个抽象的概念, 对当前无论是企业还是政府、或是高校等单位来说,是一个面临着数据无法存储、
无法计算的状态的形容词。大数据的数据,分为三种类型:

   -1. 结构化的数据
即有固定格式和有限长度的数据。
   -2. 半结构化的数据
是一些XML或者HTML的格式的数据。
   -3. 非结构化的数据
现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页、语音,视频等。

   那么大数据可以做什么呢?

   在海量的各种各样类型的价值密度低的数据中,我们要进行的是:数据采集,数据存储,数据清洗,数据分析,数据
可视化。

   简单一句话,就是大数据让数据产生各种"价值"。可以说,大数据的核心作用就是"数据价值化",这个过程就是大
数据要做的主要事情。那么就可以概括成:

   - 记录已经发生的一切
   - 描述正在发生的一切
   - 预测将要发生的一切

   大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

   现在已经应用"大数据"的案例有:

   - 预测犯罪

   - 预测流感的爆发

   - 预测选举

   - 根据手机定位和交通数据,规划城市

   - 根据库存和需求,实时调价

   - 推动医疗信息化发展,远程医疗

1.4 大数据的发展前景

   大数据技术目前正处在落地应用的初期,从大数据自身发展和行业发展的趋势来看,大数据未来的前景还是不错
的,具体原因有以下几点:

   - 大数据本身的价值体现,
本身的数据价值化就会开辟出很大的市场空间。目前在互联网领域,大数据技术已经得到了较为广泛的应用。 大数
据造就了新兴行业

   - 大数据推动了科技领域的发展
不仅体现在互联网领域,还体现在金融、教育、医疗等诸多领域,尤其是现在的人工智能。

   - 大数据产业链的形成
经过近些年的发展,大数据已经初步形成了一个较为完整的产业链,包括数据采集、整理、传输、存储、分析、呈
现和应用,众多企业开始参与到大数据产业链中,并形成了一定的产业规模,相信随着大数据的不断发展,相
关产业规模会进一步扩大。

   - 国家大力扶持大数据行业的发展

1.5 企业大数据的一般工作流程

   1.5.1 数据源

   数据的来源有如下内容:
   - 关系型数据库
   * 各种关系表,如订单表、账号表、基本信息表
   - 日志文件
   * 用户行为数据
   * 浏览了哪些页面(网页、App、电视机顶盒),导航栏上的哪些选项等等
   - 三方数据
   * 第三方的接口提供数据
   * 爬虫等

   1.5.2 数据采集或者同步

   常用数据采集导入框架:

   - sqoop:

      用于RDBMS与HDFS之间数据导入与导出

   - flume:

      采集日志文件数据,动态采集日志文件,数据流

      flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理

   - kafka:

      主要用于实时的数据流处理

      flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据

   1.5.3 数据存储

   常用数据存储框架

   - HDFS、 HBase、ES

   1.5.4 数据清洗

   即对数据进行过滤,得到具有一定格式的数据源

   常用框架(工具):MapReduce、Hive(ETL)、SparkCore、sparksql等

   1.5.5 数据分析

   对经过数据清洗后的数据进行分析,得到某个指标

   常用框架(工具):MapReduce、Hive、SparkSQL、impala(impa:le)、kylin

   1.5.6 数据展示

   即将数据分析后的结果展示出来,也可以理解为数据的可视化、以图或者表具体的形式展示出来

   常用工具:
   metastore、Javaweb、hcharts、echarts

1.6 数据部门的组织架构

目前的数据部门有三种模式

   1.6.1 分散式

  

   1.6.2 集权式

  

   1.6.3 混合式

  

   1.7 云计算的概念

   1)概念

   云计算是以虚拟技术为核心,进行统一管理硬件设施,平台,软件等;它通过网络提供了可伸缩的、廉价的分布式计算
能力;它用出租的方式提供给用户,用户只要花低价,在具备网络接入条件的地方,就可以随时随地获得所需的各种IT
资源;类似于国家统一管理水,电,煤气等等。

   2)云计算的种类

   - 公有云:公有云面向所有用户提供服务,只要是注册付费的用户都可以使用

   - 私有云:私有云只为特定用户提供服务

   - 混合云:混合云综合了公有云和私有云的特点

   3)服务的种类

   -1. IaaS(基础设施即服务):IaaS将基础设施(计算资源和存储)作为服务出租。

   在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用 Internet从IaaS服
务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。

   举个例子:假如你现在要做一个网站,你肯定要有一台服务器或者虚拟机,要么自己搭建,要么买服务器运营商的。说
白了,IaaS就是解决企业硬件问题的,包括服务器、存储设备、网络设备等基础设施。基础设施有了,你就可以搭建环
境了。

   -2. PaaS(平台即服务):PaaS把平台作为服务出租

   举个例子:假如你现在要做一个网站,你不想自己买服务器搭环境,你就直接购买别人的PaaS服务。PaaS一般会为企业
解决硬件的租赁问题,以及操作系统的选装,开发测试环境的搭建,及各种编程语言的选装等,提供一个运行的直接用
的软件平台。有了PaaS你就可以在上面做开发工作了,当然,一些别的程序及软件还得你自己安装配置。

   -3. SaaS(软件即服务)。SaaS把软件作为服务出租。

   举个例子:你现在想做一个网站,你不会做,你只要购买别人的成熟软件,配置几下就能使用了。说白了就是卖软件
的,你不用租用服务器,开发软件等费时间的工作,你直接购买别人的软件通过互联网就能使用,也不需要本地安装,
也就是软件即服务的意思,你出钱,别人出软件服务。

   4)云计算的关键技术

   -1. 虚拟化

   云计算的核心技术之一就是虚拟化技术。所谓虚拟化,是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一
台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间
内运行而互不影响,从而显著提高计算机的工作效率。

   虚拟化的核心软件VMM,是一种运行在物理服务器和操作系统之间的中间层软件。VMM是一种在虚拟环境中的“元”操作系
统。他们可以访问服务器上包括CPU、内存、磁盘、网卡在内的所有物理设备。VMM不但协调着这些硬件资源的访问,也
同时在各个虚拟机之间施加防护。当服务器启动并执行VMM时,它会加载所有虚拟机客户端的操作系统同时会分配给每一
台虚拟机适量的内存,CPU,网络和磁盘。

   -2. 分布式存储

   云计算的另一大优势就是能够快速、高效地处理海量数据。在数据爆炸的今天,这一点至关重要。为了保证数据的高可
靠性,云计算通常会采用分布式存储技术,将数据存储在不同的物理设备中。这种模式不仅摆脱了硬件设备的限制,同
时扩展性更好,能够快速响应用户需求的变化。

   分布式存储与传统的网络存储并不完全一样,传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成
为系统性能的瓶颈,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务
器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

   在当前的云计算领域,Google的GFS和Hadoop开发的开源系统HDFS是比较流行的两种云计算分布式存储系统。

   GFS(GoogleFileSystem)技术:谷歌的非开源的GFS(GoogleFileSystem)云计算平台满足大量用户的需求,并行地
为大量用户提供服务。使得云计算的数据存储技术具有了高吞吐率和高传输率的特点。

   HDFS(HadoopDistributedFileSystem)技术:大部分ICT厂商,包括Yahoo、Intel的“云”计划采用的都是HDFS的数
据存储技术。未来的发展将集中在超大规模的数据存储、数据加密和安全性保证、以及继续提高I/O速率等方面

   -3. 分布式计算

   问题分解为若干小问题,分配给各个计算机再综合起来

   -4. 多租户

1.8 物联网的概念

   1.8.1 概念

   物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、
人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

   1.8.2 物联网关键技术

   物联网是物与物相连的网络,通过为物体加装二维码、RFID标签、传感器等,就可以实现物体身份唯一标识和各
种信息的采集,再结合各种类型网络连接,就可以实现人和物、物和物之间的信息交换。因此,物联网中的关键
技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。

   1.8.3 扩展

   射频识别(RFID)是 Radio Frequency Identification 的缩写。
其原理为阅读器与标签之间进行非接触式的数据通信,达到识别目标的目的。RFID 的应用非常广泛,典型应用有动物晶
片、汽车晶片防盗器、门禁管制、停车场管制、生产线自动化、物料管理。

1.9 大数据与云计算、物联网的关系

   云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。从云计算和大数据概念的诞
生到现在,二者之间的关系非常微妙,既密不可分,又千差万别。因此,我们不能把云计算和大数据割裂开来作为
截然不同的两类技术来看待。此外,物联网也是和云计算、大数据相伴相生的技术。

   1.9.1 大数据、云计算和物联网的区别。

   - 大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;

   - 云计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式,廉价地提供给用户;

   - 物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。

   1.9.2 大数据、云计算和物联网的联系。

   从整体上看,大数据、云计算和物联网这三者是相辅相成的。

   物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来
数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需
要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理

你好:我的2025