101⼤数据:⾮结构化数据分析
⼤数据和⾮结构化数据分析究竟意味着什么?您是否对它有所担⼼?本简报将为您提供有关⼤数据的速成课:它为什么重要、对 IT 部门的影响、⾮结构化数据分析的新兴技术以及博为⼤数据平台如何提供帮助。
⼤数据为什么重要
数据正以惊⼈的速度激增。从出现⽂明到 2003 年,⼈类总共才创造 5 EB(5 ExaBytes, 1018 字节)的数据,但是我们现在仅在两天内就创造出相同的数据量!1 到 2012 年,全球数字数据量将增长⾄ 2.72 ZB(ZettaBytes, 1021 字节),并以每两年翻番的速度增长,到 2015 年将达到 8 ZB。举例来说,这相当于 1800 万个国会图书馆。2 数⼗亿台连接的设备 — 从个⼈电脑和智能⼿机到 RFID 读取器和交通摄像头等传感设备,都在不断⽣成复杂的结构化数据和⾮结构化数据。
⼤数据是指庞⼤的数据集,它们有着⽐以往更⼤的容量(volume,按数量级)、更⾼的多样性(variety)和复杂性,以及更快的⽣成速度(velocity)。这三个关键特性有时被称为⼤数据的三个 V。
⾮结构化数据本质上是异构和可变的,同时具有许多格式,包括⽂本、⽂档、图形、视频等等。⾮结构化数据的增长速度⽐结构化数据的增长速度更快。根据 2011 年的 IDC 调查,3 它将占未来⼗年所创造
数据的 90%。作为⼀个新的尚未开发的信息源,⾮结构化数据分析可揭露之前很难或⽆法确定的重要相互关系。
⼤数据分析是⼀项技术推动的战略,旨在获得更加丰富、深⼊和更加准确的客户、合作伙伴以及商业洞察,并最终获得竞争优势。通过处理稳定的实时数据流,与以往相⽐,组织可更加快速地做出时间敏感的决策、监控最新趋势、快速调整⽅向并抓住新的商机。
⼤数据对 IT 部门的影响
⼤数据极具爆发⼒,为 IT 组织同时带来了机会和挑战。为发掘它的全部潜能,⼤数据分析需要使⽤全新⽅法来捕获、存储和分析数据。
三个 V 概括了⼤数据的主要特点,同时定义了 IT 部门需要解决的主要问题:
容量
⾮结构化数据的⼤规模和增长超过了传统存储和分析解决⽅案的发展速度。
多样性
可从之前从未考虑过的来源收集⼤数据。传统的数据管理流程⽆法处理异构和可变的⼤数据,这些数据可能来⾃不同的格式,如电⼦邮件、社交媒体、视频、图像、博客和传感器数据,以及“阴影数据”,如访问⽇志和⽹络搜索历史记录。
速度
数据实时⽣成,同时要求按需提供可⽤信息。
这三个 V 的组合还推动了第四个因素:价值。对于任何希望成功地从⼤数据获取价值的企业来说,必须平⾏解决容量、多样性和速度问题。不全⾯的解决⽅案绝不可取。
基础设施挑战
Hadoop* 和 MapReduce 等新兴技术设计⽤于应对⼤数据的三个 V。它们还对⽀持⾮结构化数据分析的分布式处理的基础设施提出了很⾼要求,这些要求包括以下:
为⼤规模分布式数据密集型作业⽽设计的基础设施,将问题分布到整个集服务器节点
经济⾼效的存储,⾜以捕获和存储 TB 级别(如果不是 PB 级别)的数据,拥有智能能⼒来减少数据⾜迹,如数据压缩、⾃动数据分层和重复数据删除
缩、⾃动数据分层和重复数据删除
可快速导⼊⼤型数据集然后复制到各节点进⾏处理的⽹络基础设施
保护⾼度分布式基础设施和数据的安全能⼒
使⽤统计数据、算法、数据挖掘和可视化技术识别机会所需的⼈⼒资源技能组合
数据科学家的兴起
寻技能熟练的⼈才是与⼤数据分析相关的主要挑战之⼀。成功的⼤数据分析计划要求 IT 部门、业务⽤户和 “数据科学家” 之间的紧密协作,以识别和实施可解决正确商业问题的分析。数据科学是⼀个新兴领域,同时数据科学家是拥有特殊技能的全新专业⼈员。数据科学家负责为复杂的业务问题建模、发现业务洞察并识别机会。对于这种能够将流⼊组织的⼤量数字信息流变成有⽤信息的⼈员,市场需求很⼤。
⽀持⼤数据分析的新兴技术
新技术正在不断出现,使得⾮结构化数据分析变得可⾏和经济⾼效。通过充分利⽤计算资源的分布式⽹格的能⼒,新⽅法重新定义了管理和分析数据的⽅式。它使⽤了可轻松扩展的 “⽆共享”(SNA)架构、分布式处理框架以及⾮关系和平⾏关系数据库。
⽆共享架构是⽆状态的,没有节点共享内存或磁盘存储,因硬件、数据管理和分析应⽤技术发展的融合⽽成为可能。
硬件架构
商⽤服务器的集为在整个分布式⽹格的⼤量并⾏处理提供了计算能⼒和速度。
分析应⽤架构
新的数据处理系统通过管理和推送数据到单个节点、发送指⽰给联⽹服务器以并⾏运⾏、收集单个结果,然后重组数据以⽣成有意义的结果,从⽽确保计算⽹格正常运⾏。在驻留地点处理数据⽐⾸先传输数据到集中系统进⾏处理更加快速⾼效。
数据架构
为处理⾮结构化数据的多样性和复杂性,数据库从关系型转为⾮关系型。与结构化、规范化和密集填充的关系数据库不同,⾮关系数据库可扩展、以⽹络为主导、半结构化并松散填充。NoSQL 数据库解决⽅案⽆需固定表格模式,避免连接操作并可⽔平扩展。
分布式框架:Apache* Hadoop* 的出现
Apache* Hadoop 正在演进为⾮结构化数据分析的最佳新兴⽅法。Hadoop 是⼀个开源架构,使⽤简单的编程模型以允许在计算机集中分布式处理⼤数据集。完整的技术堆栈包括常⽤设施、分布式⽂件系统、分析和数据存储平台,以及管理分布式处理、并⾏计算、⼯作流程和配置管理的应⽤层。除了提供⾼可⽤性之外,较传统⽅法相⽐,Hadoop 是⼀种更加经济⾼效的⼤型⾮结构化数据集处理⽅法,同时提供极⼤的可扩展性和速度。
随着越来越多的企业意识到与⼤数据相关的价值和优势,Hadoop 的采⽤正不断增长。Apache 在 2012 年 1 ⽉推出了Apache Hadoop 1.0 的⾸个完整⽣产版本。
Hadoop ⽣态系统
Hadoop 的商⽤版本也呈增长趋势。Hadoop ⽣态系统是⼀个复杂的⼚商和解决⽅案的联合,包括⽼牌⼚商和若⼲新⼚商。众多⼚商都提供了他们⾃⼰的 Hadoop 分发,并集合了其他 Hadoop 项⽬的基本堆栈,如 Hive*、Pig* 和Chukwa*。其中⼀些分发可与数据仓库、数据库和其他数据管理产品集成,允许分析引擎访问和查询多个来源的数据。Hadoop 基础设施:⼤数据存储和⽹络
Hadoop 集通过主流计算和存储资源的极⼤改进⽽成为可能,并补充了万兆位以太⽹(10 GbE)解决⽅案。10 GbE 带来的带宽增长是导⼊和复制(在多台服务器之间)⼤型数据集的关键。轮胎101网
⼤数据和云的情况如何?
随着云计算的出现,组织现在可访问他们⾃⼰的联⽹服务器数据中⼼和 Amazon* ⽹络服务等公共云基础设施服务中的⼤型社区计算机⽹格。在⼤数据时代,云为数据分析提供了潜在的⾃助计算模型。云计算和⼤数据分析都是虚拟化技术和⽹格计算模型的延伸,使得云成为可以远低于传统数据平台的成本提供业务⽀持的灵活数据平台。Hadoop 正快速演进为云中⼤数据的实际框架。
博为⼤数据平台如何提供帮助
博为⼤数据平台是⼀家⼤数据服务的⾼新技术企业,可为您提供以下⼤数据服务:
异构软件接⼝数据连通
历史数据迁移
软件数据功能扩展定制
异构软件数据互操作定制
⼤数据应⽤平台