25个⼤数据专业术语⼊门⼤数据必备知识
如果你初来乍到,⼤数据看起来很吓⼈!根据你掌握的基本理论,让我们专注于⼀些关键术语以此给你的约会对象、⽼板、家⼈或者任何⼀个⼈带来深刻的印象。
让我们开始吧:
1.算法。“算法”如何与⼤数据相关?即使算法是⼀个通⽤术语,但⼤数据分析使其在当代更受青睐和流⾏。
2.分析。年末你可能会收到⼀份来⾃信⽤卡公司寄来的包含了全年所有交易记录的年终报表。如果你有兴趣进⼀步分析⾃⼰在⾷物、⾐服、娱乐等⽅⾯具体花费占⽐呢?那你便是在做“分析”了。你正从⼀堆原始数据中来吸取经验,以帮助⾃⼰为来年的消费做出决策。如果你正在针对整个城市⼈对Twitter或Facebook的帖⼦做同样的练习呢?那我们便是在讨论⼤数据分析了。⼤数据分析的实质是利⽤⼤量数据来进⾏推断和讲故事。⼤数据分析有3种不同到的类型,接下来便继续本话题进⾏依次讨论。
3.描述性分析。刚刚如果你告诉我,去年你的信⽤卡消费在⾷物上花费了25%、在服装上花费了35%、娱乐活动上花费了20%、剩下的就是杂七杂⼋的事项,这种便是描述性分析。当然你还可以参考更多的细节。
4.预测分析。如果你根据过去5年的信⽤卡历史记录来进⾏分析,并且划分具有⼀定的连续性,则你可以⾼概率预测明年将与过去⼏年相差⽆⼏。此处需要注意的细节是,这并不是“预测未来”,⽽是未来可能会发⽣的“概率”。在⼤数据预测分析中,数据科学家可能会使⽤类似机器学习、⾼级的统计过程(后⽂将对这些术语进⾏介绍)等先进的技术去预测天⽓、经济变化等。
5.规范分析。沿⽤信⽤卡交易的案例,你可能想要出哪⽅⾯的⽀出(级⾷品、服装、娱乐等)对⾃⼰的整体⽀出产⽣巨⼤的影响。规范分析建⽴在预测分析的基础之上,包含了“⾏动”记录(例如减少⾷品、服装、娱乐⽀出),并分析所得结果来“规定”最佳类别以减少总体⽀出。你可以尝试将其发散到⼤数据,并设想⾼管们如何通过查看各种⾏动的影响来做出数据驱动的决策。
6.批处理。虽然批量数据处理在⼤型机时代就早已出现,但⼤数据交给它更多⼤数据集处理,因此赋予了批处理更多的意义。对于⼀段时间内收集到的⼀组事务,批量数据处理为处理⼤量数据提供了⼀种有效的⽅法。后⽂将介绍的Hadoop便是专注于批量数据处理。
7. Cassandra是由Apache Software Foundation管理的⼀款流⾏的开源数据库管理系统。很多⼤数据技术都归功于Apache,其中Cassandra的设计初衷便是处理跨分布式服务器的⼤量数据。
8. 云计算。显⽽易见云计算已经变得⽆所不在,所以本⽂可能⽆须赘述,但为了⽂章的完整性还是佐以介绍。云计算的本质是在远程服务器上运⾏的软件和(/或)数据托管,并允许从互联⽹上的任何地⽅
进⾏访问。
9. 集计算。它是⼀种利⽤多台服务器的汇集资源的“集”来进⾏计算的奇特⽅式。在了解了更多技术之后,我们可能还会讨论节点、集管理层、负载平衡和并⾏处理等。
10. ⿊暗数据。依我看来,这个词适⽤于那些吓得六神⽆主的⾼级管理层们。从根本上来说,⿊暗数据是指那些被企业收集和处理但⼜不⽤于任何有意义⽤途的数据,因此描述它是“⿊暗的”,它们可能永远被埋没。它们可能是社交⽹络信息流、呼叫中⼼⽇志、会议笔记,诸如此类。⼈们做出了诸多估计,在60-90%的所有企业数据都可能是“⿊暗数据”,但⽆⼈真正知晓。
在这⾥我还是要推荐下我⾃⼰建的⼤数据学习交流qq裙:522189307 , 裙 ⾥都是学⼤数据开发的,如果你正在学习⼤数据 ,⼩编欢迎你加⼊,⼤家都是软件开发党,不定期分享⼲货(只有⼤数据开发相关的),包括我⾃⼰整理的⼀份最新的⼤数据进阶资料和⾼级开发教程,欢迎进阶中和进想深⼊⼤数据的⼩伙伴。上述资料加可以领取
11. 数据湖。当我第⼀次听到这个词的时候,我真的以为有⼈在开愚⼈节的玩笑。但它真的是个术语!数据湖是⼀个原始格式的企业级数据的⼤型存储库。虽然此处讨论的是数据湖,但有必要再⼀起讨论下数据仓库,因为数据湖和数据仓库在概念上是极其相似的,都是企业级数据的存储库,但在清理和与其他数据源集成之后的结构化格式上有所区别。数据仓库常⽤于常规数据(但不完全)。据说数据湖能
够让⽤户轻松访问企业级数据,⽤户真正按需知道⾃⼰正在寻的是什么、如何处理并让其智能化使⽤。
12. 数据挖掘。数据挖掘是指利⽤复杂的模式识别技术从⼤量数据中到有意义的模式、提取见解。这与我们前⽂讨论的使⽤个⼈数据做分析的术语“分析”密切相关。为了提取出有意义的模式,数据挖掘者使⽤统计学(是呀,好⽼的数学)、机器学习算法和⼈⼯智能。
13.数据科学家。我们谈论的是⼀个如此热门的职业!数据科学家们可以通过提取原始数据(难道是从前⽂所说的数据湖中提取的?),处理数据,然后提出新见解。数据科学家所需具备的⼀些技能与超⼈⽆异:分析、统计、计算机科学、创造⼒、故事讲述和理解业务环境。难怪他们能获得如此⾼的薪⽔报酬。
14.分布式⽂件系统。由于⼤数据太⼤⽽⽆法在单个系统上进⾏存储,分布式⽂件系统提供⼀种数据存储系统,⽅便跨多个存储设备进⾏⼤量数据的存放,并有助于降低⼤量数据存储的成本和复杂度。
15. ETL。ETL分别是extract,transform,load的⾸字母缩写,代表提取、转化和加载的过程。 它具体是指“提取”原始数据,通过数据清洗/修饰的⽅式进⾏“转化”以获得 “适合使⽤”的数据,进⽽“加载”到合适的存储库中供系统使⽤的整个过程。尽管ETL这⼀概念源于数据仓库,但现在也适⽤于其它情景下的过程,例如在⼤数据系统中从外部数据源获取/吸收数据。
16. Hadoop。⼈们⼀想起⼤数据就能⽴即想到Hadoop。 Hadoop(拥有可爱的⼤象LOGO)是⼀个开源软件框架,主要组成部分是Hadoop分布式⽂件系统(HDFS),Hadoop部署了分布式硬件以⽀持⼤型数据集的存储、检索和分析。如果你真的想给别⼈留下深刻的印象,还可以谈谈YARN(Yet Another Resource Schedule,另⼀个资源调度器),正如其名,它也是⼀个资源调度器。我由衷佩服这些为程序命名的⼈。为Hadoop命名的Apache基⾦会还想出了Pig,Hive和Spark(没错,它们都是各种软件的名称)。这些名字难道不让你感到印象深刻吗?
17. 内存计算。⼀般来说,任何可以在不访问I / O的情况下进⾏的计算预计会⽐需要访问I/O的速度更快。内存内计算是⼀种能够将⼯作数据集完全转移到集的集体内存中、并避免了将中间计算写⼊磁盘的技术。Apache Spark便是⼀种内存内计算系统,它与I / O相⽐,在像Hadoop MapReduce这样的系统上绑定具有巨⼤的优势。
18. IOT。最新的流⾏语是物联⽹(Internet of things,简称IOT)。IOT是通过互联⽹将嵌⼊式对象(传感器、可穿戴设备、汽车、冰箱等)中的计算设备互连在⼀起,并且能够发送/接收数据。IOT产⽣了⼤量的数据,这为呈现⼤数据分析提供了更多的机会。
19.机器学习。机器学习是为了设计⼀种基于提供的数据能够进⾏不断学习、调整、改进的系统的设计⽅法。机器使⽤预测和统计的算法进⾏学习并专注于实现“正确的”⾏为模式和简见解,随着越来越多的数据注⼊系统它还在不断进⾏优化改进。典型的应⽤有欺诈检测、在线个性化推荐等。
20.MapReduce。MapReduce的概念可能会有点混乱,但让我试⼀试。MapReduce是⼀个编程模型,最好的理解⽅法是将Map和Reduce是看作两个独⽴的单元。在这种情况下,编程模型⾸先将⼤数据的数据集分成⼏个部分(技术术语上是称作“元组”,但本⽂并不想太过技术性),因此可以部署到不同位置的不同计算机上(即前⽂所述的集计算),这些本质上是Map的组成部分。接下来该模型收集到所有结果并将“减少”到同⼀份报告中。 MapReduce的数据处理模型与hadoop的分布式⽂件系统相辅相成。
21.NoSQL。乍⼀听这像是针对传统关系型数据库管理系统(RDBMS)的⾯向对象的SQL(Structured Query Language, 结构化查询语⾔)的抗议,其实NoSQL代表的是NOT ONLY SQL,意即“不仅仅是SQL”。 NoSQL实际上是指被⽤来处理⼤量⾮结构化、或技术上被称作“图表”(例如关系型数据库的表)等数据的数据库管理系统。NoSQL数据库⼀般⾮常适⽤于⼤型数据系统,这得益于它们的灵活性以及⼤型⾮结构化数据库所必备的分布式结构。
22.R语⾔。有⼈能想到⽐这个编程语⾔更糟糕的名字吗?是的,’R’是⼀门在统计计算中表现⾮常优异的编程语⾔。如果你连’R’都不知道,那你就不是数据科学家。(如果你不知道’R’,就请不要把那些糟糕的代码发给我了)。这就是在数据科学中最受欢迎的语⾔之⼀的R 语⾔。
23. Spark(Apache Spark)。Apache Spark是⼀种快速的内存内数据处理引擎,它可以⾼效执⾏需要快速迭代访问数据集的流、机器学习或SQL⼯作负载。Spark通常⽐我们前⽂讨论的MapReduce快很多。
汽车入门24.流处理。流处理旨在通过“连续”查询对实时和流数据进⾏操作。结合流分析(即在流内同时进⾏连续计算数学或统计分析的能⼒),流处理解决⽅案可以被⽤来实时处理⾮常⼤的数据。
25. 结构化和⾮结构化数据。这是⼤数据5V中的“Variety”多样性。结构化数据是能够放⼊关系型数据库的最基本的数据类型,通过表的组织⽅式可以联系到任何其他数据。⾮结构化数据则是所有不能直接存⼊关系数据库中的数据,例如电⼦邮件、社交媒体上的帖⼦、⼈类录⾳等。