首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。
Java :只要了解一些基础即可,做大数据不需要很深的Java 技术,学java SE 就相当于有学习大数据基础。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。
Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。
Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。
Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。
Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。
那么大数据从0开始需要学习些什么内容呢?可以先从这里开始:
1、0基础学习大数据需要Java基础
可以说是大数据最基础的编程语言,一是大数据的本质是海量数据的计算,查询与存储,后台开发很容易接触到大数据量存取的应用场景;二是Java天然的优势,大数据的组件很多是用Java开发的。
零基础小白想学习大数据,需要从Java基础开始学起,可以把Java语言作为第一个入门语言。一般来说,学会JavaSE就可以了,但能掌握JavaEE的话会更好。
2、学习Linux系统管理、Shell编程设计、Maven
大数据技术往往运行在Linux环境下,大数据的分布式集群(Hadoop,Spark)都是搭建在多台Linux系统上,对集群的执行命令都是在Linux终端窗口输入......想从事大数据相关工作,需要掌握Linux系统操作方法和相关命令。
如何自学大数据自学大数据方法
3、第三阶段:主要学习java的三大框架,SSM框架,说实在的,现在学完这个框架也只能简单的找一份五六千的工作,大学生出来大部分也都会做!4、第四阶段:到这个阶段,你会真正接触到大数据,学习大数据的知识,学完能够独立开发爬虫系统,能够独立开发搜索系统,能够完成实时数据采集、存储、计算及商业应用。
想学习大数据 ,零基础应该如何学习,从哪方面入手? - 知乎
初学者可从数据分析入手,分为三个阶段。第一阶段学习数据库管理,掌握关系型数据库及SQL语言,理解数据存储与检索的基础。第二阶段掌握数据分析工具,从Excel、BI工具等入手,逐渐提升数据分析能力。第三阶段学习编程语言,以Python为代表,结合Hadoop、Spark等大数据平台,实现数据分析任务。积累行业知识对大...
大数据如何学习 基础必须先读懂
1、首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。学会了这些的话这无疑是极好的开头和奠基,可谓是赢在了起跑线上,接收和吸收大数据领域的知识会比一般人更加得心应手。2、Java:只要了解一些基础即可,做大数据不需要很深的Java技术,学javaSE就相当于有学习...
小白怎么入门大数据行业?数据要学哪些知识?
学大数据,在前期主要是打基础,包括java基础和Linux基础,而后才会正式进入大数据技术的阶段性学习。Linux学习主要是为了搭建大数据集群环境做准备,所以以Linux系统命令和shell编程为主要需要掌握的内容。而Java,主要是Java SE,涉及到比较多需要掌握的内容,包括掌握java语言中变量,控制结构,循环,面向对象封...
学大数据需要做哪些准备?
持续学习和适应新技术:大数据领域的技术日新月异,新的工具和框架不断出现。保持好奇心和学习热情,定期参加相关课程和研讨会,阅读行业报告和论文,以跟上技术发展的步伐。加强沟通能力和团队合作能力:数据科学家常常需要与不同背景的同事合作,包括项目经理、软件开发人员和业务分析师等。有效的沟通能力和...
零基础学习大数据怎么学?
第一阶段:Java语言基础(只只需要学习Java的标准版JavaSE就可以了,做大数据不需要很深的Java 技术,当然Java怎么连接数据库还是要知道);第二阶段:Linux精讲(因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop...
大数据需要学习什么
1、学习大数据首先要学习Java基础 如何进行大数据学习的快速入门?在学习大数据课程之前,必须学习计算机编程语言.Java是大数据学习所需的编程语言基础,因为大数据开发是基于常用的高级语言.此外,学习hadoop和数据挖掘都需要编程语言.因此,如果你想学习大数据开发,掌握Java基础是必不可少的.2、学习大数据要学习...
大数据分析师可以零基础学起吗?
1. 入门基础:建立坚实的知识体系。学习统计学、数学、计算机科学等相关领域的基础知识。统计学和数学为数据分析提供了理论基础和思维方法,而计算机科学则有助于掌握数据处理和分析的工具和技术。2. 实践技能:积累项目经验。通过实际项目来锻炼技能,例如寻找开源数据集或参与实际项目,进行数据清洗、分析、...
如何学习大数据技术?
首先,Java。JavaSE是学习大数据技术的最佳起点,因为JavaEE方向的技术在大数据处理中使用较少,只需要了解即可。熟悉Java的标准版JavaSE,了解如何使用JDBC连接数据库,如JDBC。其次,Linux。由于大数据相关软件均运行在Linux系统上,因此需要扎实掌握Linux,以便在实际应用中熟练使用。接着,Hadoop。这是当前...
大数据学习路线是什么?
阶段一:学习入门知识。在学习之前需要先掌握基本的数据库知识。阶段二:【Java基础】。Java是目前使用最为广泛的编程语言,适合作为大数据应用的开发语言。阶段三:Scala基础。Scala是一种多范式的编程语言。阶段四:Hadoop技术模块。Hadoop是一款支持数据密集型分布式应用并以Apache2.0许可协议发布的开源软件...