现代社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云在台演讲中就提到,未来的时代既是IT时代,也是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。

大数据案例

  • ·1.洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
  • ·2.google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
  • ·3.统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。
  • ·4.麻省理工学院利用手机定位数据和交通数据建立城市规划。
  • ·5.梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
  • ·6.医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
种种迹象表明,大数据正在形成越来越猛的发展势头。近百上市公司纷纷抢滩,多领域应用受到追捧,面临巨大的投资机遇。尤其是大数据应用型公司大受欢迎,全产业链垂直领域,吸引了众多投资者的关注。

  • 数据分析师

    对数据挖据后进行展现,呈现清晰、准确且有数据支撑的报告,了解运营情况

    平均年薪:10万以上

  • 数据挖掘分析师

    负责数据的分析和挖掘及平台建设,发现潜在规律,建立数据挖掘算法并优化

    平均年薪:15万以上

  • 首席数据官

    制定客户数据管理策略并且实现数据的准确性和制定工作流程的需求目标

    平均年薪:50万以上

  • 大数据监控工程师

    将数据模型转化为实际应用;负责日志监控分析系统架构设计和数据分析;

    平均年薪:25万以上

  • 数据可视化工程师

    对数据和展现的交互行为进行开发工作,从而转化为web相关产品

    平均年薪:10万以上

  • 大数据应用开发工程师

    负责使用java技术进行行业大数据平台建设、挖掘的设计和研发

    平均年薪:30万以上

  • 大数据运维工程师

    制定网络安全相关技术规范标准,对系统安全评估及安全体系制度的建设

    平均年薪:15万以上

  • 运维架构师

    负责制定和实施网络、安全相关技术规范、标准,进行系统安全体系制度的建设

    平均年薪:60万以上

  • 数据中心架构师

    研究数据中心行业的专业技术方向及系统架构,决策数据中心设施相关的整体架构

    平均年薪:40万以上

  • 大数据系统研发工程师

    构建数据存储和计算,对现有系统进行分析,找到瓶颈及改进算法,提高系统性能

    平均年薪:10万以上

  • 阶段一
  • 阶段二
  • 阶段三
  • 阶段四
  • 阶段五
  • 阶段六
  • Java面向对象: 变量、条件结构、循环、数组、封装、继承、多态、接口、抽象类与方法
  • Java核心开发: 语言核心包、异常处理、常用工具包、集合框架、多线程、IO输入输出流、Java反射机制、Java泛型
  • Linux基础知识: Linux简介与安装部署、熟悉图形化界面、Linux基础命令用户和权限管理、软件包安装
  • Linux管理: 磁盘管理、日志管理、进程管理、服务管理、任务计划、ssh远程管理、rsync远程同步、selinux、常见故障排除、基本网络配置
  • Linux进阶: dhcp服务、pxe网络装机、samba服务、vsfptd服务、apache服务、Tomcat服务
  • Linux Shell编程: Shell的作用及分类、Bash的常用功能、设置和使用Shell变量、编写Shell脚本、条件测试的应用、使用if条件语句、for、while循环语句、for、while循环语句、函数使用
  • 大数据概论: 大数据背景、认识Hadoop、Hadoop架构和组件、Hadoop生态系统、Hadoop经典落地案例、Hadoop安装和部署
  • 分布式文件系统HDFS: HDFS特性和目标、HDFS核心设计、HDFS体系结构、HDFS中数据流的读写、HDFS的HA机制、HDFS的Federation机制、文件压缩、文件序列化
  • 并行计算框架MapReduce: MapReduce编程模型、WordCount编程实例、MapReduce架构、MapReduce类型与格式、剖析MapReduce作业运行机制、shuffle和排序、任务执行与作业调度、YARN平台架构、MapReduce高级开发
  • 数据仓库Hive: Hive基本概念、Hive数据类型和文件编码、HiveQL数据定义与数据操作、HiveQL:查询、视图和索引、Hive内置函数和UDF
  • ETL工具Sqoop: Sqoop介绍、安装部署Sqoop、Sqoop使用流程、Sqoop实战案例
  • 工作流引擎Azkaban: Azkaban简介、安装部署与配置、使用Azkaban、创建工作流、执行工作流、任务页面查看与系统统计
  • 分布式协调系统Zookeeper: 安装、运行ZooKeeper、ZooKeeper实例、Zookeeper选举机制、Zookeeper服务、使用ZooKeeper构建应用
  • 列式数据库HBase: HBase分布式数据库介绍、HBase的核心功能模块、HBase的使用场景和经典案例、HBase基本概念、HBase表结构设计、Shell命令行工具、Java客户端、核心概念、高级特性 戏
  • 实时计算框架Storm: 实时流计算Storm、核心组件、Storm特性、Storm应用于什么场景、使用Storm、核心概念和数据流模型、Storm使用综合案例
  • 消息订阅分发系统Kafka: Kafka介绍、Kafka原理与架构、Kafka使用场景、Kafka的核心概念、Kafka安装与部署、Kafka文件消费者案例
  • 海量日志采集系统Flume: Flume简介、Flume安装、Flume内部原理、Source、Channel、Sink、Flume应用案例
  • 函数式编程Scala: :Scala基础、控制结构和函数、数组、映射和元组、Scala中的类、辅助构造器、主构造器、单例对象、伴生对象、apply方法、包与作用域、继承、抽象类与抽象字段、文件操作、特质、操作符、update方法、提取器、高阶函数、柯里化、集合、模式匹配、偏函数 优
  • 交互式计算框架Spark: Spark简介、生态系统、Spark架构、Spark集群安装与部署、Spark开发环境配置、Spark应用案例编程、弹性分布式数据集、Spark工作机制、Spark I/O机制、Spark通信模块、Lineage机制、Shuffler机制、Spark SQL运行架构、Spark SQL应用案例、Spark Streaming实时流、GraphX图计算、MLlib体验
  • 数据挖掘与R语言: 数据挖掘算法介绍、分类、聚类、关联规则、决策树、R语言介绍、RStudio安装、常用R包、R语言实现挖掘算法案例
  • 集群运维与调优: 规划Hadoop分布式集群、管理Hadoop集群、Hive调优、HBase调优、CDH的安装部署、HDP的安装部署