人气:72 教学点:1个 滚动开班
课程来源:深圳千锋教育
咨询电话
大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。如果您对大数据感兴趣就来千锋教育,如果您感兴趣就来千锋教育,千锋教育致力于为企业提供全方位综合人才服务等,下面有更详细的课程介绍。
1.Avro与Protobuf。Avro与Protobuf均是数据序列化系统,可以提供丰富的数据结构类型,十分适合做数据存储,还可进行不同语言之间相互通信的数据交换格式,学习大数据,需掌握其具体用法。
2.ZooKeeper。ZooKeeper是Hadoop和Hbase的重要组件,是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组件服务等,在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。
3.Kafka。Kafka是一种高吞吐量的分布式发布订阅消息系统,其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现!
想从事大数据岗位人群
线上直播、线上录播、根据课程制定
随到随学
从入门到精通
成为大数据分析师人才
全面掌握所学企业实用技能
高薪入职国内外名企成就自我
免费试学,简历指导,面试模拟,推荐全国就业;
理论知识+项目实操+案例详解+助教督学+就业指导;
真实项目实战,课程内容更新迭代快,适应当前技术发展需要
项目介绍
随着互联网的发展,数据源头越来越多且是分散的,除了业务库,APP 埋点,web 网站 log,LOT 设备等会产生各种各样的海量数据,这些数据在进入数据仓库之前(或之后),需要进行统一(字段定义、主题归属、项目划分等),数据集成在一起。离线数仓的ETL,涵盖数据的抽取转换与加载。
项目目标
在数据仓库中构建模型,从数据源中抽取数据,然后对这些数据进行转化,最终加载到目标数据库或者数据仓库中去,实现离线数仓ETL的过程。
项目介绍
企业信息化发展,数据源丰富,数据量比以往结构化的数据大了几个量级,对 ETL 过程、存储都提出了更高的要求。互联网的在线特性也对实时性提出了要求,如用户反欺诈、用户审核等随着用户的暴涨。实时数据开发,主要是对由用户行为、业务行为等产生的巨大量数据进行实时处理,并应用到生产中。
项目目标
基于分层的模型 ods/dwd/dws/,业务数据和日志数据,事实数据存储在 kafka 中,维度数据存储在 Hbase/Tair 中,dm 层的数据最终导出到 mq/olap/rds/kv 中。ad-hoc 查询基于 Flink 来做。实时数仓的存储需考虑支持数据重放,方便支持任务重跑。选择一个具有重放功能的、能够保存历史数据并支持多消费者的消息队列,根据需求设置历史数据保存的时长,通过实时数据开发,建成实时数仓、实时指标等,支撑企业链路的实时化。
项目介绍
大数据采集与指标监控项目是基于第一阶段和第二阶段课程,贯穿离线数据上报、数据储存、数据服务监控、数据分析等全套流程。整个项目包括Flume自定义拦截器代码、自定义Azkaban监控代码和SQL相关指标代码开发。
项目目标
解决离线数据上报流程,数据采集操作,flume和azkaban的二次开发,数据服务监控,离线数据开发流程。
项目介绍
HDFS+Flume+Sqoop+数仓思想+Spark
SQL/Hive+Azkaban+Python+Shell+Superset大数据离线数仓解决方案。
项目目标
1 采集和同步架构组件采用: Sqoop+Flume
2数仓架构组件采用:HDFS+SparkSQL/Hive
3 任务调度架构采用:Azkaban+Python/Shell
4 涉及到数仓思想: 分层+建模+维度+粒度+拉链+增量/全量+数据质量等
5 本项目中的BI工具: Superset
项目介绍
准实时数仓是一个集流式数据集成,数据分析、DAU预测和数据应用的数仓型项目。整个项目架构为Nginx+OpenResty+Kafka+Spark+Presto等技术构成。
项目目标
解决事件行为分析。
解决企业留存分析。
解决漏斗分析。
解决DAU预测及数据服务提供。
项目介绍
用户画像是基于数仓之上的项目,主要解决画像标签服务,比如人群圈定服务和相似用户搜索服务等。同时标签的处理使用Word2Vec、TF-IDF、HanLP分词等技术。
项目目标
解决企业人群圈定。
解决相似用户搜索。
过去几年,大数据理念已经深入人心,“用数据说话”已经成为所有人的共识,数据也成了堪比石油、黄金、钻石的战略资源。多年来,我国大数据产业政策日渐完善,技术、应用和产业都取得了非常明显的进展。未来大数据技术将会沿着工具平台云化部署、多业务场景统一处理、专有高性能硬件适配几个方面进行突破。
目前大数据技术工具的主要应用模式为应用企业在自建机房内独立部署,其存在资源浪费、弹性能力不足、管理复杂等缺点,这些缺陷可以通过基于云计算技术的云化部署方案解决,助力大数据技术工具的快速落地和应用;同时大数据技术工具主要瞄准的是分析型业务场景,但随着电子商务以及智能终端的爆发性发展,转账等事务型业务场景也需要大数据处理能力,所以未来的多业务场景统一处理技术将会得到充分发展。