大數據作為時下最火熱的IT行業的詞匯,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。隨著大數據時代的來臨,大數據分析也應運而生。如果您對大數據感興趣就來千鋒教育,如果您感興趣就來千鋒教育,千鋒教育致力于為企業提供全方位綜合人才服務等,下面有更詳細的課程介紹。
想從事大數據崗位人群
線下面授、線上直播、線上錄播、根據課程制定
隨到隨學
從入門到精通
成為大數據分析師人才
全面掌握所學企業實用技能
高薪入職國內外名企成就自我
免費試學,簡歷指導,面試模擬,推薦全國就業;
理論知識+項目實操+案例詳解+助教督學+就業指導;
真實項目實戰,課程內容更新迭代快,適應當前技術發展需要
掌握能力
掌握企業級基建環境部署、Hive和Spark數據開發、數據倉庫搭建、數據抽取、數據清洗、數據轉換、數據加載、數據應用和京東離線ETL。
勝任職位
離線數據工程師、數據倉庫工程師、ETL工程師、數據采集工程師、數據支持工程師、BI商業分析師、數據可視化工程師、Hadoop工程師、Spark工程師
技術點
Java、MySQL、Maven、Git、OpenResty、Linux、Shell、HDFS、YARN、Zookeeper、MapReduce、Scala、Python、SparkCore、Hive、SparkSQL、Presto、Sqoop、DataX、Flume、CDH、數倉架構、維度建模、SuperSet、Azkaban、Airflow等。掌握企業級基建環境部署、Hive和Spark數據開發、數據倉庫搭建、數據抽取、數據清洗、數據轉換、數據加載、數據應用和京東離線ETL。
項目
數據服務、大數據可視化、企業級Hadoop基建項目部署、分布式網絡爬蟲、基于Spark的大數據分析項目、ETL項目之Hive和SparkSQL、BI商業分析等。
掌握能力
掌握流數據接入、基于Flink實時數據開發、流批一體數據倉庫開發、數據湖開發、實時ETL、實時監控系統和京東實時數據開發
勝任職位
實時工程師、Flink工程師、實時數據倉庫工程師、實時ETL工程師、Spark工程師
技術點
Kafka、Structured Streaming、Hudi、Canal、Flink、ClickHouse、HBase、Phoenix、Elasticsearch、Redis
項目
實時監控系統、基于Flink的實時數據開發、實時數據湖、大數據搜索系統
掌握能力
掌握企業項目開發流程、用戶畫像開發、企業級推薦系統開發、數據治理、基于生產環境項目部署和京東項目性能調優
勝任職位
數據服務工程師、離線數據倉庫開發工程師、BI商業分析師、實時數據倉庫工程師、實時監控系統工程師、ETL工程師、數據可視化工程師、數據治理工程師、高級數據開發工程師、推薦工程、數據平臺工程師、數據架構師
技術點
數據采集與監控平臺、準實時數據倉庫、用戶畫像、推薦系統、基于Flink的實時數據倉庫、元數據管理與數據治理。
千鋒與京東物流合作共建大數據培訓課程體系,企業熱門技術全方位涵蓋 融入真實項目案例和工程實踐創新
項目介紹
隨著互聯網的發展,數據源頭越來越多且是分散的,除了業務庫,APP 埋點,web 網站 log,LOT 設備等會產生各種各樣的海量數據,這些數據在進入數據倉庫之前(或之后),需要進行統一(字段定義、主題歸屬、項目劃分等),數據集成在一起。離線數倉的ETL,涵蓋數據的抽取轉換與加載。
項目目標
在數據倉庫中構建模型,從數據源中抽取數據,然后對這些數據進行轉化,最終加載到目標數據庫或者數據倉庫中去,實現離線數倉ETL的過程。
項目介紹
企業信息化發展,數據源豐富,數據量比以往結構化的數據大了幾個量級,對 ETL 過程、存儲都提出了更高的要求?;ヂ摼W的在線特性也對實時性提出了要求,如用戶反欺詐、用戶審核等隨著用戶的暴漲。實時數據開發,主要是對由用戶行為、業務行為等產生的巨大量數據進行實時處理,并應用到生產中。
項目目標
基于分層的模型 ods/dwd/dws/,業務數據和日志數據,事實數據存儲在 kafka 中,維度數據存儲在 Hbase/Tair 中,dm 層的數據最終導出到 mq/olap/rds/kv 中。ad-hoc 查詢基于 Flink 來做。實時數倉的存儲需考慮支持數據重放,方便支持任務重跑。選擇一個具有重放功能的、能夠保存歷史數據并支持多消費者的消息隊列,根據需求設置歷史數據保存的時長,通過實時數據開發,建成實時數倉、實時指標等,支撐企業鏈路的實時化。
項目介紹
大數據采集與指標監控項目是基于第一階段和第二階段課程,貫穿離線數據上報、數據儲存、數據服務監控、數據分析等全套流程。整個項目包括Flume自定義攔截器代碼、自定義Azkaban監控代碼和SQL相關指標代碼開發。
項目目標
解決離線數據上報流程,數據采集操作,flume和azkaban的二次開發,數據服務監控,離線數據開發流程。
項目介紹
HDFS+Flume+Sqoop+數倉思想+Spark
SQL/Hive+Azkaban+Python+Shell+Superset大數據離線數倉解決方案。
項目目標
1 采集和同步架構組件采用: Sqoop+Flume
2數倉架構組件采用:HDFS+SparkSQL/Hive
3 任務調度架構采用:Azkaban+Python/Shell
4 涉及到數倉思想: 分層+建模+維度+粒度+拉鏈+增量/全量+數據質量等
5 本項目中的BI工具: Superset
項目介紹
準實時數倉是一個集流式數據集成,數據分析、DAU預測和數據應用的數倉型項目。整個項目架構為Nginx+OpenResty+Kafka+Spark+Presto等技術構成。
項目目標
解決事件行為分析。
解決企業留存分析。
解決漏斗分析。
解決DAU預測及數據服務提供。
項目介紹
用戶畫像是基于數倉之上的項目,主要解決畫像標簽服務,比如人群圈定服務和相似用戶搜索服務等。同時標簽的處理使用Word2Vec、TF-IDF、HanLP分詞等技術。
項目目標
解決企業人群圈定。
解決相似用戶搜索。