
企业数据湖
- 大小:179.4 MB
- 类型:电子书
- 格式:PDF
- 出版:机械工业出版社
- 作者:汤姆斯·约翰
- 更新:2022-07-06 22:14:22
这是一个关于大数据相关的电子书资料,由机械工业出版社出版,作者是汤姆斯·约翰,介绍了关于大数据、企业数据湖方面,格式为PDF,资源大小179.4 MB,目前在大数据类资源综合评分为:7.5分。
内容介绍
本书分为三个主要部分。*部分介绍了数据湖的概念、企业中数据湖泊的重要性,以及Lambda架构的*新进展。第二部分将深入研究使用Lambda架构构建数据湖的主要组件,介绍了一些流行的大数据技术,如Apache Hadoop、Spark、Sqoop、Flume和弹性搜索。第三部分以实际操作的方式展示如何实现一个企业数据湖,并介绍了几个实际的用例,而且展示了如何将其他外围组件添加到湖中以提高效率。在本书的*后,读者将能够选择正确的大数据技术,使用lambda架构模式来构建企业数据湖。
通过阅读本书,你将:
·使用大数据技术构建企业级数据湖。
·掌握Lambda架构的精髓,以及如何在企业内使用它。
·学习与Apache Sqoop及其功能相关的技术细节。
·Kafka与Hadoop组件集成,用于获取企业数据。
·使用Flume进行流式数据处理。
·理解Flink与流式数据处理的关系。
·Hadoop生态圈组件的协同使用,以及它们能带来的好处。
·使用Elastic Stack构建快速、流式、高吞吐应用。
·确保数据摄取处理在不同数据格式配置时的一致性。
目录
- 译者序
- 推荐序
- 关于作者
- 关于技术审核人员
- 前言
- 第一部分 概述
- 第1章 数据导论 2
- 1.1 探索数据 3
- 1.2 什么是企业数据 4
- 1.3 企业数据管理 5
- 1.4 大数据相关概念 6
- 1.5 数据与企业的相关性 8
- 1.6 数据质量 9
- 1.7 企业中数据如何存放 10
- 1.7.1 内联网(企业内部) 10
- 1.7.2 互联网(企业外部) 10
- 1.7.3 数据持久化存储(RDBMS或者NoSQL) 12
- 1.7.4 传统的数据仓库 13
- 1.7.5 文件存储 13
- 1.8 企业现状 14
- 1.9 企业数字化转型 15
- 1.10 数据湖用例启示 16
- 1.11 总结 17
- 第2章 数据湖概念概览 18
- 2.1 什么是数据湖 18
- 2.2 数据湖如何帮助企业 19
- 2.3 数据湖是如何工作的 20
- 2.4 数据湖与数据仓库的区别 21
- 2.5 数据湖的构建方法 22
- 2.6 Lambda架构驱动的数据湖 22
- 2.6.1 数据摄取层——摄取数据用于处理和存储 23
- 2.6.2 批处理层——批量处理已提取数据 23
- 2.6.3 快速处理层——近实时数据处理 24
- 2.6.4 数据存储层——存储所有数据 24
- 2.6.5 服务层——数据交付与导出 25
- 2.6.6 数据获取层——从源系统获取数据 25
- 2.6.7 消息层——数据传输的保障 26
- 2.6.8 探索数据摄取层 27
- 2.6.9 探索Lambda层 28
- 2.7 总结 35
- 第3章 Lambda架构:一种数据湖
- 实现模式 36
- 3.1 什么是Lambda架构 36
- 3.2 Lambda 架构简史 37
- 3.3 Lambda架构的原则 37
- 3.3.1 容错原则 38
- 3.3.2 不可变数据原则 38
- 3.3.3 重新计算原则 38
- 3.4 Lambda架构的组件 38
- 3.4.1 批处理层 39
- 3.4.2 快速处理层 41
- 3.4.3 服务层 43
- 3.5 Lambda架构的完整工作原理 44
- 3.6 Lambda架构的优势 45
- 3.7 Lambda架构的劣势 46
- 3.8 Lambda架构技术概览 46
- 3.9 应用Lambda 47
- 3.9.1 企业级日志分析 47
- 3.9.2 获取和分析传感器数据 47
- 3.9.3 电子邮件平台实时统计 48
- 3.9.4 实时赛事分析 48
- 3.9.5 推荐引擎 48
- 3.9.6 安全威胁分析 48
- 3.9.7 多渠道用户行为分析 48
- 3.10 Lambda架构运行范例 48
- 3.11 Kappa架构 49
- 3.12 总结 50
- 第4章 数据湖中的Lambda应用 51
- 4.1 Hadoop发行版本介绍 51
- 4.2 影响企业大数据技术栈选择的因素 53
- 4.2.1 技术能力 53
- 4.2.2 是否易于部署和维护 53
- 4.2.3 集成准备 53
- 4.3 批处理层与数据处理 53
- 4.3.1 NameNode服务器 54
- 4.3.2 Secondary NameNode服务器 55
- 4.3.3 YARN 55
- 4.3.4 数据存储节点 55
- 4.3.5 快速处理层 56
- 4.3.6 Flume用于数据获取 57
- 4.3.7 Spark Streaming 58
- 4.4 服务层 62
- 4.4.1 数据存储层 62
- 4.4.2 数据访问层 63
- 4.5 总结 64
- 第二部分 数据湖的技术组件
- 第5章 基于Apache Sqoop的批量数据获取 68
- 5.1 数据湖背景中的数据获取 68
- 5.1.1 数据获取层 68
- 5.1.2 批量数据获取——技术路线图 69
- 5.2 为什么使用Apache Sqoop 70
- 5.2.1 Sqoop简史 71
- 5.2.2 Sqoop的优势 71
- 5.2.3 Sqoop的劣势 72
- 5.3 Sqoop的功能 72
- 5.3.1 Sqoop 2的架构 74
- 5.3.2 Sqoop 1与Sqoop 2 75
- 5.3.3 Sqoop的功能 77
- 5.3.4 使用Sqoop导入数据 77
- 5.3.5 使用Sqoop导出数据 78
- 5.4 Sqoop connector 79
- 5.5 Sqoop对HDFS的支持 81
- 5.6 Sqoop运行范例 81
- 5.6.1 安装与配置 81
- 5.6.2 数据源配置 90
- 5.6.3 Sqoop配置(数据库驱动) 91
- 5.6.4 将HDFS配置为目的地 91
- 5.6.5 Sqoop数据导入 91
- 5.6.6 Sqoop数据导出 97
- 5.6.7 Sqoop job 98
- 5.6.8 Sqoop 2 99
- 5.6.9 SCV用例视角中的Sqoop 102
- 5.7 适合使用Sqoop的场景 103
- 5.8 不适合使用Sqoop的场景 104
- 5.9 实时Sqooping是否可行 104
- 5.10 其他选项 104
- 5.10.1 原生大数据connector 105
- 5.10.2 Talend 106
- 5.10.3 Pentaho Kettle(PDI——Pentaho数据集成) 106
- 5.11 总结 106
- 第6章 基于Apache Flume的流式数据获取 108
- 6.1 数据获取 108
- 6.1.1 什么是流式数据 109
- 6.1.2 批量数据和流式数据 110
- 6.1.3 流式数据获取——技术路线图 110
- 6.1.4 什么是Flume 111
- 6.1.5 Sqoop和Flume 112
- 6.2 为什么使用Flume 113
- 6.2.1 Flume简史 113
- 6.2.2 Flume的优势 113
- 6.2.3 Flume的劣势 114
- 6.3 Flume的架构原则 114
- 6.4 Flume架构 115
- 6.4.1 Flume 架构之一:分布式数据流水线 116
- 6.4.2 Flume 架构之二:扇出 117
- 6.4.3 Flume 架构之三:扇入 117
- 6.4.4 Flume架构中的3层设计 118
- 6.4.5 高级Flume架构 118
- 6.4.6 Flume的可靠性级别 120
- 6.5 Flume事件——流式数据 120
- 6.6 Flume Agent 120
- 6.7 Flume Source 122
- 6.8 Flume Channel 123
- 6.9 Flume Sink 125
- 6.10 Flume配置 126
- 6.11 Flume事务管理 127
- 6.12 Flume的其他组件 128
- 6.12.1 Channel Processor 128
- 6.12.2 Interceptor 129
- 6.12.3 Channel Selector 129
- 6.12.4 Sink Group 130
- 6.12.5 事
以上就是本次关于书籍资源的介绍和部分内容,我们还整理了以往更新的其它相关电子书资源内容,可以在下方直接下载,关于相关的资源我们在下方做了关联展示,需要的朋友们也可以参考下。
大数据相关资源
-
数据模型资源手册(卷3):数据模型通用模式 电子书
本书采用了类设计模式的方式对数据模型进行高度抽象总结,同时作者对数据模型的抽象程度做了等级划分,对卷一提到的各种数据模型在不同的抽象程度下设计出来的数据模型做详细的分析
大小:116 MB数据模型
-
Power Query:用Excel玩转商业智能数据处理 电子书
要是工作中有构思、有念头,就能够应用PowerQuery把某些繁杂的报表,转化成能够便捷统计分析的移动数据,随后对移动数据开展载入、统计分析、剖析、数据图表展现 特惠赠予《M语言函数语
大小:28.7 MBExcel
-
大数据架构和算法实现之路:电商系统的技术实战 电子书
本书介绍了一些主流技术在商业项目中的应用,包括机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念及常用的消息和缓存机制。在这个过程中
大小:138 MB大数据
-
云数据中心网络与SDN:技术架构与实现 电子书
本书解读了4个层面的內容。1.对SDDCN的背景专业知识开展详细介绍,包括传统式的大数据中心网络和SDN,并对SDDCN的统筹规划开展概括性的详细介绍。2.对SDDCN的典型性的商用、开源计划方案开展
大小:326 MB云数据
-
数据产品经理修炼手册:从零基础到大数据产品实践 电子书
《数据产品经理修炼手册从零基础到大数据产品实践》共8章,全方位和详细地详细介绍了统计数据产品运营的日常事务、必须的基本知识和常见的统计分析方法,也详细介绍了数据仓库的基础
大小:51 MB大数据产品
-
数据库原理与应用(第2版) 课后答案
《数据库原理与应用教程(第2版)》全面介绍数据库系统的基本概念和基本理论,涉及目前流行的SQLServer2000的功能、使用方法以及在VisualBasic6.0中开发数据库前端应用的方法。具体内容包括安装和配置SQLServer、在SQLServer环境中创建数据库和表、安全管理、数据传输、备份和恢复、数据库的应用程序和数据库访问技术、VisualBasic6.0的ADO数据控件技术等。 《数据库原理与应用教程(第2版)》可作为高校非计算机专业本、专科学生的教材,也可作为计算机专
大小:507 KB数据库
-
Hadoop海量数据处理:技术详解与项目实战 电子书
Hadoop海量数据处理:技术详解与项目实战 作者:范东来 著 出版时间:2015年版 《Hadoop海量数据处理:技术详解与项目实战》介绍了Hadoop技术的相关知识,并将理论知识与实际项目相结合。全书共分为三个部分:基础篇、应用篇和总结篇。基础篇详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop,并深入探讨了Hadoop的运维和调优;应用篇则包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现;结束篇对全书进行总结,并对技术发展做了展望。《
大小:47.83MBHadoop
-
Python3爬虫、数据清洗与可视化实战 电子书
这是一套通过实战教初学者学习采集数据、清洗和组织数据进行分析及可视化的Python读物。以Python爬虫技术应用实战为主,适合Python 初学者及高等院校的相关专业学生
大小:232.8 MBPython3
-
《大数据分析师权威教程:大数据分析与预测建模》配套资源
内容简介 大数据已连年入选IT领域的热点话题,人们每天都会通过互联网、移动设备等生产大量数据。如何从海量数据中洞悉出隐藏其后的见解是当今社会各领域人士极为关注的话题。本系列图书以大数据分析师应掌握的IT技术为主线,共分两卷,以7个模块(第1卷包括4个模块,第2卷包括3个模块)分别介绍大数据入门,分析和R编程入门,使用R进行数据分析,用R进行高级分析,机器学习的概念,社交媒体、移动分析和可视化,大数据分析的行业应用等核
大小:137 MB数据分析
-
胸有成竹!数据分析的SAS EG进阶 电子书
胸有成竹!数据分析的SAS EG进阶 共5章,涉及使用SAS EG做数据分析的主要分析方法。其中,第1章为数据分析方法概述,第2章至第4章为横截面数据分析方法。第5章为时间序列分析方法。每章都
大小:36.9 MB数据分析
mysql 存储过程判断重复的不插入数据
mysql存储过程中 下面是一个较常见的场景,判断表中某列是否存在某值,如果存在执行某操作 需要注意的是不能用if exists; exists可以在where后面或者在create object是使用,但是在if语句中不可以使用,只能用变通的方法。 delimiter $$……