Siêu thị PDFTải ngay đi em, trời tối mất

Thư viện tri thức trực tuyến

Kho tài liệu với 50,000+ tài liệu học thuật

© 2023 Siêu thị PDF - Kho tài liệu học thuật hàng đầu Việt Nam

Next-Generation Big Data
PREMIUM
Số trang
572
Kích thước
20.1 MB
Định dạng
PDF
Lượt xem
1232

Next-Generation Big Data

Nội dung xem thử

Mô tả chi tiết

Next-Generation

Big Data

A Practical Guide to Apache Kudu, Impala,

and Spark

Butch Quinto

Next-Generation Big Data

A Practical Guide to Apache Kudu,

Impala, and Spark

Butch Quinto

Next-Generation Big Data: A Practical Guide to Apache Kudu, Impala, and Spark

ISBN-13 (pbk): 978-1-4842-3146-3 ISBN-13 (electronic): 978-1-4842-3147-0

https://doi.org/10.1007/978-1-4842-3147-0

Library of Congress Control Number: 2018947173

Copyright © 2018 by Butch Quinto

This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the

material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation,

broadcasting, reproduction on microfilms or in any other physical way, and transmission or information

storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now

known or hereafter developed.

Trademarked names, logos, and images may appear in this book. Rather than use a trademark symbol with

every occurrence of a trademarked name, logo, or image we use the names, logos, and images only in an

editorial fashion and to the benefit of the trademark owner, with no intention of infringement of the

trademark.

The use in this publication of trade names, trademarks, service marks, and similar terms, even if they are not

identified as such, is not to be taken as an expression of opinion as to whether or not they are subject to

proprietary rights.

While the advice and information in this book are believed to be true and accurate at the date of publication,

neither the authors nor the editors nor the publisher can accept any legal responsibility for any errors or

omissions that may be made. The publisher makes no warranty, express or implied, with respect to the

material contained herein.

Managing Director, Apress Media LLC: Welmoed Spahr

Acquisitions Editor: Susan McDermott

Development Editor: Laura Berendson

Coordinating Editor: Rita Fernando

Cover designed by eStudioCalamar

Cover image designed by Freepik (www.freepik.com)

Distributed to the book trade worldwide by Springer Science+Business Media New York, 233 Spring

Street, 6th Floor, New York, NY 10013. Phone 1-800-SPRINGER, fax (201) 348-4505, e-mail orders-ny@

springer-sbm.com, or visit www.springeronline.com. Apress Media, LLC is a California LLC and the sole

member (owner) is Springer Science + Business Media Finance Inc (SSBM Finance Inc). SSBM Finance Inc

is a Delaware corporation.

For information on translations, please e-mail [email protected], or visit http://www.apress.com/

rights-permissions.

Apress titles may be purchased in bulk for academic, corporate, or promotional use. eBook versions and

licenses are also available for most titles. For more information, reference our Print and eBook Bulk Sales

web page at http://www.apress.com/bulk-sales.

Any source code or other supplementary material referenced by the author in this book is available to

readers on GitHub via the book’s product page, located at www.apress.com/9781484231463. For more

detailed information, please visit http://www.apress.com/source-code.

Printed on acid-free paper

Butch Quinto

Plumpton, Victoria, Australia

This book is dedicated to my wife, Aileen; and my children,

Matthew, Timothy, and Olivia.

v

Table of Contents

Chapter 1: Next-Generation Big Data������������������������������������������������������������������������ 1

About This Book ���������������������������������������������������������������������������������������������������������������������������� 2

Apache Spark�������������������������������������������������������������������������������������������������������������������������������� 2

Apache Impala ������������������������������������������������������������������������������������������������������������������������������ 3

Apache Kudu��������������������������������������������������������������������������������������������������������������������������������� 3

Navigating This Book �������������������������������������������������������������������������������������������������������������������� 3

Summary��������������������������������������������������������������������������������������������������������������������������������������� 5

Chapter 2: Introduction to Kudu ������������������������������������������������������������������������������� 7

Kudu Is for Structured Data ���������������������������������������������������������������������������������������������������������� 9

Use Cases ������������������������������������������������������������������������������������������������������������������������������������� 9

Relational Data Management and Analytics�������������������������������������������������������������������������� 10

Internet of Things (IoT) and Time Series�������������������������������������������������������������������������������� 11

Feature Store for Machine Learning Platforms ��������������������������������������������������������������������� 12

Key Concepts ������������������������������������������������������������������������������������������������������������������������������ 12

Architecture �������������������������������������������������������������������������������������������������������������������������������� 13

Multi-Version Concurrency Control (MVCC)��������������������������������������������������������������������������������� 14

Impala and Kudu������������������������������������������������������������������������������������������������������������������������� 15

Primary Key ��������������������������������������������������������������������������������������������������������������������������� 15

Data Types ����������������������������������������������������������������������������������������������������������������������������� 16

Partitioning ���������������������������������������������������������������������������������������������������������������������������� 17

About the Author ���������������������������������������������������������������������������������������������������xvii

About the Technical Reviewer ��������������������������������������������������������������������������������xix

Acknowledgments��������������������������������������������������������������������������������������������������xxi

Introduction����������������������������������������������������������������������������������������������������������xxiii

vi

Spark and Kudu �������������������������������������������������������������������������������������������������������������������������� 19

Kudu Context ������������������������������������������������������������������������������������������������������������������������� 19

Kudu C++, Java, and Python Client APIs������������������������������������������������������������������������������������� 24

Kudu Java Client API�������������������������������������������������������������������������������������������������������������� 24

Kudu Python Client API ���������������������������������������������������������������������������������������������������������� 27

Kudu C++ Client API�������������������������������������������������������������������������������������������������������������� 29

Backup and Recovery ����������������������������������������������������������������������������������������������������������������� 34

Backup via CTAS�������������������������������������������������������������������������������������������������������������������� 34

Copy the Parquet Files to Another Cluster or S3 ������������������������������������������������������������������������� 35

Export Results via impala-shell to Local Directory, NFS, or SAN Volume������������������������������� 36

Export Results Using the Kudu Client API ������������������������������������������������������������������������������ 36

Export Results with Spark ����������������������������������������������������������������������������������������������������� 38

Replication with Spark and Kudu Data Source API���������������������������������������������������������������� 38

Real-Time Replication with StreamSets�������������������������������������������������������������������������������� 40

Replicating Data Using ETL Tools Such as Talend, Pentaho, and CDAP ��������������������������������� 41

Python and Impala ���������������������������������������������������������������������������������������������������������������������� 43

Impyla������������������������������������������������������������������������������������������������������������������������������������ 43

pyodbc����������������������������������������������������������������������������������������������������������������������������������� 44

SQLAlchemy �������������������������������������������������������������������������������������������������������������������������� 44

High Availability Options ������������������������������������������������������������������������������������������������������������� 44

Active-Active Dual Ingest with Kafka and Spark Streaming�������������������������������������������������� 45

Active-Active Kafka Replication with MirrorMaker���������������������������������������������������������������� 45

Active-Active Dual Ingest with Kafka and StreamSets���������������������������������������������������������� 46

Active-Active Dual Ingest with StreamSets��������������������������������������������������������������������������� 47

Administration and Monitoring���������������������������������������������������������������������������������������������������� 47

Cloudera Manager Kudu Service ������������������������������������������������������������������������������������������� 47

Kudu Master Web UI �������������������������������������������������������������������������������������������������������������� 47

Kudu Tablet Server Web UI ���������������������������������������������������������������������������������������������������� 48

Kudu Metrics ������������������������������������������������������������������������������������������������������������������������� 48

Kudu Command-Line Tools���������������������������������������������������������������������������������������������������� 48

Known Issues and Limitations ���������������������������������������������������������������������������������������������������� 51

Table of Contents

vii

Security��������������������������������������������������������������������������������������������������������������������������������������� 52

Summary������������������������������������������������������������������������������������������������������������������������������������� 53

References���������������������������������������������������������������������������������������������������������������������������������� 53

Chapter 3: Introduction to Impala �������������������������������������������������������������������������� 57

Architecture �������������������������������������������������������������������������������������������������������������������������������� 57

Impala Server Components ��������������������������������������������������������������������������������������������������� 58

Impala SQL���������������������������������������������������������������������������������������������������������������������������������� 63

Data Types ����������������������������������������������������������������������������������������������������������������������������� 63

SQL Statements��������������������������������������������������������������������������������������������������������������������� 64

SET Statements ��������������������������������������������������������������������������������������������������������������������� 71

SHOW Statements ����������������������������������������������������������������������������������������������������������������� 72

Built-In Functions ������������������������������������������������������������������������������������������������������������������ 74

User-Defined Functions��������������������������������������������������������������������������������������������������������������� 76

Complex Types in Impala ������������������������������������������������������������������������������������������������������������ 76

Querying Struct Fields����������������������������������������������������������������������������������������������������������� 77

Querying Deeply Nested Collections�������������������������������������������������������������������������������������� 78

Querying Using ANSI-92 SQL Joins with Nested Collections������������������������������������������������� 79

Impala Shell �������������������������������������������������������������������������������������������������������������������������������� 79

Performance Tuning and Monitoring������������������������������������������������������������������������������������������� 84

Explain����������������������������������������������������������������������������������������������������������������������������������� 85

Summary ������������������������������������������������������������������������������������������������������������������������������� 85

Profile ������������������������������������������������������������������������������������������������������������������������������������ 86

Cloudera Manager����������������������������������������������������������������������������������������������������������������� 87

Impala Performance Recommendations ������������������������������������������������������������������������������� 93

Workload and Resource Management���������������������������������������������������������������������������������������� 95

Admission Control ����������������������������������������������������������������������������������������������������������������� 95

Hadoop User Experience������������������������������������������������������������������������������������������������������������� 96

Impala in the Enterprise�������������������������������������������������������������������������������������������������������������� 98

Summary������������������������������������������������������������������������������������������������������������������������������������� 98

References���������������������������������������������������������������������������������������������������������������������������������� 98

Table of Contents

viii

Chapter 4: High Performance Data Analysis with Impala and Kudu �������������������� 101

Primary Key������������������������������������������������������������������������������������������������������������������������������� 101

Data Types��������������������������������������������������������������������������������������������������������������������������������� 102

Internal and External Impala Tables������������������������������������������������������������������������������������������ 103

Internal Tables ��������������������������������������������������������������������������������������������������������������������� 103

External Tables �������������������������������������������������������������������������������������������������������������������� 104

Changing Data��������������������������������������������������������������������������������������������������������������������������� 104

Inserting Rows��������������������������������������������������������������������������������������������������������������������� 104

Updating Rows �������������������������������������������������������������������������������������������������������������������� 105

Upserting Rows ������������������������������������������������������������������������������������������������������������������� 105

Deleting Rows ��������������������������������������������������������������������������������������������������������������������� 105

Changing Schema��������������������������������������������������������������������������������������������������������������������� 106

Partitioning�������������������������������������������������������������������������������������������������������������������������������� 106

Hash Partitioning ����������������������������������������������������������������������������������������������������������������� 106

Range Partitioning��������������������������������������������������������������������������������������������������������������� 106

Hash-Range Partitioning ����������������������������������������������������������������������������������������������������� 107

Hash-Hash Partitioning�������������������������������������������������������������������������������������������������������� 108

List Partitioning ������������������������������������������������������������������������������������������������������������������� 108

Using JDBC with Apache Impala and Kudu������������������������������������������������������������������������������� 109

Federation with SQL Server Linked Server and Oracle Gateway ���������������������������������������������� 110

Summary����������������������������������������������������������������������������������������������������������������������������������� 111

References�������������������������������������������������������������������������������������������������������������������������������� 111

Chapter 5: Introduction to Spark�������������������������������������������������������������������������� 113

Overview����������������������������������������������������������������������������������������������������������������������������������� 113

Cluster Managers ���������������������������������������������������������������������������������������������������������������� 114

Architecture ������������������������������������������������������������������������������������������������������������������������������ 115

Executing Spark Applications���������������������������������������������������������������������������������������������������� 116

Spark on YARN �������������������������������������������������������������������������������������������������������������������������� 116

Cluster Mode ����������������������������������������������������������������������������������������������������������������������� 116

Client Mode ������������������������������������������������������������������������������������������������������������������������� 117

Table of Contents

ix

Introduction to the Spark-Shell������������������������������������������������������������������������������������������������� 117

SparkSession����������������������������������������������������������������������������������������������������������������������� 118

Accumulator ������������������������������������������������������������������������������������������������������������������������ 119

Broadcast Variables������������������������������������������������������������������������������������������������������������� 119

RDD�������������������������������������������������������������������������������������������������������������������������������������� 119

Spark SQL, Dataset, and DataFrames API ��������������������������������������������������������������������������������� 127

Spark Data Sources ������������������������������������������������������������������������������������������������������������������ 129

CSV �������������������������������������������������������������������������������������������������������������������������������������� 129

XML�������������������������������������������������������������������������������������������������������������������������������������� 130

JSON������������������������������������������������������������������������������������������������������������������������������������ 131

Relational Databases Using JDBC ��������������������������������������������������������������������������������������� 132

Parquet�������������������������������������������������������������������������������������������������������������������������������� 136

HBase ���������������������������������������������������������������������������������������������������������������������������������� 136

Amazon S3 �������������������������������������������������������������������������������������������������������������������������� 142

Solr�������������������������������������������������������������������������������������������������������������������������������������� 142

Microsoft Excel�������������������������������������������������������������������������������������������������������������������� 143

Secure FTP �������������������������������������������������������������������������������������������������������������������������� 144

Spark MLlib (DataFrame-Based API)����������������������������������������������������������������������������������������� 145

Pipeline�������������������������������������������������������������������������������������������������������������������������������� 146

Transformer������������������������������������������������������������������������������������������������������������������������� 146

Estimator����������������������������������������������������������������������������������������������������������������������������� 146

ParamGridBuilder ���������������������������������������������������������������������������������������������������������������� 147

CrossValidator ��������������������������������������������������������������������������������������������������������������������� 147

Evaluator������������������������������������������������������������������������������������������������������������������������������ 147

Example ������������������������������������������������������������������������������������������������������������������������������������ 147

GraphX �������������������������������������������������������������������������������������������������������������������������������������� 152

Spark Streaming ����������������������������������������������������������������������������������������������������������������������� 152

Hive on Spark���������������������������������������������������������������������������������������������������������������������������� 152

Spark 1.x vs Spark 2.x �������������������������������������������������������������������������������������������������������������� 152

Table of Contents

x

Monitoring and Configuration ��������������������������������������������������������������������������������������������������� 153

Cloudera Manager��������������������������������������������������������������������������������������������������������������� 153

Spark Web UI ����������������������������������������������������������������������������������������������������������������������� 154

Summary����������������������������������������������������������������������������������������������������������������������������������� 157

References�������������������������������������������������������������������������������������������������������������������������������� 157

Chapter 6: High Performance Data Processing with Spark and Kudu������������������ 159

Spark and Kudu ������������������������������������������������������������������������������������������������������������������������ 159

Spark 1.6.x �������������������������������������������������������������������������������������������������������������������������� 159

Spark 2.x ����������������������������������������������������������������������������������������������������������������������������� 160

Kudu Context����������������������������������������������������������������������������������������������������������������������������� 160

Inserting Data ���������������������������������������������������������������������������������������������������������������������� 161

Updating a Kudu Table��������������������������������������������������������������������������������������������������������� 162

Upserting Data��������������������������������������������������������������������������������������������������������������������� 163

Deleting Data����������������������������������������������������������������������������������������������������������������������� 164

Selecting Data ��������������������������������������������������������������������������������������������������������������������� 165

Creating a Kudu Table���������������������������������������������������������������������������������������������������������� 165

Inserting CSV into Kudu������������������������������������������������������������������������������������������������������� 166

Inserting CSV into Kudu Using the spark-csv Package ������������������������������������������������������� 166

Insert CSV into Kudu by Programmatically Specifying the Schema ������������������������������������ 167

Inserting XML into Kudu Using the spark-xml Package ������������������������������������������������������ 168

Inserting JSON into Kudu ���������������������������������������������������������������������������������������������������� 171

Inserting from MySQL into Kudu������������������������������������������������������������������������������������������ 173

Inserting from SQL Server into Kudu����������������������������������������������������������������������������������� 178

Inserting from HBase into Kudu������������������������������������������������������������������������������������������� 188

Inserting from Solr into Kudu ���������������������������������������������������������������������������������������������� 194

Insert from Amazon S3 into Kudu���������������������������������������������������������������������������������������� 195

Inserting from Kudu into MySQL������������������������������������������������������������������������������������������ 196

Inserting from Kudu into SQL Server����������������������������������������������������������������������������������� 198

Inserting from Kudu into Oracle ������������������������������������������������������������������������������������������ 201

Inserting from Kudu to HBase ��������������������������������������������������������������������������������������������� 205

Table of Contents

xi

Inserting Rows from Kudu to Parquet���������������������������������������������������������������������������������� 208

Insert SQL Server and Oracle DataFrames into Kudu���������������������������������������������������������� 210

Insert Kudu and SQL Server DataFrames into Oracle���������������������������������������������������������� 214

Spark Streaming and Kudu�������������������������������������������������������������������������������������������������� 218

Kudu as a Feature Store for Spark MLlib����������������������������������������������������������������������������� 222

Summary����������������������������������������������������������������������������������������������������������������������������������� 228

References�������������������������������������������������������������������������������������������������������������������������������� 228

Chapter 7: Batch and Real-Time Data Ingestion and Processing ������������������������� 231

StreamSets Data Collector�������������������������������������������������������������������������������������������������������� 231

Pipelines������������������������������������������������������������������������������������������������������������������������������ 232

Origins ��������������������������������������������������������������������������������������������������������������������������������� 232

Processors��������������������������������������������������������������������������������������������������������������������������� 232

Destinations������������������������������������������������������������������������������������������������������������������������� 232

Executors����������������������������������������������������������������������������������������������������������������������������� 233

Data Collector Console �������������������������������������������������������������������������������������������������������� 233

Deployment Options ������������������������������������������������������������������������������������������������������������ 237

Using StreamSets Data Collector ���������������������������������������������������������������������������������������� 237

Ingesting XML to Kudu��������������������������������������������������������������������������������������������������������� 238

Configure Pipeline ��������������������������������������������������������������������������������������������������������������� 242

Configure the Directory Origin��������������������������������������������������������������������������������������������� 243

Configure the XML Parser Processor����������������������������������������������������������������������������������� 246

Validate and Preview Pipeline ��������������������������������������������������������������������������������������������� 247

Start the Pipeline����������������������������������������������������������������������������������������������������������������� 251

Stream Selector������������������������������������������������������������������������������������������������������������������� 255

Expression Evaluator����������������������������������������������������������������������������������������������������������� 265

Using the JavaScript Evaluator�������������������������������������������������������������������������������������������� 274

Ingesting into Multiple Kudu Clusters���������������������������������������������������������������������������������� 281

REST API ������������������������������������������������������������������������������������������������������������������������������ 286

Event Framework ���������������������������������������������������������������������������������������������������������������� 289

Dataflow Performance Manager������������������������������������������������������������������������������������������ 289

Table of Contents

xii

Other Next-Generation Big Data Integration Tools �������������������������������������������������������������������� 290

Data Ingestion with Kudu ���������������������������������������������������������������������������������������������������� 290

Pentaho Data Integration����������������������������������������������������������������������������������������������������� 306

Ingest CSV into HDFS and Kudu ������������������������������������������������������������������������������������������ 306

Data Ingestion to Kudu with Transformation ����������������������������������������������������������������������� 328

SQL Server to Kudu ������������������������������������������������������������������������������������������������������������� 331

Talend Open Studio�������������������������������������������������������������������������������������������������������������� 341

Ingesting CSV Files to Kudu������������������������������������������������������������������������������������������������� 342

SQL Server to Kudu ������������������������������������������������������������������������������������������������������������� 349

Data Transformation ������������������������������������������������������������������������������������������������������������ 355

Other Big Data Integration Players�������������������������������������������������������������������������������������������� 359

Informatica �������������������������������������������������������������������������������������������������������������������������� 360

Microsoft SQL Server Integration Services�������������������������������������������������������������������������� 360

Oracle Data Integrator for Big Data ������������������������������������������������������������������������������������� 360

IBM InfoSphere DataStage �������������������������������������������������������������������������������������������������� 361

Syncsort ������������������������������������������������������������������������������������������������������������������������������ 361

Apache NIFI ������������������������������������������������������������������������������������������������������������������������� 361

Data Ingestion with Native Tools����������������������������������������������������������������������������������������������� 362

Kudu and Spark������������������������������������������������������������������������������������������������������������������� 362

Sqoop ���������������������������������������������������������������������������������������������������������������������������������� 369

Kudu Client API�������������������������������������������������������������������������������������������������������������������������� 370

MapReduce and Kudu��������������������������������������������������������������������������������������������������������������� 370

Summary����������������������������������������������������������������������������������������������������������������������������������� 371

References�������������������������������������������������������������������������������������������������������������������������������� 371

Chapter 8: Big Data Warehousing������������������������������������������������������������������������� 375

Enterprise Data Warehousing in the Era of Big Data����������������������������������������������������������������� 376

Structured Data Still Reigns Supreme �������������������������������������������������������������������������������������� 376

EDW Modernization������������������������������������������������������������������������������������������������������������������� 376

ETL Offloading ��������������������������������������������������������������������������������������������������������������������� 378

Analytics Offloading and Active Archiving ��������������������������������������������������������������������������� 379

Data Consolidation��������������������������������������������������������������������������������������������������������������� 379

Table of Contents

xiii

Replatforming the Enterprise Data Warehouse������������������������������������������������������������������������� 380

Big Data Warehousing 101�������������������������������������������������������������������������������������������������������� 381

Dimensional Modeling��������������������������������������������������������������������������������������������������������� 381

Big Data Warehousing with Impala and Kudu ��������������������������������������������������������������������� 384

Summary����������������������������������������������������������������������������������������������������������������������������������� 405

References�������������������������������������������������������������������������������������������������������������������������������� 405

Chapter 9: Big Data Visualization and Data Wrangling����������������������������������������� 407

Big Data Visualization ��������������������������������������������������������������������������������������������������������������� 407

SAS Visual Analytics ������������������������������������������������������������������������������������������������������������ 408

Zoomdata����������������������������������������������������������������������������������������������������������������������������� 408

Self-Service BI and Analytics for Big Data �������������������������������������������������������������������������� 408

Real-Time Data Visualization����������������������������������������������������������������������������������������������� 409

Architecture������������������������������������������������������������������������������������������������������������������������� 409

Deep Integration with Apache Spark����������������������������������������������������������������������������������� 410

Zoomdata Fusion����������������������������������������������������������������������������������������������������������������� 411

Data Sharpening ����������������������������������������������������������������������������������������������������������������������� 411

Support for Multiple Data Sources �������������������������������������������������������������������������������������� 412

Real-Time IoT with StreamSets, Kudu, and Zoomdata�������������������������������������������������������������� 426

Create the Kudu Table���������������������������������������������������������������������������������������������������������� 426

Data Wrangling�������������������������������������������������������������������������������������������������������������������������� 445

Trifacta��������������������������������������������������������������������������������������������������������������������������������� 447

Alteryx ��������������������������������������������������������������������������������������������������������������������������������� 455

Datameer����������������������������������������������������������������������������������������������������������������������������� 466

Summary����������������������������������������������������������������������������������������������������������������������������������� 474

References�������������������������������������������������������������������������������������������������������������������������������� 475

Chapter 10: Distributed In-Memory Big Data Computing ������������������������������������� 477

Architecture ������������������������������������������������������������������������������������������������������������������������������ 478

Why Use Alluxio?����������������������������������������������������������������������������������������������������������������������� 479

Significantly Improve Big Data Processing Performance and Scalability���������������������������� 480

Multiple Frameworks and Applications Can Share Data at Memory Speed ������������������������ 480

Table of Contents

xiv

Provides High Availability and Persistence in Case of Application

Termination or Failure ��������������������������������������������������������������������������������������������������������� 482

Optimize Overall Memory Usage and Minimize Garbage Collection������������������������������������ 486

Reduce Hardware Requirements����������������������������������������������������������������������������������������� 486

Alluxio Components������������������������������������������������������������������������������������������������������������� 487

Installation��������������������������������������������������������������������������������������������������������������������������� 487

Apache Spark and Alluxio ��������������������������������������������������������������������������������������������������������� 489

Administering Alluxio ���������������������������������������������������������������������������������������������������������������� 489

Master ��������������������������������������������������������������������������������������������������������������������������������� 489

Worker��������������������������������������������������������������������������������������������������������������������������������� 490

Apache Ignite ���������������������������������������������������������������������������������������������������������������������������� 490

Apache Geode ��������������������������������������������������������������������������������������������������������������������������� 491

Summary����������������������������������������������������������������������������������������������������������������������������������� 491

References�������������������������������������������������������������������������������������������������������������������������������� 491

Chapter 11: Big Data Governance and Management�������������������������������������������� 495

Data Governance for Big Data��������������������������������������������������������������������������������������������������� 496

Cloudera Navigator ������������������������������������������������������������������������������������������������������������������� 496

Metadata Management ������������������������������������������������������������������������������������������������������� 498

Data Classification��������������������������������������������������������������������������������������������������������������� 499

Data Lineage and Impact Analysis��������������������������������������������������������������������������������������� 500

Auditing and Access Control������������������������������������������������������������������������������������������������ 500

Policy Enforcement and Data Lifecycle Automation ������������������������������������������������������������ 501

Cloudera Navigator REST API����������������������������������������������������������������������������������������������� 502

Cloudera Navigator Encrypt ������������������������������������������������������������������������������������������������������ 502

Other Data Governance Tools���������������������������������������������������������������������������������������������������� 503

Apache Atlas������������������������������������������������������������������������������������������������������������������������ 503

Informatica Metadata Manager and Enterprise Data Catalog ��������������������������������������������� 503

Collibra �������������������������������������������������������������������������������������������������������������������������������� 503

Waterline Data��������������������������������������������������������������������������������������������������������������������� 504

Smartlogic ��������������������������������������������������������������������������������������������������������������������������� 504

Summary����������������������������������������������������������������������������������������������������������������������������������� 504

References�������������������������������������������������������������������������������������������������������������������������������� 505

Table of Contents

xv

Chapter 12: Big Data in the Cloud������������������������������������������������������������������������� 507

Amazon Web Services (AWS) ���������������������������������������������������������������������������������������������������� 507

Microsoft Azure Services����������������������������������������������������������������������������������������������������� 507

Google Cloud Platform (GCP) ����������������������������������������������������������������������������������������������� 508

Cloudera Enterprise in the Cloud ���������������������������������������������������������������������������������������������� 509

Hybrid and Multi-Cloud ������������������������������������������������������������������������������������������������������������� 509

Transient Clusters ��������������������������������������������������������������������������������������������������������������������� 510

Persistent Clusters�������������������������������������������������������������������������������������������������������������������� 510

Cloudera Director����������������������������������������������������������������������������������������������������������������� 511

Summary����������������������������������������������������������������������������������������������������������������������������������� 532

References�������������������������������������������������������������������������������������������������������������������������������� 532

Chapter 13: Big Data Case Studies ����������������������������������������������������������������������� 537

Navistar������������������������������������������������������������������������������������������������������������������������������������� 537

Use Cases���������������������������������������������������������������������������������������������������������������������������� 537

Solution ������������������������������������������������������������������������������������������������������������������������������� 538

Technology and Applications ����������������������������������������������������������������������������������������������� 538

Outcome ������������������������������������������������������������������������������������������������������������������������������ 539

Cerner ��������������������������������������������������������������������������������������������������������������������������������������� 539

Use Cases���������������������������������������������������������������������������������������������������������������������������� 539

Solution ������������������������������������������������������������������������������������������������������������������������������� 539

Technology and Applications ����������������������������������������������������������������������������������������������� 540

Outcome ������������������������������������������������������������������������������������������������������������������������������ 541

British Telecom ������������������������������������������������������������������������������������������������������������������������� 541

Use Cases���������������������������������������������������������������������������������������������������������������������������� 541

Solution ������������������������������������������������������������������������������������������������������������������������������� 542

Technology and Applications ����������������������������������������������������������������������������������������������� 542

Outcome ������������������������������������������������������������������������������������������������������������������������������ 542

Shopzilla (Connexity)����������������������������������������������������������������������������������������������������������������� 543

Use Cases���������������������������������������������������������������������������������������������������������������������������� 543

Solution ������������������������������������������������������������������������������������������������������������������������������� 543

Technology and Applications ����������������������������������������������������������������������������������������������� 544

Outcome ������������������������������������������������������������������������������������������������������������������������������ 544

Table of Contents

Tải ngay đi em, còn do dự, trời tối mất!