Big Data

eBook - Concepts, Technology, and Architecture

Kadry, Seifedine/Gandomi, Amir H/Balusamy, Balamurugan et al
103,99 €
(inkl. MwSt.)


E-Book Download
Bibliografische Daten
ISBN/EAN: 9781119701866
Sprache: Englisch
Umfang: 368 S., 17.39 MB
Auflage: 1. Auflage 2021
Format: PDF
DRM: Adobe DRM


<p><b>Learn Big Data from the ground up with this complete and up-to-date resource from leaders in the field</b></p><p><i>Big Data: Concepts, Technology, and Architecture</i> delivers a comprehensive treatment of Big Data tools, terminology, and technology perfectly suited to a wide range of business professionals, academic researchers, and students. Beginning with a fulsome overview of what we mean when we say, Big Data, the book moves on to discuss every stage of the lifecycle of Big Data.</p><p>Youll learn about the creation of structured, unstructured, and semi-structured data, data storage solutions, traditional database solutions like SQL, data processing, data analytics, machine learning, and data mining. Youll also discover how specific technologies like Apache Hadoop, SQOOP, and Flume work.</p><p><i>Big Data</i> also covers the central topic of big data visualization with Tableau, and youll learn how to create scatter plots, histograms, bar, line, and pie charts with that software.</p><p>Accessibly organized,<i>Big Data</i> includes illuminating case studies throughout the material, showing you how the included concepts have been applied in real-world settings. Some of those concepts include:</p><ul><li>The common challenges facing big data technology and technologists, like data heterogeneity and incompleteness, data volume and velocity, storage limitations, and privacy concerns</li><li>Relational and non-relational databases, like RDBMS, NoSQL, and NewSQL databases</li><li>Virtualizing Big Data through encapsulation, partitioning, and isolating, as well as big data server virtualization</li><li>Apache software, including Hadoop, Cassandra, Avro, Pig, Mahout, Oozie, and Hive</li><li>The Big Data analytics lifecycle, including business case evaluation, data preparation, extraction, transformation, analysis, and visualization</li></ul><p>Perfect for data scientists, data engineers, and database managers,<i>Big Data</i> also belongs on the bookshelves of business intelligence analysts who are required to make decisions based on large volumes of information. Executives and managers who lead teams responsible for keeping or understanding large datasets will also benefit from this book.</p><p></p>


BALAMURUGAN BALUSAMY, PHD, is a Professor with the School of Computing Science and Engineering at Galgotias University, Greater Noida, IndiaNANDHINI ABIRAMI. R is an IT Consultant and Research Scholar at VIT University in Vellore.SEIFEDINE KADRY, PhD, is a Professor of Data Science at the Faculty of Applied Computing and Technology at Noroff University College, Kristiansand, Norway.AMIR H. GANDOMI, PHD, is a Professor of Data Science at the Faculty of Engineering& Information Technology, University of Technology Sydney, Australia.


Big Data - concepts, Technology and Architecture. 1Book Description.. 111.1 Understanding Big Data. 131.2 Evolution of Big Data. 141.3 Failure of Traditional database in handling Big Data. 151.3 (a) Data Mining Vs Big Data. 161.4 3 Vs of Big Data. 171.4.1 Volume. 171.4.2 Velocity. 181.4.3 Variety. 191.5 Sources of Big Data. 191.6 Different Types of Data. 211.6.1 Structured Data. 221.6.2 Unstructured Data. 221.6.3 Semi-Structured Data. 231.7 Big Data Infrastructure. 241.8 Big Data Life Cycle. 251.8.1 Big Data Generation. 261.8.2 Data Aggregation. 261.8.3 Data Preprocessing. 271.7.3Big Data Analytics. 311.7.4 Visualizing Big Data. 321.8 Big Data Technology. 321.8.1 Challenges faced by Big Data technology. 341.8.1 Heterogeneity and incompleteness. 341.8.2 Volume and velocity of the Data. 351.8.3 Data Storage. 351.8.4 Data Privacy. 361.9 Big Data Applications. 361.10 Big Data Use Cases. 371.9. 1 Healthcare. 371.9.2 Telecom.. 381.9.3 Financial Services. 39Chapter 1 refresher: 40Conceptual short Questions with answers. 43Frequently asked Interview questions. 45Chapter Objective. 46Big Data Storage Concepts. 462.1 Cluster computing. 472.1.1 Types of cluster. 492.1.1.1 High availability cluster. 502.1.1.2 Load balancing cluster. 502.1.2 Cluster structure. 512.3 Distribution Models. 532.3.1 Sharding. 542.3.2 Data Replication. 562.3.2.1 Master-Slave model 572.3.2.2 Peer-to-Peer model 582.3.3 Sharding and Replication. 592.4 Distributed file system.. 602.5 Relational and Non Relational Databases. 61CoursesOffered. 62Figure 2.12 Data divided across multiple related tables. 622.4.2 RDBMS Databases. 632.4.3 NoSQL Databases. 632.4.4 NewSQL Databases. 642.5 Scaling Up and Scaling Out Storage. 65Chapter 2 refresher. 67Conceptual short questions with answers. 69Chapter Objective. 723.1 Introduction to NoSQL. 723.2 Why NoSQL. 723.3 CAP theorem.. 733.4 ACID.. 753.5 BASE. 763.6 Schemaless Database. 773.7 NoSQL (Not Only SQL) 773.7.1 NoSQL Vs RDBMS. 783.7.2Features of NoSQL database. 793.7.3Types of NoSQL Technologies. 803.7.3.1 Key-Value store database. 813.7.3.2 Column-store database. 823.7.3.3 Document Oriented Database. 843.7.3.4 Graph-oriented Database. 863.7.4 NoSQL Operations. 933.9 Migrating from RDBMS to NoSQL. 98Chapter 3 refresher. 99Conceptual short questions with answers. 102Chapter Objective. 1044.1 Data Processing. 1044.2 Shared Everything Architecture. 1064.2.1 Symmetric multiprocessing architecture. 1074.2.2 Distributed Shared memory. 1084.3 Shared nothing architecture. 1094.4 Batch Processing. 1104.5 Real-Time Data Processing. 1114.6 Parallel Computing. 1124.7 Distributed Computing. 1134.8 Big Data Virtualization. 1134.8.1 Attributes of Virtualization. 1144.8.1.1 Encapsulation. 1154.8.1.2 Partitioning. 1154.8.1.3 Isolation. 1154.8.2Big Data Server Virtualization. 1164.9 Introduction. 1164.10 Cloud computing types. 1184.11Cloud Services. 1204.12 Cloud Storage. 1214.12.1 Architecture of GFS. 1214.12.1.1 Master. 1234.12.1.2 Client. 1234.13 Cloud Architecture. 127Cloud Challenges. 129Chapter 4 Refresher. 130Conceptual short questions with answers. 133Chapter Objective. 1395.1 Apache Hadoop. 1395.1.1 Architecture of Apache Hadoop. 1405.1.2Hadoop Ecosystem Components Overview.. 1405.2 Hadoop Storage. 1425.2.1HDFS (Hadoop Distributed File System). 1425.2.2Why HDFS?. 1435.2.3HDFS Architecture. 1435.2.4HDFS Read/Write Operation. 1465.2.5Rack Awareness. 1485.2.6Features of HDFS. 1495.2.6.1Cost-effective. 1495.2.6.2Distributed storage. 1495.2.6.3Data Replication. 1495.3 Hadoop Computation. 1495.3.1MapReduce. 1495.3.1.1Mapper. 1515.3.1.2Combiner. 1515.3.1.3 Reducer. 1525.3.1.4 JobTracker and TaskTracker. 1535.3.2 MapReduce Input Formats. 1545.3.3 MapReduce Example. 1565.3.4 MapReduce Processing. 1575.3.5 MapReduce Algorithm.. 1605.3.6 Limitations of MapReduce. 1615.4Hadoop 2.0. 1615.4.1Hadoop 1.0 limitations. 1625.4.2 Features of Hadoop 2.0. 1635.4.3 Yet Another Resource Negotiator (YARN). 1645.4.3 Core components of YARN.. 1655.4.3.1 ResourceManager. 1655.4.3.2 NodeManager. 1665.4.4 YARN Scheduler. 1695.4.4.1FIFO scheduler. 1695.4.4.2Capacity Scheduler. 1705.4.4.3Fair Scheduler. 1705.4.5 Failures in YARN.. 1715.4.5.1ResourceManager failure. 1715.4.5.2 ApplicationMaster failure. 1725.4.5.3 NodeManagerFailure. 1725.4.5.4 Container Failure. 1725.3 HBASE. 1735.4 Apache Cassandra. 1765.5 SQOOP. 1775.6 Flume. 1795.6.1 Flume Architecture. 1795.6.1.1 Event. 1805.6.1.2 Agent. 1805.7 Apache Avro. 1815.8 Apache Pig. 1825.9 Apache Mahout. 1835.10 Apache Oozie. 1835.10.1 Oozie Workflow.. 1845.10.2 Oozie Coordinators. 1865.10.3 Oozie Bundles. 1875.11 Apache Hive. 1875.11 Apache Hive. 187Hive Architecture. 189Hadoop Distributions. 190Chapter 5refresher. 191Conceptual short questions with answers. 194Frequently asked Interview Questions. 199Chapter Objective. 2006.1 Terminologies of Big Data Analytics. 201Data Warehouse. 201Business Intelligence. 201Analytics. 2026.2 Big Data Analytics. 2026.2.1 Descriptive Analytics. 2046.2.2 Diagnostic Analytics. 2056.2.3 Predictive Analytics. 2056.2.4 Prescriptive Analytics. 2056.3 Data Analytics Lifecycle. 2076.3.1 Business case evaluation and Identify the source data. 2086.3.2 Data preparation. 2096.3.3 Data Extraction and Transformation. 2106.3.4 Data Analysis and visualization. 2116.3.5 Analytics application. 2126.4 Big Data Analytics Techniques. 2126.4.1 Quantitative Analysis. 2126.4.3 Statistical analysis. 2146.4.3.1 A/B testing. 2146.4.3.2 Correlation. 2156.4.3.3 Regression. 2186.5 Semantic Analysis. 2206.5.1 Natural Language Processing. 2206.5.2 Text Analytics. 2216.7 Big Data Business Intelligence. 2226.7.1 Online Transaction Processing (OLTP). 2236.7.2 Online Analytical Processing (OLAP). 2236.7.3 Real-Time Analytics Platform (RTAP). 2246.6Big Data Real Time Analytics Processing. 2256.7 Enterprise Data Warehouse. 227Chapter 6 Refresher. 228Conceptual short questions with answers. 230Chapter Objective. 2337.1      Introduction to Machine learning. 2337.2 Machine learning use cases. 2347.3 Types of Machine learning. 2357.3.1 Supervised machine learning algorithm.. 2367.3.1.1 Classification. 2377.3.1.2 Regression. 238Support vector machines (SVM). 239Big Data Analytics Practical Application. 244Chapter 7 Refresher. 245Conceptual short questions with answers. 247Chapter Objective. 2498.1 Itemset Mining. 2498.2 Association Rules. 2558.3 Frequent itemset generation. 2598.4 Itemset Mining Algorithms. 2608.4.1 Apriori Algorithm.. 2608.4.1.2 Frequent Itemset generation using Apriori Algorithm.. 2668.4.2 Eclat Algorithm - Equivalence Class Transformation Algorithm.. 2688.4.3 FP growth algorithm.. 2718.5 Maximal and Closed Frequent Itemset. 278Mining Closed Frequent Itemsets: Charm Algorithm.. 284CHARM Algorithm implementation. 285Data Mining Methods. 2878.8 Prediction. 2888.8.2 Classification techniques. 2898.8.2.1 Bayesian Network. 2898.8.2.2 K- Nearest Neighbor Algorithm.. 2948. The Distance metric. 2968. The parameter selection cross validation. 2968.8.2.3 Decision tree classifier. 297Density based clustering algorithm.. 299DBSCAN.. 299Kernel Density Estimation. 3038.9.3 Artificial Neural Network. 303The Biological Neural Network. 3038.11 Mining Data Streams. 305Time Series Forecasting. 3069.1Clustering. 308Application of Hierarchical methods. 315Kernel k-means clustering. 321Expectation Maximization Clustering Algorithm.. 323Methods of determining the Number of clusters: 327Outlier detection. 327Types of Outliers. 329Outlier detection techniques. 332Training dataset based outlier detection. 332Assumption based outlier detection. 333Applications of outlier detection. 3349.6.3 Optimization Algorithm.. 335Choosing the Number of Clusters. 339Bayesian Analysis of Mixtures. 342Fuzzy Clustering. 34210.1        Big Data Visualization. 34510.2        Conventional Data Visualization Techniques. 34610.2.1 Line Chart. 34610.2.2 Bar Chart. 34710.2.3 Pie Chart. 34810.2.4 Scatter Plot. 34910.2.5 Bubble plot. 350Tableau. 350Connecting to data. 354Connecting to data in Cloud. 355Connect to a file. 356Scatter plot in tableau. 362Histogram using Tablaeu. 365Bar chart in tableau. 365Line Chart. 367Pie chart. 368Bubble chart. 369Box Plot. 370Tableau Use Cases. 371Airlines. 371Office Supplies. 372Sports. 374Science Earthquake Analysis. 375Tableau is used to analyze the magnitude of earth quake and the frequency of occurrence over the years. 375Installing R and Getting Ready. 377R Basic commands. 378Assigning value to a variable. 378Data Structures in R. 379Vector. 379Coercion. 380Length, Mean and median. 381Matrix. 382Arrays. 385Data frames. 387Lists. 390Importing data from a file. 392Importing data from a delimited text file. 394Control Structures in R. 394If-else. 395Nested if-else. 395for loops. 396Example. 396[1] 4. 397while loops. 397Break. 398Basic Graphs in R. 398Pie Charts. 3983D - Pie Charts. 399Bar Charts. 400Boxplots. 401Histograms. 402Line charts. 403Scatter plots. 405

Informationen zu E-Books

Allgemeine E-Book-Informationen

E-Books in diesem Webshop können in den Dateiformaten EPUB und PDF vorliegen und können ggf. mit einem Kopierschutz versehen sein. Sie finden die entsprechenden Informationen in der Detailansicht des jeweiligen Titels.

E-Books ohne Kopierschutz oder mit einem digitalen Wasserzeichen können Sie problemlos auf Ihr Gerät übertragen. Sie müssen lediglich die Kompatibilität mit Ihrem Gerät prüfen.

Um E-Books, die mit Adobe DRM geschützt sind, auf Ihr Lesegerät zu übertragen, benötigen Sie zusätzlich eine Adobe ID und die kostenlose Software Adobe® Digital Editions, wo Sie Ihre Adobe ID hinterlegen müssen. Beim Herunterladen eines mit Adobe DRM geschützten E-Books erhalten Sie zunächst eine .acsm-Datei, die Sie in Adobe® Digital Editions öffnen müssen. Durch diesen Prozess wird das E-Book mit Ihrer Adobe-ID verknüpft und in Adobe® Digital Editions geöffnet. 

Lizenz- und Nutzungsbedingungen für den Kauf von E-Books:

Mit dem Kauf eines E-Books erhalten Sie ein beschränktes Recht, dieses E-Book einmalig herunterzuladen und zu benutzen gemäß der nachfolgenden Bestimmungen:

1. Rechteeinräumung: Sie erhalten das Recht, die gekaufte elektronische Kopie des E-Books auf einem der Übertragung auf Leseendgeräte dienenden Gerät (Transfer Device), beispielsweise Ihrem Personal Computer, einem ausschließlich Ihnen zugewiesenen Speicherplatz auf einem Server oder innerhalb einer sogenannten "Cloud" herunterzuladen und dort dauerhaft zu speichern, Sicherungskopien hiervon anzufertigen sowie bis zu höchstens sechs weitere, gleichzeitige elektronische Kopien der gekauften Kopie des E-Books zu erstellen, auf Leseendgeräten zu speichern und auf diesen Geräten bestimmungsgemäß zu nutzen, soweit es sich um E-Books mit Adobe-DRM-Kopierschutz handelt.
E-Books, die mit einem digitalen Wasserzeichen versehen sind, können auf beliebig viele Geräte kopiert werden.

2. Einschränkungen: Sie dürfen das E-Book ausschließlich zu privaten und nicht-gewerblichen Zwecken nutzen. Eine kostenlose Weitergabe des E-Books an und ein Zugänglichmachen für Dritte sind ausschließlich auf und zusammen mit dem Leseendgerät zu privaten und nicht gewerblichen Zwecken zulässig. Das öffentliche Zugänglichmachen, das Weiterleiten, entgeltliche oder unentgeltliche Einstellen ins öffentliche Internet oder in andere öffentlich zugängliche Netze und Medien und jede Art der Nutzung zu kommerziellen Zwecken sind nicht zulässig. Es werden Ihnen keine weitergehenden Rechte zur Anfertigung von Vervielfältigungen als die in Ziffer 1 genannten eingeräumt, insbesondere dürfen Sie dieses E-Book nicht ganz oder teilweise ausdrucken oder längeren Abschnitte oder das gesamte E-Book elektronisch im Wege des "Copy and Paste" zitieren oder kopieren; auch erhalten Sie keine Rechte zur Nutzung einer Vorlesefunktion (sog. "Text-to-Speech", es sei denn, der Verlag hat dies für das jeweilige E-Book freigegeben. Eine weitergehende Nutzung, insbesondere eine weitere Vervielfältigung oder eine Verbreitung der gekauften elektronischen Kopie eines E-Books sowie der von ihm erstellten elektronischen Kopien, ist nicht gestattet. Der Inhalt des E-Books darf von Ihnen vorbehaltlich abweichender zwingender gesetzlicher Regeln weder inhaltlich noch redaktionell verändert werden. Änderungen an eventuell vom Verlag vorgenommenen Maßnahmen zum Schutz der Urheberrechte (insbesondere DRM-Verschlüsselungen oder Wasserzeichen) sind nicht erlaubt.

3. Download / Re-Download: Sie erhalten nur das Recht zum einmaligen Herunterladen (Download) der gekauften elektronischen Kopie des E-Books. Wir versuchen, Ihnen auch hiernach weitere Downloads nach dem ersten vollständig erfolgten Download (Re-Downloads) zu ermöglichen, ein Anspruch hierauf besteht jedoch nicht.

4. DRM: Falls das E-Book verlagsseitig mit einem System zum digitalen Rechtemanagement (DRM) verschlüsselt und individualisiert wurde, bestehen folgende zusätzliche Einschränkungen:

Sie können dieses E-Book nur mit einer zum eingesetzten DRM passenden Lese-Software (z.B. Adobe Digital Editions) nur auf solchen Leseendgeräten nutzen, die die vom Verlag vorgegebenen Verschlüsselungsmechanismen unterstützen.

Zur Nutzung des E-Books auf Leseendgeräten müssen Sie diese zuvor in geeigneter Art und Weise aktivieren. Hierzu müssen Sie sich ggf. vorab bei einem Dritten (z.B. Adobe Inc.) registrieren, um eine eindeutige ID für die Aktivierung zu erhalten. Hierfür ist ggf. die Angabe personenbezogener Daten gegenüber Dritten erforderlich. Die Deaktivierung eines Transfer Devices oder Leseendgerätes ist jederzeit möglich.

Bei Übertragung des E-Books zu Ihnen wird das E-Book mittels einer eindeutigen ID individuell verschlüsselt und ist dadurch nur auf Geräten nutzbar, die mit dieser ID aktiviert wurden.

Um ein E-Book zu kaufen, benötigen Sie in der Regel eine Internetverbindung, da der Download online abgewickelt wird. Auch zur Registrierung sowie zur Aktivierung und Deaktivierung von Leseendgeräten ist eine Internetverbindung nötig. Nach der Aktivierung brauchen Sie zum Lesen des E-Books jedoch keine Internetverbindung mehr; das gilt auch für E-Books, die Sie auf ein Leseendgerät übertragen haben.

5. Wasserzeichen: Falls das E-Book verlagsseitig beim Download mit einem individuellen, nicht löschbaren Wasserzeichen markiert wurde, gilt Folgendes:

Beim Download wird das E-Book mit einem individuellen, sichtbaren oder nicht sichtbaren Code markiert, der eine eindeutige Zuordnung zum Käufer ermöglicht.

Der Verlag, als Rechteinhaber, behält sich im Falle einer missbräuchlichen Nutzung des E-Books vor, vom Verkäufer die Herausgabe personenbezogener Daten des Käufers zu verlangen, um ggf. rechtliche Schritte einzuleiten.

6. Datenschutz: Nur im Falle eines identifizierten Verstoßes gegen diese Nutzungsbedingungen werden Ihre beim Verkäufer gespeicherten personenbezogenen Daten mit den beim Verlag gespeicherten Daten verknüpft. Ferner ist der Verkäufer verpflichtet, dem Verlag Ihre personenbezogenen Daten zu übermitteln, falls der Einzug des Kaufpreises scheitert. Der Verlag speichert die IP-Adresse unter der der Download des E-Books erfolgt und ggf. weitere anonyme Nutzungsdaten. Die Registrierung, sowie die Aktivierung und Deaktivierung von Leseendgeräten erfolgt gemäß den Datenschutzbestimmungen des jeweiligen Anbieters. Ihre personenbezogenen Daten werden im Übrigen nur zur Abwicklung der vertraglichen Leistungen genutzt und nur an hieran beteiligte Personen im erforderlichen Umfang weitergegeben.

7. Umtausch: Sie können ein gekauftes E-Book nicht umtauschen oder zurückgeben, außer, es liegt ein Gewährleistungsfall gemäß Ziffer 8 vor. E-Books gelten gesetzlich als Waren, die aufgrund ihrer Beschaffenheit nicht für eine Rücksendung geeignet sind. Wie bei Film-, Musik- oder Software-Downloads sind auch elektronische Bücher vom Widerrufsrecht ausgeschlossen. Dies beschränkt nicht Ihre gesetzlichen Gewährleistungsrechte im Falle von Mängeln.

8. Gewährleistung: Gelingt der erstmalige Download des E-Books nicht, nicht vollständig oder nicht fehlerfrei oder liegt nach erfolgreichem, vollständigem und fehlerfreiem Download ein Mangel des E-Books vor, können Sie Nacherfüllung entweder durch Mängelbeseitigung oder durch Ersatzlieferung verlangen. Ist die von Ihnen gewählte Art der Nacherfüllung unverhältnismäßig, kann alternativ eine andere Art der Nacherfüllung gewählt werden. Ist auch diese Nacherfüllung unverhältnismäßig, nicht möglich, verzögert sich diese über angemessene Fristen hinaus oder schlägt die Nacherfüllung in sonstiger Weise fehl, sind Sie nach Ihrer Wahl berechtigt, vom Vertrag zurückzutreten oder eine Minderung des Kaufpreises zu verlangen. Bitte richten Sie alle Gewährleistungsanfragen an uns, Buchladen zur schwankenden Weltkugel, Kastanienallee 85, 10435 Berlin, Telefon 030-4409158, info[at]buchladen-weltkugel.de.

9. Haftung: Eine über Ziffer 7 hinausgehende Haftung des Verkäufers und des Verlags sind ohne Rücksicht auf die Rechtsnatur des geltend gemachten Anspruchs ausgeschlossen, soweit sie nur auf leichter Fahrlässigkeit beruht. Der vorstehend genannte Haftungsausschluss gilt nicht für den Fall der Verletzung einer Garantie oder einer vertragswesentlichen Pflicht sowie bei einem Verstoß gegen das Produkthaftungsgesetz oder beim Fehlen einer garantierten Beschaffenheit. Bei Verletzung einer vertragswesentlichen Pflicht ist die Haftung jedoch auf den typischerweise voraussehbaren Schaden begrenzt. Der Haftungsausschluss und die Haftungsbegrenzung gelten nicht bei einer Verletzung des Lebens, des Körpers oder der Gesundheit.

10. Rechtswahl: Es gilt deutsches Recht unter Ausschluss des UN-Kaufrechts, auch wenn aus dem Ausland oder in das Ausland bestellt oder geliefert wird.