Big_Data_Najlepsze_praktyki_budowy_skalowalnych_systemow_obslugi_danych_w_czasie_rzeczywistym_bigdat.pdf

(1886 KB) Pobierz
Tytuł oryginału: Big Data: Principles and best practices of scalable realtime data systems
Tłumaczenie: Lech Lachowski
Projekt okładki: Studio Gravite / Olsztyn
Obarek, Pokoński, Pazdrijowski, Zaprucki
ISBN: 978-83-283-1892-2
Original edition copyright © 2015 by Manning Publications Co.
All rights reserved
Polish edition copyright © 2016 by HELION SA.
All rights reserved.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means,
electronic or mechanical, including photocopying, recording or by any information storage retrieval system,
without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje
naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich
właścicieli.
Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były
kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane
z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie
ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji
zawartych w książce.
Wydawnictwo HELION
ul. Kościuszki 1c, 44-100 GLIWICE
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
http://helion.pl
(księgarnia internetowa, katalog książek)
Materiały graficzne na okładce zostały wykorzystane za zgodą Shutterstock Images LLC.
Pliki z przykładami omawianymi w książce można znaleźć pod adresem:
ftp://ftp.helion.pl/przyklady/bigdat.zip
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie/bigdat
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis tre ci
Przedmowa 11
Podzi kowania 13
O ksi ce 17
Rozdzia 1. Nowy paradygmat dla Big Data
1.1.
1.2.
19
1.3.
1.4.
1.5.
1.6.
1.7.
1.8.
Zawarto ksi ki 20
Skalowanie tradycyjnej bazy danych 21
1.2.1. Skalowanie za pomoc kolejki 22
1.2.2. Skalowanie przez sharding bazy danych 22
1.2.3. Rozpoczynaj si problemy z odporno ci na b dy 23
1.2.4. Problemy z uszkodzeniem danych 24
1.2.5. Co posz o nie tak? 24
1.2.6. W jaki sposób techniki Big Data mog pomóc? 24
NoSQL nie jest panaceum 25
Pierwsze zasady 25
Wymagane w a ciwo ci systemu Big Data 26
1.5.1. Niezawodno i odporno na b dy 26
1.5.2. Odczytywanie i aktualizowanie z nisk latencj
27
1.5.3. Skalowalno
27
1.5.4. Uogólnienie 27
1.5.5. Rozszerzalno
27
1.5.6. Zapytania ad hoc 28
1.5.7. Minimalna konserwacja 28
1.5.8. Debugowalno
28
Problemy z architekturami w pe ni przyrostowymi 29
1.6.1. Z o ono operacyjna 29
1.6.2. Ekstremalna z o ono osi gania spójno ci ostatecznej 30
1.6.3. Brak odporno ci na ludzkie b dy 32
1.6.4. Rozwi zanie w pe ni przyrostowe w porównaniu z architektur lambda
Architektura lambda 34
1.7.1. Warstwa przetwarzania wsadowego 36
1.7.2. Warstwa obs uguj ca 37
1.7.3. Warstwy przetwarzania wsadowego i obs uguj ca zapewniaj niemal
wszystkie w a ciwo ci 37
1.7.4. Warstwa przetwarzania czasu rzeczywistego 39
Najnowsze trendy w technologii 41
1.8.1. Procesory nie staj si coraz szybsze 42
1.8.2. Elastyczne chmury 42
1.8.3. Dynamiczny ekosystem open source dla Big Data 42
32
Kup książkę
Poleć książkę
4
Spis tre ci
1.9. Przyk adowa aplikacja: SuperWebAnalytics.com
1.10. Podsumowanie 44
44
C
Z
2.1.
I. W
ARSTWA PRZETWARZANIA WSADOWEGO
47
49
W a ciwo ci danych 51
2.1.1. Dane s surowe 53
2.1.2. Dane s niemutowalne 56
2.1.3. Dane s wiecznie prawdziwe 59
Reprezentacja danych za pomoc modelu opartego na faktach 60
2.2.1. Przyk adowe fakty i ich w a ciwo ci 60
2.2.2. Korzy ci ze stosowania modelu opartego na faktach 62
Schematy graficzne 66
2.3.1. Elementy schematu graficznego 66
2.3.2. Potrzeba zapewnienia egzekwowalno ci schematu 67
Kompletny model danych dla aplikacji SuperWebAnalytics.com 68
Podsumowanie 70
Rozdzia 2. Model danych dla Big Data
2.2.
2.3.
2.4.
2.5.
Rozdzia 3. Model danych dla Big Data: ilustracja
3.1.
3.2.
71
3.3.
3.4.
Dlaczego framework serializacji? 72
Apache Thrift 72
3.2.1. W z y 73
3.2.2. Kraw dzie 73
3.2.3. W a ciwo ci 74
3.2.4. Po czenie wszystkich elementów w obiekty danych
3.2.5. Ewolucja schematu 75
Ograniczenia frameworku serializacji 76
Podsumowanie 78
75
Rozdzia 4. Przechowywanie danych w warstwie przetwarzania wsadowego
4.1.
4.2.
79
4.3.
4.4.
4.5.
4.6.
4.7.
4.8.
Wymagania dotycz ce przechowywania g ównego zbioru danych 80
Wybór rozwi zania pami ci masowej dla warstwy przetwarzania wsadowego 81
4.2.1. U ycie magazynu danych klucz-warto dla g ównego zbioru danych 82
4.2.2. Rozproszone systemy plików 82
Sposób dzia ania rozproszonych systemów plików 83
Przechowywanie g ównego zbioru danych
z wykorzystaniem rozproszonego systemu plików 85
Partycjonowanie pionowe 86
Niskopoziomowy charakter rozproszonych systemów plików 87
Przechowywanie g ównego zbioru danych aplikacji SuperWebAnalytics.com
w rozproszonym systemie plików 89
Podsumowanie 90
Kup książkę
Poleć książkę
Spis tre ci
5
Rozdzia 5. Przechowywanie danych w warstwie przetwarzania wsadowego:
ilustracja 91
5.1.
Korzystanie z Hadoop Distributed File System 92
5.1.1. Problem ma ych plików 93
5.1.2. D enie do wy szego poziomu abstrakcji 93
Przechowywanie danych w warstwie przetwarzania wsadowego z wykorzystaniem
biblioteki Pail 94
5.2.1. Podstawowe operacje biblioteki Pail 95
5.2.2. Serializacja i umieszczanie obiektów w wiaderkach 96
5.2.3. Operacje przetwarzania wsadowego z wykorzystaniem biblioteki Pail 98
5.2.4. Partycjonowanie pionowe z wykorzystaniem biblioteki Pail 99
5.2.5. Formaty plików i kompresja biblioteki Pail 100
5.2.6. Podsumowanie zalet biblioteki Pail 101
Przechowywanie g ównego zbioru danych dla aplikacji SuperWebAnalytics.com 102
5.3.1. Ustrukturyzowane wiaderko dla obiektów Thrift 103
5.3.2. Podstawowe wiaderko dla aplikacji SuperWebAnalytics.com 104
5.3.3. Podzia wiaderka w celu pionowego partycjonowania zbioru danych 104
Podsumowanie 107
5.2.
5.3.
5.4.
Rozdzia 6. Warstwa przetwarzania wsadowego
6.1.
109
6.2.
6.3.
6.4.
6.5.
6.6.
6.7.
6.8.
Przyk ady do rozwa enia 110
6.1.1. Liczba ods on w czasie 110
6.1.2. Inferencja p ci 111
6.1.3. Punkty wp ywu 111
Obliczenia w warstwie przetwarzania wsadowego 112
Porównanie algorytmów ponownego obliczania z algorytmami przyrostowymi 114
6.3.1. Wydajno
116
6.3.2. Odporno na ludzkie b dy 117
6.3.3. Ogólno algorytmów 117
6.3.4. Wybór stylu algorytmu 118
Skalowalno w warstwie przetwarzania wsadowego 119
MapReduce: paradygmat dla oblicze Big Data 119
6.5.1. Skalowalno
121
6.5.2. Odporno na b dy 123
6.5.3. Ogólno MapReduce 123
Niskopoziomowy charakter MapReduce 125
6.6.1. Wieloetapowe obliczenia s nienaturalne 125
6.6.2. Operacje czenia s bardzo skomplikowane do r cznej implementacji 126
6.6.3. Wykonywanie logiczne jest ci le powi zane z fizycznym 128
Diagramy potokowe: wy szy poziom sposobu my lenia
na temat oblicze wsadowych 129
6.7.1. Koncepcje diagramów potokowych 129
6.7.2. Wykonywanie diagramów potokowych poprzez MapReduce 134
6.7.3. Agregator cz cy 134
6.7.4. Przyk ady diagramów potokowych 136
Podsumowanie 136
Kup książkę
Poleć książkę
Zgłoś jeśli naruszono regulamin