Big_Data_Najlepsze_praktyki_budowy_skalowalnych_systemow_obslugi_danych_w_czasie_rzeczywistym_bigdat.pdf

(1886 KB) Pobierz

Tytuł oryginału: Big Data: Principles and best practices of scalable realtime data systems

Tłumaczenie: Lech Lachowski

Projekt okładki: Studio Gravite / Olsztyn

Obarek, Pokoński, Pazdrijowski, Zaprucki

ISBN: 978-83-283-1892-2

electronic or mechanical, including photocopying, recording or by any information storage retrieval system,

without permission from the Publisher.

Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej

publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,

fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje

naruszenie praw autorskich niniejszej publikacji.

Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich

właścicieli.

Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były

kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane

z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie

ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji

zawartych w książce.

Wydawnictwo HELION

ul. Kościuszki 1c, 44-100 GLIWICE

tel. 32 231 22 19, 32 230 98 63

e-mail:

helion@helion.pl

WWW:

http://helion.pl

(księgarnia internetowa, katalog książek)

Materiały graficzne na okładce zostały wykorzystane za zgodą Shutterstock Images LLC.

Pliki z przykładami omawianymi w książce można znaleźć pod adresem:

ftp://ftp.helion.pl/przyklady/bigdat.zip

Drogi Czytelniku!

Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres

http://helion.pl/user/opinie/bigdat

Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.

Printed in Poland.

•

Kup książkę

•

Poleć książkę

•

Oceń książkę

•

Księgarnia internetowa

•

Lubię to! » Nasza społeczność

Spis tre ci

Przedmowa 11

Podzi kowania 13

O ksi ce 17

Rozdzia 1. Nowy paradygmat dla Big Data

1.1.

1.2.

1.3.

1.4.

1.5.

1.6.

1.7.

1.8.

Zawarto ksi ki 20

Skalowanie tradycyjnej bazy danych 21

1.2.1. Skalowanie za pomoc kolejki 22

1.2.2. Skalowanie przez sharding bazy danych 22

1.2.3. Rozpoczynaj si problemy z odporno ci na b dy 23

1.2.4. Problemy z uszkodzeniem danych 24

1.2.5. Co posz o nie tak? 24

1.2.6. W jaki sposób techniki Big Data mog pomóc? 24

NoSQL nie jest panaceum 25

Pierwsze zasady 25

Wymagane w a ciwo ci systemu Big Data 26

1.5.1. Niezawodno i odporno na b dy 26

1.5.2. Odczytywanie i aktualizowanie z nisk latencj

1.5.3. Skalowalno

1.5.4. Uogólnienie 27

1.5.5. Rozszerzalno

1.5.6. Zapytania ad hoc 28

1.5.7. Minimalna konserwacja 28

1.5.8. Debugowalno

Problemy z architekturami w pe ni przyrostowymi 29

1.6.1. Z o ono operacyjna 29

1.6.2. Ekstremalna z o ono osi gania spójno ci ostatecznej 30

1.6.3. Brak odporno ci na ludzkie b dy 32

1.6.4. Rozwi zanie w pe ni przyrostowe w porównaniu z architektur lambda

Architektura lambda 34

1.7.1. Warstwa przetwarzania wsadowego 36

1.7.2. Warstwa obs uguj ca 37

1.7.3. Warstwy przetwarzania wsadowego i obs uguj ca zapewniaj niemal

wszystkie w a ciwo ci 37

1.7.4. Warstwa przetwarzania czasu rzeczywistego 39

Najnowsze trendy w technologii 41

1.8.1. Procesory nie staj si coraz szybsze 42

1.8.2. Elastyczne chmury 42

1.8.3. Dynamiczny ekosystem open source dla Big Data 42

Kup książkę

Poleć książkę

Spis tre ci

1.9. Przyk adowa aplikacja: SuperWebAnalytics.com

1.10. Podsumowanie 44

2.1.

I. W

ARSTWA PRZETWARZANIA WSADOWEGO

W a ciwo ci danych 51

2.1.1. Dane s surowe 53

2.1.2. Dane s niemutowalne 56

2.1.3. Dane s wiecznie prawdziwe 59

Reprezentacja danych za pomoc modelu opartego na faktach 60

2.2.1. Przyk adowe fakty i ich w a ciwo ci 60

2.2.2. Korzy ci ze stosowania modelu opartego na faktach 62

Schematy graficzne 66

2.3.1. Elementy schematu graficznego 66

2.3.2. Potrzeba zapewnienia egzekwowalno ci schematu 67

Kompletny model danych dla aplikacji SuperWebAnalytics.com 68

Podsumowanie 70

Rozdzia 2. Model danych dla Big Data

2.2.

2.3.

2.4.

2.5.

Rozdzia 3. Model danych dla Big Data: ilustracja

3.1.

3.2.

3.3.

3.4.

Dlaczego framework serializacji? 72

Apache Thrift 72

3.2.1. W z y 73

3.2.2. Kraw dzie 73

3.2.3. W a ciwo ci 74

3.2.4. Po czenie wszystkich elementów w obiekty danych

3.2.5. Ewolucja schematu 75

Ograniczenia frameworku serializacji 76

Podsumowanie 78

Rozdzia 4. Przechowywanie danych w warstwie przetwarzania wsadowego

4.1.

4.2.

4.3.

4.4.

4.5.

4.6.

4.7.

4.8.

Wymagania dotycz ce przechowywania g ównego zbioru danych 80

Wybór rozwi zania pami ci masowej dla warstwy przetwarzania wsadowego 81

4.2.1. U ycie magazynu danych klucz-warto dla g ównego zbioru danych 82

4.2.2. Rozproszone systemy plików 82

Sposób dzia ania rozproszonych systemów plików 83

Przechowywanie g ównego zbioru danych

z wykorzystaniem rozproszonego systemu plików 85

Partycjonowanie pionowe 86

Niskopoziomowy charakter rozproszonych systemów plików 87

Przechowywanie g ównego zbioru danych aplikacji SuperWebAnalytics.com

w rozproszonym systemie plików 89

Podsumowanie 90

Kup książkę

Poleć książkę

Spis tre ci

Rozdzia 5. Przechowywanie danych w warstwie przetwarzania wsadowego:

ilustracja 91

5.1.

Korzystanie z Hadoop Distributed File System 92

5.1.1. Problem ma ych plików 93

5.1.2. D enie do wy szego poziomu abstrakcji 93

Przechowywanie danych w warstwie przetwarzania wsadowego z wykorzystaniem

biblioteki Pail 94

5.2.1. Podstawowe operacje biblioteki Pail 95

5.2.2. Serializacja i umieszczanie obiektów w wiaderkach 96

5.2.3. Operacje przetwarzania wsadowego z wykorzystaniem biblioteki Pail 98

5.2.4. Partycjonowanie pionowe z wykorzystaniem biblioteki Pail 99

5.2.5. Formaty plików i kompresja biblioteki Pail 100

5.2.6. Podsumowanie zalet biblioteki Pail 101

Przechowywanie g ównego zbioru danych dla aplikacji SuperWebAnalytics.com 102

5.3.1. Ustrukturyzowane wiaderko dla obiektów Thrift 103

5.3.2. Podstawowe wiaderko dla aplikacji SuperWebAnalytics.com 104

5.3.3. Podzia wiaderka w celu pionowego partycjonowania zbioru danych 104

Podsumowanie 107

5.2.

5.3.

5.4.

Rozdzia 6. Warstwa przetwarzania wsadowego

6.1.

109

6.2.

6.3.

6.4.

6.5.

6.6.

6.7.

6.8.

Przyk ady do rozwa enia 110

6.1.1. Liczba ods on w czasie 110

6.1.2. Inferencja p ci 111

6.1.3. Punkty wp ywu 111

Obliczenia w warstwie przetwarzania wsadowego 112

Porównanie algorytmów ponownego obliczania z algorytmami przyrostowymi 114

6.3.1. Wydajno

116

6.3.2. Odporno na ludzkie b dy 117

6.3.3. Ogólno algorytmów 117

6.3.4. Wybór stylu algorytmu 118

Skalowalno w warstwie przetwarzania wsadowego 119

MapReduce: paradygmat dla oblicze Big Data 119

6.5.1. Skalowalno

121

6.5.2. Odporno na b dy 123

6.5.3. Ogólno MapReduce 123

Niskopoziomowy charakter MapReduce 125

6.6.1. Wieloetapowe obliczenia s nienaturalne 125

6.6.2. Operacje czenia s bardzo skomplikowane do r cznej implementacji 126

6.6.3. Wykonywanie logiczne jest ci le powi zane z fizycznym 128

Diagramy potokowe: wy szy poziom sposobu my lenia

na temat oblicze wsadowych 129

6.7.1. Koncepcje diagramów potokowych 129

6.7.2. Wykonywanie diagramów potokowych poprzez MapReduce 134

6.7.3. Agregator cz cy 134

6.7.4. Przyk ady diagramów potokowych 136

Podsumowanie 136

Kup książkę

Poleć książkę

Plik z chomika:

P.Kuba-47

Inne pliki z tego folderu:

100_sposobow_na_Excel_2007_PL_Tworzenie_funkcjonalnych_arkuszy_100e27.pdf (1096 KB)
Access_Analiza_danych_Receptury_accrec.pdf (655 KB)
Algorytmy_Data_Science_Siedmiodniowy_przewodnik_Wydanie_II_aldas2.pdf (4601 KB)
Algorytmy_dla_bystrzakow_algoby.pdf (2441 KB)
Analiza_biznesowa_Praktyczne_modelowanie_organizacji_sfomod.pdf (833 KB)

Big_Data_Najlepsze_praktyki_budowy_skalowalnych_systemow_obslugi_danych_w_czasie_rzeczywistym_bigdat.pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: