Spark_Zaawansowana_analiza_danych_sparkz.pdf

(617 KB) Pobierz
Tytuł oryginału: Advanced Analytics with Spark
Tłumaczenie: Andrzej Watrak
ISBN: 978-83-283-1461-0
© 2016 Helion S.A.
Authorized Polish translation of the English edition of Advanced Analytics with Spark, ISBN
9781491912768 © 2015 Sandy Ryza, Uri Laserson, Sean Owen, and Josh Wills.
This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all
rights to publish and sell the same.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means,
electronic or mechanical, including photocopying, recording or by any information storage retrieval system,
without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje
naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich
właścicieli.
Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były
kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane
z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie
ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji
zawartych w książce.
Wydawnictwo HELION
ul. Kościuszki 1c, 44-100 GLIWICE
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
http://helion.pl
(księgarnia internetowa, katalog książek)
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie/sparkz
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Pliki z przykładami omawianymi w książce można znaleźć pod adresem:
ftp://ftp.helion.pl/przyklady/sparkz.zip
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis treści
Przedmowa .............................................................................................................................9
S owo wst pne ......................................................................................................................11
1. Analiza wielkich zbiorów danych ............................................................................. 13
Wyzwania w nauce o danych
Przedstawiamy Apache Spark
O czym jest ta książka
15
16
18
2. Wprowadzenie do analizy danych za pomoc Scala i Spark ................................... 21
Scala dla badaczy danych
Model programowania w Spark
Wiązanie rekordów danych
Pierwsze kroki — powłoka Spark i kontekst SparkContext
Przesyłanie danych z klastra do klienta
Wysyłanie kodu z klienta do klastra
Tworzenie list danych i klas wyboru
Agregowanie danych
Tworzenie histogramów
Statystyki sumaryzacyjne ciągłych wartości
Tworzenie współdzielonego kodu wyliczającego statystyki sumaryczne
Prosty wybór zmiennych i ocena zgodności rekordów
Następny krok
22
23
23
24
29
32
33
36
38
39
40
44
45
3. Rekomendowanie muzyki i dane Audioscrobbler ...................................................47
Zbiór danych
Algorytm rekomendacyjny wykorzystujący metodę
naprzemiennych najmniejszych kwadratów
Przygotowanie danych
48
49
51
3
Kup książkę
Poleć książkę
Utworzenie pierwszego modelu
Wyrywkowe sprawdzanie rekomendacji
Ocena jakości rekomendacji
Obliczenie metryki AUC
Dobór wartości hiperparametrów
Przygotowanie rekomendacji
Dalsze kroki
54
56
57
59
60
62
63
4. Prognozowanie zalesienia za pomoc drzewa decyzyjnego ................................. 65
Szybkie przejście do regresji
Wektory i cechy
Przykłady treningowe
Drzewa i lasy decyzyjne
Dane Covtype
Przygotowanie danych
Pierwsze drzewo decyzyjne
Hiperparametry drzewa decyzyjnego
Regulacja drzewa decyzyjnego
Weryfikacja cech kategorialnych
Losowy las decyzyjny
Prognozowanie
Dalsze kroki
65
66
67
68
70
71
72
76
77
79
81
83
83
5. Wykrywanie anomalii w ruchu sieciowym metod grupowania
wed ug k- rednich ................................................................................................... 85
Wykrywanie anomalii
Grupowanie według k-średnich
Włamania sieciowe
Dane KDD Cup 1999
Pierwsza próba grupowania
Dobór wartości k
Wizualizacja w środowisku R
Normalizacja cech
Zmienne kategorialne
Wykorzystanie etykiet i wskaźnika entropii
Grupowanie w akcji
Dalsze kroki
86
86
87
87
88
90
93
94
96
97
98
100
4
Spis treści
Kup książkę
Poleć książkę
6. Wikipedia i ukryta analiza semantyczna ................................................................101
Macierz słowo – dokument
Pobranie danych
Analiza składni i przygotowanie danych
Lematyzacja
Wyliczenie metryk TF-IDF
Rozkład według wartości osobliwych
Wyszukiwanie ważnych pojęć
Wyszukiwanie i ocenianie informacji za pomocą niskowymiarowej
reprezentacji danych
Związek dwóch słów
Związek dwóch dokumentów
Związek słowa i dokumentu
Wyszukiwanie wielu słów
Dalsze kroki
102
104
104
105
106
108
110
113
114
115
116
117
118
7. Analiza sieci wspó wyst powa za pomoc biblioteki GraphX ............................121
Katalog cytowań bazy MEDLINE — analiza sieci
Pobranie danych
Analiza dokumentów XML za pomocą biblioteki Scala
Analiza głównych znaczników i ich współwystępowań
Konstruowanie sieci współwystępowań za pomocą biblioteki GraphX
Struktura sieci
Połączone komponenty
Rozkład stopni wierzchołków
Filtrowanie krawędzi zakłócających dane
Przetwarzanie struktury EdgeTriplet
Analiza przefiltrowanego grafu
Sieci typu „mały świat”
Kliki i współczynniki klastrowania
Obliczenie średniej długości ścieżki za pomocą systemu Pregel
Dalsze kroki
122
123
125
126
128
131
131
133
135
136
138
139
139
141
145
8. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek .................. 147
Pobranie danych
Przetwarzanie danych temporalnych i geoprzestrzennych w systemie Spark
Przetwarzanie danych temporalnych za pomocą bibliotek JodaTime i NScalaTime
148
148
149
Spis treści
5
Kup książkę
Poleć książkę
Zgłoś jeśli naruszono regulamin