Algorytmy_Data_Science_Siedmiodniowy_przewodnik_Wydanie_II_aldas2.pdf

(4601 KB) Pobierz
Tytuł oryginału: Data Science Algorithms in a Week: Top 7 algorithms for scientific computing, data
analysis, and machine learning, 2nd Edition
Tłumaczenie: Andrzej Grażyński
ISBN: 978-83-283-5602-3
Copyright © Packt Publishing 2018. First published in the English language under the title ‘Data Science
Algorithms in a Week – (9781787284586)’.
Polish edition copyright © 2019 by HELION SA.
All rights reserved.
All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means,
electronic or mechanical, including photocopying, recording or by any information storage retrieval system,
without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej
publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną,
fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje
naruszenie praw autorskich niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich
właścicieli.
Autor oraz Helion SA dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne
i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym
ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Helion SA nie ponoszą również
żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce.
Pliki z przykładami omawianymi w książce można znaleźć pod adresem:
ftp://ftp.helion.pl/przyklady/aldas2.zip
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie/aldas2
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Helion SA
ul. Kościuszki 1c, 44-100 Gliwice
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
http://helion.pl
(księgarnia internetowa, katalog książek)
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis treści
O autorze
O recenzentach
Przedmowa
Rozdział 1. Klasyfikacja na podstawie najbliższego sąsiedztwa
Subiektywne odczuwanie temperatury
Implementacja algorytmu k najbliższych sąsiadów
Mapa Włoch — przykład doboru wartości k
Analiza
Skalowanie danych — prognozowanie statusu własności
Analiza
Nieeuklidesowe metryki odległości punktów — klasyfikowanie tekstów
Analiza
Klasyfikowania tekstów ciąg dalszy — wielowymiarowy algorytm k-NN
Analiza
Podsumowanie
Problemy
Subiektywne odczuwanie temperatury
Mapa Włoch — przykład doboru wartości k
Status własności
Analiza
7
8
9
13
14
16
20
21
25
26
27
28
30
31
32
33
33
33
34
34
Rozdział 2. Naiwny klasyfikator bayesowski
Testy medyczne — podstawowe zastosowanie twierdzenia Bayesa
Analiza
Podstawowe twierdzenie Bayesa i jego rozszerzenie
Twierdzenie Bayesa
Rozszerzone twierdzenie Bayesa
37
38
38
39
39
40
Kup książkę
Poleć książkę
Spis treści
Zagramy w szachy? — niezależne zdarzenia warunkujące
Analiza
Implementacja naiwnego klasyfikatora bayesowskiego
Zagramy w szachy? — częściowo zależne zdarzenia warunkujące
Analiza
Chłopak czy dziewczyna? — twierdzenie Bayesa dla ciągłych zmiennych losowych
Analiza
Podsumowanie
Problemy
Analiza
41
42
43
45
45
48
48
50
51
53
Rozdział 3. Drzewa decyzyjne
Pływamy? — reprezentowanie danych w postaci drzewa decyzyjnego
Elementy teorii informacji
Entropia informacyjna
Zysk informacyjny
Pływamy? — obliczanie zysku informacyjnego
Algorytm ID3 — konstruowanie drzewa decyzyjnego
Pływamy? — budowanie drzewa decyzyjnego
Implementacja w języku Python
Klasyfikowanie danych za pomocą drzew decyzyjnych
Przykład — pływamy czy nie?
Przykład — gra w szachy pod chmurką
Analiza
Na zakupy — przykład niespójnych danych
Analiza
Podsumowanie
Problemy
Analiza
59
59
61
61
63
63
65
65
66
71
72
72
72
77
77
78
78
80
Rozdział 4. Lasy losowe
Ogólne zasady konstruowania lasów losowych
Pływamy? — klasyfikacja za pomocą lasu losowego
Analiza
Konstruowanie lasu losowego
Klasyfikowanie cechy na podstawie lasu losowego
Implementacja algorytmu konstruowania lasu losowego
Przykład — zagramy w szachy?
Analiza
Konstruowanie lasu losowego
Klasyfikacja w drodze głosowania
Idziemy na zakupy? — wnioskowanie z niespójnych danych i miara wiarygodności wyniku
Analiza
Podsumowanie
Problemy
Analiza
83
84
84
84
85
89
90
93
93
94
99
100
100
101
102
103
4
Kup książkę
Poleć książkę
Spis treści
Rozdział 5. Klasteryzacja
Dochód gospodarstwa domowego — niski czy wysoki?
Algorytm k-średnich
Początkowy zbiór centroidów
Wyznaczanie centroidu klastera
Przykład — wykorzystanie algorytmu k-średnich do klasyfikacji dochodów
Klasyfikowanie przez klasteryzację — prognozowanie płci nieznanej osoby
Analiza
Implementacja algorytmu k-średnich
Status własności — dobór optymalnej liczby klasterów
Analiza
Klasyfikowanie dokumentów — semantyczne znaczenie klasteryzacji
Analiza
Podsumowanie
Problemy
Analiza
107
107
108
109
109
110
111
112
115
118
119
125
126
132
132
133
Rozdział 6. Analiza regresji
Konwersja temperatur — regresja liniowa dla danych doskonałych
Rozwiązanie analityczne
Metoda najmniejszych kwadratów w regresji liniowej
Implementacja analizy regresji liniowej w Pythonie
Regresja dla danych pomiarowych — prognozowanie wagi na podstawie wzrostu
Analiza
Metoda spadku gradientowego i jej implementacja
Szczegóły algorytmu
Implementacja w Pythonie
Przewidywanie czasu przelotu na podstawie odległości
Analiza
Obliczenia balistyczne — model nieliniowy
Analiza
Podsumowanie
Problemy
Analiza
143
144
144
145
146
149
149
151
151
152
154
154
156
156
158
158
159
Rozdział 7. Analiza szeregów czasowych
Zysk w biznesie — analiza trendu
Analiza
Konkluzja
Sprzedaż w sklepie internetowym — analiza sezonowości
Analiza
Analiza trendu
Analiza sezonowości
Podsumowanie
Problemy
Analiza
163
164
164
165
166
166
166
169
175
176
177
5
Kup książkę
Poleć książkę
Zgłoś jeśli naruszono regulamin