Uczenie_maszynowe_w_Pythonie_Leksykon_kieszonkowy_umpylk.pdf

(1494 KB) Pobierz
Tytuł oryginału: Machine Learning Pocket Reference: Working with Structured Data in
Python
Tłumaczenie: Andrzej Watrak
ISBN: 978-83-283-6558-2
© 2020 Helion SA
Authorized Polish translation of the English edition of Machine Learning Pocket
Reference ISBN 9781492047544 © 2019 Matt Harrison
This translation is published and sold by permission of O’Reilly Media, Inc.,
which owns or controls all rights to publish and sell the same.
The O’Reilly logo is a registered trademark of O’Reilly Media, Inc. Machine Learning
Pocket Reference, the cover image, and related trade dress are trademarks of O’Reilly
Media, Inc.
All rights reserved. No part of this book may be reproduced or transmitted in any form
or by any means, electronic or mechanical, including photocopying, recording or by any
information storage retrieval system, without permission from the Publisher.
Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości
lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest zabronione.
Wykonywanie kopii metodą kserograficzną, fotograficzną, a także kopiowanie książki
na nośniku filmowym, magnetycznym lub innym powoduje naruszenie praw autorskich
niniejszej publikacji.
Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź
towarowymi ich właścicieli.
Autor oraz Helion SA dołożyli wszelkich starań, by zawarte w tej książce informacje
były kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich
wykorzystanie, ani za związane z tym ewentualne naruszenie praw patentowych lub
autorskich. Autor oraz Helion SA nie ponoszą również żadnej odpowiedzialności za
ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce.
Helion SA
ul. Kościuszki 1c, 44-100 Gliwice
tel. 32 231 22 19, 32 230 98 63
e-mail:
helion@helion.pl
WWW:
http://helion.pl
(księgarnia internetowa, katalog książek)
Drogi Czytelniku!
Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres
http://helion.pl/user/opinie/umpylk
Możesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.
Printed in Poland.
Kup książkę
Poleć książkę
Oceń książkę
Księgarnia internetowa
Lubię to! » Nasza społeczność
Spis treści
Przedmowa
Czego należy oczekiwać?
Dla kogo jest ta książka?
Konwencje typograficzne
Przykłady kodów
Podziękowania
9
9
10
10
11
11
Rozdział 1. Wprowadzenie
Wykorzystywane biblioteki
Instalowanie bibliotek za pomocą programu pip
Instalowanie bibliotek za pomocą programu conda
13
13
15
16
Rozdział 2. Schemat procesu uczenia maszynowego
Rozdział 3. Klasyfikacja danych: baza Titanic
Proponowany schemat projektu
Importowane biblioteki
Zadanie pytania
Stosowana terminologia
Zebranie danych
Oczyszczanie danych
Zdefiniowanie cech
Próbkowanie danych
Imputacja danych
Normalizacja danych
Refaktoryzacja kodu
Model odniesienia
Różne rodziny algorytmów
Kontaminacja modeli
Utworzenie modelu
Ocena modelu
Optymalizacja modelu
19
21
21
21
22
22
24
25
30
32
32
33
34
35
35
37
37
38
39
3
Kup książkę
Poleć książkę
Macierz pomyłek
Krzywa ROC
Krzywa uczenia
Wdrożenie modelu
40
40
42
43
Rozdział 4. Brakujące dane
Badanie braków danych
Pomijanie braków
Imputacja danych
Tworzenie kolumn ze wskaźnikami
45
45
49
49
50
Rozdział 5. Oczyszczanie danych
Nazwy kolumn
Uzupełnianie brakujących wartości
51
51
52
Rozdział 6. Badanie danych
Ilość danych
Statystyki podsumowujące
Histogram
Wykres punktowy
Wykres łączony
Macierz wykresów
Wykresy pudełkowy i skrzypcowy
Porównywanie dwóch cech porządkowych
Korelacja
Wykres RadViz
Wykres współrzędnych równoległych
53
53
53
54
56
57
59
60
61
63
66
68
Rozdział 7. Wstępne przetwarzanie danych
Normalizacja
Skalowanie w zadanym zakresie
Kolumny wskaźnikowe
Kodowanie etykietowe
Kodowanie częstościowe
Wyodrębnianie kategorii danych z ciągów znaków
Inne rodzaje kodowania kolumn kategorialnych
Przetwarzanie dat
Tworzenie cechy col_na
Ręczne przetwarzanie cech
4
Spis treści
71
71
72
73
74
74
75
76
78
79
79
Kup książkę
Poleć książkę
Rozdział 8. Wybieranie cech
Skorelowane kolumny danych
Regresja lasso
Rekurencyjna eliminacja cech
Informacja wzajemna
Analiza głównych składowych
Ważność cech
81
81
83
85
86
87
87
Rozdział 9. Niezrównoważone klasy danych
Wybór innego wskaźnika
Algorytmy drzewa decyzyjnego i metody zespołowe
Penalizacja modeli
Próbkowanie w górę mniej licznych klas
Generowanie danych w mniej licznych klasach
Próbkowanie w dół bardziej licznych klas
Próbkowanie w górę, a potem w dół
89
89
89
89
90
91
91
92
Rozdział 10. Klasyfikacja
Regresja logistyczna
Naiwny klasyfikator Bayesa
Maszyna wektorów nośnych
K najbliższych sąsiadów
Drzewo decyzyjne
Las losowy
XGBoost
Model LightGBM z gradientowym wzmacnianiem
TPOT
93
94
98
99
102
104
111
115
124
128
Rozdział 11. Wybór modelu
Krzywa weryfikacji
Krzywa uczenia
133
133
134
Rozdział 12. Wskaźniki i ocena klasyfikacji
Tablica pomyłek
Wskaźniki
Dokładność
Czułość
Precyzja
F1
Spis treści
137
137
140
141
141
141
142
5
Kup książkę
Poleć książkę
Zgłoś jeśli naruszono regulamin