Internet_Analityka_danych_e_1ffr.pdf

(191 KB) Pobierz
Część I
Analityka danych
– zagadnienia podstawowe
Kup książkę
Wojciech Rafał Wiewiórowski
Rozdział 1.
Cele analityki danych
W świecie
Big Data,
w którym każda organizacja może uzyskać zdalny
dostęp do ogromnych zasobów danych, zasada „gdy wrzucisz śmieci do sys-
temu, to końcowym efektem ich przetwarzania będą również śmieci”, nabiera
nowego znaczenia. Skupiając się na rozwoju narzędzi analitycznych i  moż-
liwościach ich użycia zdajemy się zapominać, że podstawą dla prawidłowej
oceny świata poddawanego analizie jest poprawne określenie, jakie dane i dla
jakiego celu chcemy przetwarzać.
Rozważania dotyczące roli analityki danych należy zacząć od omówienia
oczekiwań wobec niej. Celem wykorzystywania narzędzi
Big Data
jest identyfi-
kowanie takich zachowań indywidualnych osób, które przynoszą mniej zagrożeń
i  potencjalnie kreują większe przychody dokonującemu analizy podmiotowi
1
.
Wszelkie odstępstwa od modelu zachowania uważanego za najbardziej akcep-
towany są traktowane jako z założenia podejrzane. Taki efekt analiz
Big Data
może paradoksalnie być największym niebezpieczeństwem dla samego modelu.
Oznacza on bowiem, że wszelka odmienność i innowacyjność jest traktowana
jako potencjalne zagrożenie. System informacyjny zaczyna działać, jak – znany
ze starej piosenki – „centralny wyrównywacz”. Może to prowadzić do szcze-
gólnych form dyskryminacji w sektorze bankowym czy ubezpieczeniowym, ale
również prowadzić musi do podobnych skutków w sektorze publicznym. Przy
działaniach dokonywanych na podstawie danych z zasobów prywatnych i z reje-
strów publicznych należy przede wszystkim ocenić jakość danych w nich zawar-
tych i spójność pozyskiwanego z danego zasobu „wyciągu danych”
2
.
V. Mayer-Schoenberger, K. Cukier,
Big Data. Rewolucja, która zmieni nasze myślenie, pracę i życie,
Warszawa 2014, s. 170–171, w ciekawy sposób opisują, dlaczego niektórych badań nie mogą i nie
chcą prowadzić administratorzy pierwotnych danych i dlaczego tym samym można stworzyć model
biznesowy dla ponownego wykorzystania tych danych.
2
O problemie automatyzacji błędnych decyzji lub decyzji opartych na niereprezentatywnych danych
pisze
V. Eubanks,
Automating Inequality. How high-tech tools profile, police and punish the poor,
1
Wojciech Rafał Wiewiórowski
Kup książkę
3
Część I. Analityka danych – zagadnienia podstawowe
Zagrożenie zmianą podstawowych zachowań społecznych w  związku
z ryzykiem wykorzystania danych przeciwko nam samym staje się bardzo po-
ważne, jeśli w  jakimkolwiek momencie miałoby dojść do ponownego prze-
twarzania indywidualnych danych dotyczących oświaty czy ochrony zdrowia
w modelu otwartych danych. Już sama świadomość, że nasze zachowanie jest
stale obserwowane przez „inteligentną szkołę”, „inteligentne e-zdrowie” czy
„inteligentne miasto”, które mogą się później swą wiedzą o nas dzielić z inny-
mi, będzie ziszczeniem się obaw przed „nowym wspaniałym światem”, w któ-
rym wszyscy się nawzajem obserwują
3
.
W czasach
Big Data
na pierwszy plan wysuwa się jednak inne oczekiwa-
nie wobec nowoczesnych narzędzi analitycznych przetwarzających ogromne
zasoby danych. Profesor
Bolesław Szafrański,
poszukując polskiego tłumacze-
nia terminu
Big Data,
proponował używanie sformułowania „moc danych”
4
,
ponieważ z jednej strony określa ono, że tych danych „jest moc”, czyli że mamy
do czynienia z mnóstwem ogromnych zasobów, z drugiej strony te zasoby i to
co w danych się znajduje, kreują – poprzez efekt synergii – dodatkową moc dla
wszystkich, którzy je przetwarzają
5
.
Kolejne etapy informatyzacji procesów gospodarczych i  administracyj-
nych oraz rosnąca rola środków komunikacji elektronicznej w życiu codzien-
nym powodowały, że już od lat 70. wzrastało przekonanie, że istnieją podmio-
ty, które uzyskują bądź mogą uzyskać dostęp do lawinowo rozwijających się
zasobów informacyjnych i mogą wdrożyć sposoby przetwarzania informacji,
które – nieznane nieświadomym uczestnikom rynku i  obywatelom – mogą
prowadzić do podejmowania wobec nich środków, których nie są świado-
mi i  które wręcz mogą prowadzić do dyskryminacji osób, grup społecznych
czy przedsiębiorców. Pierwotnie organizacją, która była w  naturalny sposób
oskarżana o chęć świadomego, acz ukrytego przetwarzania rozproszonych da-
nych w sposób, który może naruszać prawa i wolności, było państwo. Szybko
rozprzestrzeniało się przekonanie, że praktyki potężnych rządów i korporacji
w  zakresie przetwarzania danych redukują jednostki do statusu przedmiotu
danych, co zagraża prawom podstawowym i wolnościom. Już w latach 70. i 80.
możemy przywołać liczne wezwania do ograniczenia takich praktyk lub wpro-
wadzenia różnych mechanizmów kontroli nad działaniami państwa, a wkrótce
New York 2018, s. 14–174. Na temat maszynowego spaczenia ocen wykorzystywanych na potrzeby
postępowań karnych zob.
A. Renda,
Artificial Intelligence Ethics, governance and policy challenges.
Report of CEPS Task Force, Brussel 2019, s. 25–26. Szerzej problemy nieprawidłowości ocen oma-
wia
T. Chivers,
The AI Does Not Hate You. Superinteligence, rationality and the race to save the
world, London 2019, s. 143–164.
3
O  tym, dlaczego wyniki w  nauce mogą mieć wpływ na stawki ubezpieczeniowe, zob.
V. Mayer-
-Schoenberger, K. Cukier,
Big Data, s. 210.
4
Sformułowania tego użył np. w tytule XXI Forum Teleinformatyki „Moc danych – nowe źródła
i metody analizy i ochrony danych” (Miedzeszyn 24–25 września 2015 r.).
5
K. Pries, R. Dunningham,
Big Data Analytics. A Practical Guide for Managers, Boca Raton–Lon-
don–New York 2015, s. 64–66.
4
Wojciech Rafał Wiewiórowski
Kup książkę
Rozdział 1. Cele analityki danych
również nad działaniami podmiotów rynkowych. W tym znaczeniu możemy
powiedzieć, że zastrzeżenia wobec możliwości naruszania wolności i praw in-
formacyjnych lub manipulowania wielkoskalowymi zasobami danych nie są
niczym nowym. Tym jednak, co wyróżnia obecną falę zintegrowanego prze-
twarzania informacji przy wykorzystaniu technologii komunikacyjnych, okre-
ślanego terminem
Big Data,
jest wszechobecność takich działań i siła.
Liczba urządzeń podłączonych do Internetu przewyższa liczbę ludzi żyją-
cych na Ziemi. Jest to jednak dopiero początek procesu, który zmultiplikuje licz-
bę urządzeń, dostępną pamięć i pasmo transmisji. Przewiduje się, że „Internet
rzeczy” oraz analiza dużych zbiorów danych zostanie dodatkowo wzmocniona
przez powiązanie tych działań z systemami opartymi na sztucznej inteligencji
6
,
przetwarzaniu poleceń i treści zapisanych w języku naturalnym oraz z systema-
mi przetwarzającymi informacje biometryczne (rozpoznającymi głos, wizerunek
lub inne indywidualizujące cechy osoby). Choć sama idea zastosowania sztucz-
nej inteligencji dla umożliwienia systemom uczenia się nie jest nowa, dla trzeciej
dekady XXI w. będzie to już nie idea, lecz rzeczywistość. Instytucje publiczne
i podmioty komercyjne są dziś w stanie wykroczyć poza „eksplorację danych” ku
działalności, którą można by nazwać „eksploracją rzeczywistości”
7
.
Tak w Polsce, jak i całej Europie panuje przekonanie, że konieczność wy-
korzystywania takich rozwiązań przez administrację publiczną nie idzie w pa-
rze z możliwościami tworzenia i utrzymywania takich rozwiązań przez polskie
i europejskie podmioty publiczne. Z pewnością instytucje publiczne – nawet
te związane z utrzymaniem bezpieczeństwa publicznego – nie są dziś w stanie
samodzielnie prowadzić centrów kompetencyjnych badających i wdrażających
prawdziwie innowacyjne metody przetwarzania danych.
Być może jednocześnie jesteśmy już u kresu paradygmatu chmury. Ocenia
się, że za kilka lat analiza danych nie będzie przeprowadzana na zasobach, które
będą gromadzone w ogromnych centrach przetwarzania danych, jak to dzieje się
dziś, z tego powodu, że lawina danych, z którą mamy obecnie do czynienia, spo-
woduje, że nie będzie takiego miejsca na Ziemi, gdzie te dane będą mogły być
przechowywane na stałe
8
. Nie będzie również sensu, aby gromadzić je na bieżąco
do zasobu większego niż ten, który potrzebny jest w urządzeniu, na którym są
one gromadzone. Tym samym może dojść do swoistego ożywienia i ponownego
spopularyzowania modelu gridowego czy też postgridowego. W  modelu tym
dane przechowywane będą na urządzeniach, analityka będzie zaś dokonywana
przy pomocy narzędzi zcentralizowanych, co nie znaczy, że centralnych.
Analiza danych powinna być przeprowadzona po to, żeby osiągnąć cel, któ-
rym jest poszerzenie wiedzy podmiotów dokonujących analizy lub podmiotów,
J. Patterson, A. Gibson,
Deep Learning. Praktyczne wprowadzenie, Gliwice 2018, s. 365–374.
N. Bostrom,
Superinteligencja. Scenariusze, strategie, zagrożenia, Gliwice 2016.
8
O problemie składowania danych w takich centrach pisze
B. Smith,
Tools and Weapons. The pro-
mise and peril of the digital age, London 2019, s. XIII–XXII.
6
7
Wojciech Rafał Wiewiórowski
Kup książkę
5
Zgłoś jeśli naruszono regulamin