Lab 3.pdf

(626 KB) Pobierz
Laboratorium 3
Wymagania teoretyczne
Znajomość procedury weryfikacji hipotez statystycznych. W szczególności
interpretacja tzw. wartości p (p-value). Miary korelacji.
Interpretacja wykresów: histogram, wykres pudełkowy (inaczej wykres ramka-wąsy)
1. Wybrane funkcje statystyczne i matematyczne (ciąg dalszy)
Zakładamy, że do obiektu dane wczytaliśmy tabelę o cenach działek.
Współczynnik korelacji Pearsona można obliczyć funkcją cor. Przykładowo
Y = dane[ ,1]
X = dane[ ,2]
cor(X,Y)
lub w jednej linii (bez przypisywania do nowych obiektów)
cor( dane[ ,2], dane[ ,1] )
W przypadku instrukcji
cor( dane )
otrzymamy tabelę korelacji każdej zmiennej z każdą.
Z kolei instrukcja
cor.test(X,Y)
oprócz obliczenia współczynnika korelacji liniowej wykona test jego statystycznej istotności.
Powstaje pytanie czy można ustawiać różne poziomy istotności i wybierać testy jednostronne.
Z systemu pomocy (zob. tabela poniżej) dowiadujemy się, że za pomocą powyższej funkcji
można też obliczyć i przetestować istotność innych współczynników korelacji, mianowicie
Kendalla oraz Spearmana. Są one użyteczne, gdyż wychwytują zależności monotoniczne,
niekoniecznie liniowe oraz można je stosować dla zmiennych ilościowej i porządkowej, a
także dla dwóch porządkowych. Przykładowo instrukcja
cor.test(X, Y, alternative = ”greater”, method = ”kendall”)
obliczy współczynnik Kendalla i wykona test jego istotności. Hipoteza alternatywna
postawiona jest w postaci nierówności
H
1
: współczynnik korelacji > 0
a więc mamy test jednostronny.
Ćwiczenie
Zinterpretować wynik zwracając uwagę na wartość p (p-value).
str. 1
Korzystanie z systemu pomocy
Opis każdej funkcji można znaleźć w dobrze rozbudowanym systemie pomocy programu R.
Wystarczy z
Menu głównego
wybrać opcję
Pomoc
a następnie
Funkcje R (tekst)
Tu wpisujemy nazwę funkcji, w naszym przypadku
cor.test
Tu otrzymamy informacje nt. możliwości użycia dodatkowych argumentów funkcji oraz
wartości jakie zwraca. Zwykle podane są przykłady kodów programu R oraz odnośniki do
literatury światowej.
Ocenę zależności dwóch zmiennych jakościowych można przeprowadzić testem chi-kwadrat.
W programie R realizuje to instrukcja:
chisq.test(x = , y = ),
gdzie oczywiście odwołujemy się do zmiennych (a więc kolumn tabeli danych).
Do ilustracji wykorzystamy plik z danymi umownymi DJ.csv. Zakładamy, że do obiektu
dane.DJ wczytaliśmy tabelę z tego pliku. Zależność koloru i marki samochodu zbadamy
instrukcją:
chisq.test(x = dane.DJ[ ,1], y = dane.DJ[ ,2])
Argumentem funkcji chisq.test może być także tabela kontyngencji
1
. Ilustruje to poniższy
skan ekranu.
1
Do analizy tablic kontyngencji i testu chi-kwadrat wrócimy przy temacie analiza korespondencji.
str. 2
W wielu analizach zakłada się normalność rozkładu zmiennej losowej. Poniższa instrukcja
przeprowadza test Shapiro-Wilka, gdzie hipotezą zerową jest
H
0
: badana zmienna ma rozkład normalny,
natomiast hipoteza alternatywna
H
1
: badana zmienna nie ma rozkładu normalnego
shapiro.test( dane[ ,1] )
# lub
shapiro.test(Y)
gdyż wcześniej było przypisanie
UWAGA:
Test Shapiro-Wilko jest uznawany za najlepszy test do sprawdzenia normalności
rozkładu zmiennej losowej. Głównym atutem tego testu jest jego duża moc, tzn. dla
ustalonego poziomu istotności prawdopodobieństwo odrzucenia hipotezy H
0
, jeśli jest ona
fałszywa, jest większe niż w przypadku innych tego typu testów.
Wybrane funkcje matematyczne
log(x)
logarytm naturalny
log2(x)
logarytm o podstawie 2
exp(x)
funkcja wykładnicza o podstawie
e
sqrt(x)
pierwiastek kwadratowy
abs(x)
wartość bezwzględna
floor(x)
zaokrąglenie liczby do najbliższej mniejszej od niej liczby całkowitej
round(x,digits) zaokrąglenie do określonego miejsca po przecinku.
UWAGA: argumentem x może być pojedyncza liczba lub wektor. W tym drugim przypadku
dostaniemy wektor wartości funkcji. Np.
str. 3
pierwiastek.D75 = sqrt( dane[ ,4] )
# otrzymujemy zmienną, która jest pierwiastkiem
# oryginalnej zmiennej D75
2. Wybrane funkcje graficzne
Rysowanie histogramu
hist(Y)
Wykres pudełkowy
boxplot(Y)
Wykres rozrzutu
plot(X, Y)
3. Instrukcja warunkowa i pętla
Składnia instrukcji warunkowej
if (WARUNEK) {
INSTRUKCJA 1
INSTRUKCJA 2
………………….
INSTRUKCJA k
}
else {
INSTRUKCJA_ALTERNATYWNA 1
INSTRUKCJA_ALTERNATYWNA 2
………………….
INSTRUKCJA_ALTERNATYWNA l
}
UWAGI
Niebieska część może być pominięta jeśli nie ma potrzeby wykonywania instrukcji
alternatywnych.
Jeżeli po WARUNKU ma być wykonana jedna pojedyncza instrukcja, całość może
być zapisana w jednej linii i bez nawiasu klamrowego (zob. przykład poniżej)
Składnia pętli for
for (LICZNIK in ZAKRES) {
INSTRUKCJA 1
INSTRUKCJA 2
………………….
INSTRUKCJA k
}
str. 4
UWAGI
LICZNIK to zmienna licząca iteracje.
ZAKRES przypomnijmy sobie, zapisujemy za pomocą dwukropka (zob. przykład
poniżej)
Zadanie domowe
Z
Zestawu 1
wykonać zadanie 3.
Dodatkowo, posługując się pętlą
for
wyświetlić współczynniki zmienności kolejnych
zmiennych tabeli dane.
Dla chętnych zadanie 5 z
Zestawu 1.
Pomocne mogą być:
Rozdziały 1, 2 i 3 z książki Statystyczna analiza danych z wykorzystaniem programu
R (zob. sylabus)
Fragment książki Przemysława Biecka dostępny w sieci internet
http://biecek.pl/r/przewodnikpopakiecierwydanieiiiinternet.pdf
str. 5
Zgłoś jeśli naruszono regulamin