Lab 3.pdf

(626 KB) Pobierz

Laboratorium 3

Wymagania teoretyczne



Znajomość procedury weryfikacji hipotez statystycznych. W szczególności

interpretacja tzw. wartości p (p-value). Miary korelacji.



Interpretacja wykresów: histogram, wykres pudełkowy (inaczej wykres ramka-wąsy)

1. Wybrane funkcje statystyczne i matematyczne (ciąg dalszy)

Zakładamy, że do obiektu dane wczytaliśmy tabelę o cenach działek.

Współczynnik korelacji Pearsona można obliczyć funkcją cor. Przykładowo

Y = dane[ ,1]

X = dane[ ,2]

cor(X,Y)

lub w jednej linii (bez przypisywania do nowych obiektów)

cor( dane[ ,2], dane[ ,1] )

W przypadku instrukcji

cor( dane )

otrzymamy tabelę korelacji każdej zmiennej z każdą.

Z kolei instrukcja

cor.test(X,Y)

oprócz obliczenia współczynnika korelacji liniowej wykona test jego statystycznej istotności.

Powstaje pytanie czy można ustawiać różne poziomy istotności i wybierać testy jednostronne.

Z systemu pomocy (zob. tabela poniżej) dowiadujemy się, że za pomocą powyższej funkcji

można też obliczyć i przetestować istotność innych współczynników korelacji, mianowicie

Kendalla oraz Spearmana. Są one użyteczne, gdyż wychwytują zależności monotoniczne,

niekoniecznie liniowe oraz można je stosować dla zmiennych ilościowej i porządkowej, a

także dla dwóch porządkowych. Przykładowo instrukcja

cor.test(X, Y, alternative = ”greater”, method = ”kendall”)

obliczy współczynnik Kendalla i wykona test jego istotności. Hipoteza alternatywna

postawiona jest w postaci nierówności

: współczynnik korelacji > 0

a więc mamy test jednostronny.

Ćwiczenie

Zinterpretować wynik zwracając uwagę na wartość p (p-value).

str. 1

Korzystanie z systemu pomocy

Opis każdej funkcji można znaleźć w dobrze rozbudowanym systemie pomocy programu R.

Wystarczy z

Menu głównego

wybrać opcję

Pomoc

a następnie

Funkcje R (tekst)

Tu wpisujemy nazwę funkcji, w naszym przypadku

cor.test

Tu otrzymamy informacje nt. możliwości użycia dodatkowych argumentów funkcji oraz

wartości jakie zwraca. Zwykle podane są przykłady kodów programu R oraz odnośniki do

literatury światowej.

Ocenę zależności dwóch zmiennych jakościowych można przeprowadzić testem chi-kwadrat.

W programie R realizuje to instrukcja:

chisq.test(x = , y = ),

gdzie oczywiście odwołujemy się do zmiennych (a więc kolumn tabeli danych).

Do ilustracji wykorzystamy plik z danymi umownymi DJ.csv. Zakładamy, że do obiektu

dane.DJ wczytaliśmy tabelę z tego pliku. Zależność koloru i marki samochodu zbadamy

instrukcją:

chisq.test(x = dane.DJ[ ,1], y = dane.DJ[ ,2])

Argumentem funkcji chisq.test może być także tabela kontyngencji

. Ilustruje to poniższy

skan ekranu.

Do analizy tablic kontyngencji i testu chi-kwadrat wrócimy przy temacie analiza korespondencji.

str. 2

W wielu analizach zakłada się normalność rozkładu zmiennej losowej. Poniższa instrukcja

przeprowadza test Shapiro-Wilka, gdzie hipotezą zerową jest

: badana zmienna ma rozkład normalny,

natomiast hipoteza alternatywna

: badana zmienna nie ma rozkładu normalnego

shapiro.test( dane[ ,1] )

# lub

shapiro.test(Y)

gdyż wcześniej było przypisanie

UWAGA:

Test Shapiro-Wilko jest uznawany za najlepszy test do sprawdzenia normalności

rozkładu zmiennej losowej. Głównym atutem tego testu jest jego duża moc, tzn. dla

ustalonego poziomu istotności prawdopodobieństwo odrzucenia hipotezy H

, jeśli jest ona

fałszywa, jest większe niż w przypadku innych tego typu testów.

Wybrane funkcje matematyczne

log(x)

logarytm naturalny

log2(x)

logarytm o podstawie 2

exp(x)

funkcja wykładnicza o podstawie

sqrt(x)

pierwiastek kwadratowy

abs(x)

wartość bezwzględna

floor(x)

zaokrąglenie liczby do najbliższej mniejszej od niej liczby całkowitej

round(x,digits) zaokrąglenie do określonego miejsca po przecinku.

UWAGA: argumentem x może być pojedyncza liczba lub wektor. W tym drugim przypadku

dostaniemy wektor wartości funkcji. Np.

str. 3

pierwiastek.D75 = sqrt( dane[ ,4] )

# otrzymujemy zmienną, która jest pierwiastkiem

# oryginalnej zmiennej D75

2. Wybrane funkcje graficzne

Rysowanie histogramu

hist(Y)

Wykres pudełkowy

boxplot(Y)

Wykres rozrzutu

plot(X, Y)

3. Instrukcja warunkowa i pętla

Składnia instrukcji warunkowej

if (WARUNEK) {

INSTRUKCJA 1

INSTRUKCJA 2

………………….

INSTRUKCJA k

}

else {

INSTRUKCJA_ALTERNATYWNA 1

INSTRUKCJA_ALTERNATYWNA 2

………………….

INSTRUKCJA_ALTERNATYWNA l

}

UWAGI



Niebieska część może być pominięta jeśli nie ma potrzeby wykonywania instrukcji

alternatywnych.



Jeżeli po WARUNKU ma być wykonana jedna pojedyncza instrukcja, całość może

być zapisana w jednej linii i bez nawiasu klamrowego (zob. przykład poniżej)

Składnia pętli for

for (LICZNIK in ZAKRES) {

INSTRUKCJA 1

INSTRUKCJA 2

………………….

INSTRUKCJA k

}

str. 4

UWAGI



LICZNIK to zmienna licząca iteracje.



ZAKRES przypomnijmy sobie, zapisujemy za pomocą dwukropka (zob. przykład

poniżej)

Zadanie domowe

Zestawu 1

wykonać zadanie 3.

Dodatkowo, posługując się pętlą

for

wyświetlić współczynniki zmienności kolejnych

zmiennych tabeli dane.

Dla chętnych zadanie 5 z

Zestawu 1.

Pomocne mogą być:



Rozdziały 1, 2 i 3 z książki Statystyczna analiza danych z wykorzystaniem programu

R (zob. sylabus)



Fragment książki Przemysława Biecka dostępny w sieci internet

http://biecek.pl/r/przewodnikpopakiecierwydanieiiiinternet.pdf

str. 5

Plik z chomika:

weronika_2272

Inne pliki z tego folderu:

DANE do analizy regresji.xls (1959 KB)
1.docx (15 KB)
AS1.csv (10 KB)
AS2.csv (330 KB)
AS3.csv (1 KB)

Lab 3.pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: