Lab 2.pdf
(
590 KB
)
Pobierz
Laboratorium 2
1. Wczytanie tabeli danych do programu R
Zakładamy, że dysponujemy tabelą danych w programie Excel. Aby wczytać ją do programu
R potrzebne jest przygotowanie pliku w formacie csv. Zatem z poziomu Excela wybieramy
komendę
Zapisz jako,
a następnie w pasku
Zapisz jako typ
wybieramy (zob. rys. poniżej)
wariant
CSV (rozdzielany przecinkami).
Oczywiście nadajemy plikowi nazwę oraz
lokalizację.
Przypuśćmy, że plik csv zapisaliśmy na pendriva w folderze o nazwie
Analiza danych.
Komenda programu R wczytująca dane z tego pliku to
read.csv2
a jej podstawowym
argumentem jest ścieżka dostępu do pliku csv:
UWAGI !!!
Ścieżka dostępu w cudzysłowie.
W przypadku długich nazw warto je kopiować myszką. Ścieżkę dostępu można
uzyskać z
Właściwości,
które otworzymy prawym przyciskiem myszy na pliku, który
str. 1
chcemy wczytać. Kopiowanie ma jeszcze tą zaletę, że nie pomylimy się w nazwie.
Pamiętajmy, że ważna jest każda spacja w nazwie i zachowanie wielkości liter.
Znaki separujące nazwy folderów (back-slash) należy niestety ręcznie pozamieniać na
slash (czyli zmieniamy ich kierunek).
Oczywiście oprócz wczytania, znak = przypisuje tabelę danych do obiektu programu
R o nazwie dane.
2. Dostęp do informacji w tabeli
Obiekt dane ma strukturę data.frame co tłumaczymy zgodnie z intuicją jako tabela danych.
Ważne jest to, że kolumny reprezentujące zmienne mogą być ilościowe lub jakościowe. Jest
to więc struktura ogólniejsza od macierzy.
Dostęp do elementów tabeli – podobnie jak w wektorach – przez nawias kwadratowy.
Możliwy też jest dostęp do całych wierszy lub kolumn, czy też wybranych wielu wierszy lub
wielu kolumn. Zobaczmy to na poniższych przykładach.
Przykłady w R
dane[1,2]
dane[2, ]
dane[ ,1]
# wyświetlenie pojedynczego elementu (pierwszego wiersza i drugiej
kolumny)
# wyświetlenie całego 2-ego wiersza
# wyświetlenie całej 1-szej kolumny
# Kolumnę (reprezentującą zmienną) można też przypisać do obiektu
a = dane[ ,1]
# a następnie użyć jakiejś funkcji, np.
median(a)
# można także od razu
median(dane[ ,1])
dane[ ,-1]
dane[1:10, ]
# wyświetlenie tabeli
za wyjątkiem
1-szej kolumny
# wyświetlenie pierwszych 10-ciu wierszy
# dwukropek używany jest do ustalenia
zakresu
# oczywiście dotyczy to też kolumn
# wybranie dwóch pierwszych kolumn
dane[,1:2 ]
# Jak wybrać dwie kolumny, które nie są kolejnymi ?
# Odp. za pomocą instrukcji tworzącej wektor, np.
dane[ ,c(1,4)]
dane[ , -c(1,4)]
# wybranie pierwszej i czwartej kolumny
# wybranie kolumn poza pierwszą i czwartą
# Powyższe możliwości można łączyć dla wierszy i kolumn jednocześnie.
str. 2
# Dotąd wiersze lub kolumny były określone numerycznie, tzn. z góry wiedzieliśmy
# które z nich chcemy. Teraz zobaczymy jak wybrać wiersze, które spełniają
# pewien warunek. Nazywamy to
wyborem z warunkiem.
# Warunek to zdanie logiczne, a więc zdanie, któremu możemy przypisać wartość logiczną
# prawda lub fałsz.
# Przykład
dane[ dane[,1] <= 4000 , ]
# wyświetlenie wierszy, które w pierwszej kolumnie mają
# wartość nie większą niż 4000
# na żółto zamarkowano warunek
# wyświetlenie wierszy, które w pierwszej kolumnie mają
# wartość mniejszą od mediany (pamiętamy, że wcześniej
# a było medianą pierwszej zmiennej)
dane[ dane[,1] < a , ]
3. Macierze
Kolejną strukturą danych są macierze. Z poziomu użytkownika możemy na nie patrzeć jak na
tabelki z liczbami (już nie może być napisów jak w zmiennych jakościowych). Po wczytaniu
tabeli z pliku csv program R domyślnie nadaje obiektowi strukturę data.frame. Macierz
możemy otrzymać przez konwersję. Program R wykonuje to za pomocą instrukcji:
dane.m = as.matrix(dane)
Działania na macierzach A oraz B
t(A)
# transponowanie macierzy
A %*% B
# mnożenie macierzy
det(A)
# obliczanie wyznacznika
solve(A)
# wyznaczanie macierzy odwrotnej
solve(A,B)
# rozwiązanie układu równań AX = B
UWAGA: oczywiście muszą być spełnione wymagania teoretyczne rachunku macierzowego,
tj. wymiary macierzy oraz osobliwość.
Ćwiczenia z R
Wyjaśnij następujące instrukcje:
dane[10:30 , -1]
nowe.dane = dane[10:30 , -1]
dane[1, c(1,4,5)]
dane[-1, 2:5]
dane[ dane[ ,2] == 1 , ]
# UWAGA: podwójny znak równości oznacza
# równa się logiczne
X = as.matrix( dane[,-1] )
str. 3
Zadanie domowe
Z
Zestawu 1
wykonać zadania 2 i 4.
Pomocne mogą być:
Rozdziały 1 i 2 z książki Statystyczna analiza danych z wykorzystaniem programu R
(zob. sylabus)
Fragment książki Przemysława Biecka dostępny w sieci internet
http://biecek.pl/r/przewodnikpopakiecierwydanieiiiinternet.pdf
str. 4
Plik z chomika:
weronika_2272
Inne pliki z tego folderu:
DANE do analizy regresji.xls
(1959 KB)
1.docx
(15 KB)
AS1.csv
(10 KB)
AS2.csv
(330 KB)
AS3.csv
(1 KB)
Inne foldery tego chomika:
Galeria
informatyka i język programowania
Prywatne
Zgłoś jeśli
naruszono regulamin