04-Obiekty-DataFrame(1).pdf

(129 KB) Pobierz

(https://daneucza.pl)

Obiekty DataFrame

O obiekcie

DataFrame

możemy myśleć jak o kolekcji obiektów

Series

dzielących ten sam indeks.

In [1]:

import

pandas

In [2]:

# import biblioteki NumPy i funkcji random do wygenerowania macierzy (5x4) liczb pseudolosowych

import

numpy

from

numpy.random

import

randn

# aby wyniki były powtarzalne ustawiamy tzw. ziarno

np.random.seed(123)

In [3]:

pd.DataFrame(randn(5,4),index='A

B C D E'.split(),columns='W X Y Z'.split())

In [4]:

Out[4]:

-1.085631

-0.578600

1.265936

1.491390

0.997345

1.651437

0.282978

-1.506295

-2.426679 -0.428913

-0.866740 -0.678886 -0.094709

-0.638902 -0.443982 -0.434351

2.186786

1.004054

0.386186

2.205930

Selekcja

Nauczmy się sposóbów przechwytywania danych z obiektu

DataFrame

In [5]:

# pobranie kolumny W

df['W']

Out[5]:

-1.085631

-0.578600

1.265936

1.491390

2.205930

Name: W, dtype: float64

In [6]:

# pobranie kilku kolumn: W i Z

df[['W','Z']]

Out[6]:

-1.085631

-0.578600

1.265936

1.491390

-1.506295

-0.428913

-0.094709

-0.434351

0.386186

2.205930

In [7]:

# skladnia SQL, pobranie tylko jednej kolumny

df.W

Out[7]:

-1.085631

-0.578600

1.265936

1.491390

2.205930

Name: W, dtype: float64

Pojedyńcza kolumna obiektu

DataFrame

to obiekt

Series

In [8]:

type(df['W'])

Out[8]:

pandas.core.series.Series

Tworzenie nowej kolumny:

In [9]:

df['new']

df['W']

df['Y']

In [10]:

dfnazwie skladniki

Out[10]:

-1.085631

-0.578600

1.265936

1.491390

0.997345

1.651437

0.282978

new

-1.506295 -0.802652

-2.426679 -0.428913 -3.005279

-0.866740 -0.678886 -0.094709 0.587050

-0.638902 -0.443982 -0.434351 1.047408

2.186786

1.004054

0.386186

3.209984

2.205930

Usuwanie kolumn

In [11]:

df.drop('new',axis=1)

Out[11]:

-1.085631

-0.578600

1.265936

1.491390

0.997345

1.651437

0.282978

-1.506295

-2.426679 -0.428913

-0.866740 -0.678886 -0.094709

-0.638902 -0.443982 -0.434351

2.186786

1.004054

0.386186

2.205930

In [12]:

# funkcja drop nie usuwa orginalnej kolumny chyba, że sami to określimy

Out[12]:

-1.085631

-0.578600

1.265936

1.491390

0.997345

1.651437

0.282978

new

-1.506295 -0.802652

-2.426679 -0.428913 -3.005279

-0.866740 -0.678886 -0.094709 0.587050

-0.638902 -0.443982 -0.434351 1.047408

2.186786

1.004054

0.386186

3.209984

2.205930

In [13]:

# wskazanie inplace=True o usunięciu definitywnym kolumny 'new'

df.drop('new',axis=1,inplace=True)

In [14]:

Out[14]:

-1.085631

-0.578600

1.265936

1.491390

0.997345

1.651437

0.282978

-1.506295

-2.426679 -0.428913

-0.866740 -0.678886 -0.094709

-0.638902 -0.443982 -0.434351

2.186786

1.004054

0.386186

2.205930

Możemy uswać wiersze w ten sam sposób:

In [15]:

df.drop('E',axis=0)

Out[15]:

-1.085631

-0.578600

1.265936

1.491390

0.997345

1.651437

0.282978

-1.506295

-2.426679 -0.428913

-0.866740 -0.678886 -0.094709

-0.638902 -0.443982 -0.434351

Selekcja wierszy

In [16]:

# na bazie etykiety

df.loc['A']

Out[16]:

-1.085631

0.997345

0.282978

-1.506295

Name: A, dtype: float64

Lub bazując na identyfikatorze numerycznym zamiast na etykiecie

In [17]:

df.iloc[2]

Out[17]:

1.265936

-0.866740

-0.678886

-0.094709

Name: C, dtype: float64

Selekcja podzbioru na bazie etykiet wierszy i kolumn

In [18]:

df.loc['B','Y']

Out[18]:

-2.426679243393074

In [19]:

df.loc[['A','B'],['W','Y']]

Out[19]:

-1.085631

-0.578600

0.282978

-2.426679

Warunkowa selekcja

Bardzo ważną funkcją w

pandas

jest selekcja warunkowa.

In [20]:

Out[20]:

-1.085631

-0.578600

1.265936

1.491390

0.997345

1.651437

0.282978

-1.506295

-2.426679 -0.428913

-0.866740 -0.678886 -0.094709

-0.638902 -0.443982 -0.434351

2.186786

1.004054

0.386186

2.205930

In [21]:

df>0

Out[21]:

True

False

False True

True

False False

False False False

True

In [22]:

df[df>0]

Out[22]:

NaN

1.265936

1.491390

0.997345 0.282978 NaN

1.651437 NaN

NaN

2.205930 2.186786 1.004054 0.386186

In [23]:

df[df['W']>0]

Out[23]:

1.265936

1.491390

-0.866740 -0.678886 -0.094709

-0.638902 -0.443982 -0.434351

1.004054

0.386186

2.205930 2.186786

In [24]:

df[df['W']>0]['Y']

Out[24]:

-0.678886

-0.443982

1.004054

Name: Y, dtype: float64

In [25]:

df[df['W']>0][['Y','X']]

Out[25]:

-0.678886

-0.443982

-0.866740

-0.638902

2.186786

1.004054

Dla większej liczby warunków można użyć nawiasów i operatorów logicznych:

(lub/oraz)

(i)

In [26]:

df[(df['W']>0)

(df['Y']

> 1)]

Out[26]:

2.20593 2.186786 1.004054 0.386186

Indeks

Kilka funkcji indeksu z resetowaniem i ustawianiem indeksu włącznie.

In [27]:

Out[27]:

-1.085631

-0.578600

1.265936

1.491390

0.997345

1.651437

0.282978

-1.506295

-2.426679 -0.428913

-0.866740 -0.678886 -0.094709

-0.638902 -0.443982 -0.434351

2.186786

1.004054

0.386186

2.205930

Plik z chomika:

kufel_007

Inne pliki z tego folderu:

C+_Porady_i_Metody.pdf (102116 KB)
Helion - Visual Studio .NET .NET Framework. Czarna księga(1).pdf (83887 KB)
Eugeniusz Wróbel - Programowanie w Języku Asemblera MASM.pdf (50304 KB)
Ed Wilson - Windows PowerShell - Najlepsze Praktyki.pdf (24653 KB)
Helion - Visual Studio .NET .NET Framework. Czarna księga.pdf (83887 KB)

04-Obiekty-DataFrame(1).pdf

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: