V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3255 天前的主题，其中的信息可能已经有所发展或是发生改变。

python 数据分析之 pandas 进阶（一）

导入本篇中使用到的模块：

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

我们可以调整数据输出框大小以便观察：

pd.set_option('display.width', 200)

一、创建对象

1 、可以通过传递一个 list 对象来创建一个 Series ， pandas 会默认创建整型索引：

s = pd.Series([1,3,5,np.nan,6,8])
s
 
0     1
1     3
2     5
3   NaN
4     6
5     8
dtype: float64dates = pd.date_range('20130101', periods=6)

2 、通过传递一个 numpy array ，时间索引以及列标签来创建一个 DataFrame ：

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
dates
df
 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
 
	        A       	B	        C	        D
2013-01-01	-1.857957	-0.297110	0.135704	0.199878
2013-01-02	0.139027	1.683491	-1.031190	1.447487
2013-01-03	-0.596279	-1.211098	1.169525	0.663366
2013-01-04	0.367213	-0.020313	2.169802	-1.295228
2013-01-05	0.224122	1.003625	-0.488250	-0.594528
2013-01-06	0.186073	-0.537019	-0.252442	0.530238

3 、通过传递一个能够被转换成类似序列结构的字典对象来创建一个 DataFrame ：

df2 = pd.DataFrame({'A':1.,
                    'B':pd.Timestamp('20130102'),
                    'C':pd.Series(1, index=list(range(4)),dtype='float32'),
                    'D':np.array([3] * 4, dtype='int32'),
                    'E':pd.Categorical(['test','train', 'test','train']),
                    'F':'foo'
                   })
df2

4 、查看不同列的数据类型：

df2.dtypes
 
A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

5 、使用 Tab 自动补全功

二、查看数据

1.查看 Frame 中头部和尾部的行：能会自动识别所有的属性以及自定义的列

df.head()
 
	        A	        B            	C	        D
2013-01-01	-1.857957	-0.297110	0.135704	0.199878
2013-01-02	0.139027	1.683491	-1.031190	1.447487
2013-01-03	-0.596279	-1.211098	1.169525	0.663366
2013-01-04	0.367213	-0.020313	2.169802	-1.295228
2013-01-05	0.224122	1.003625	-0.488250	-0.594528

df.tail(3)
 
	        A	        B	        C	        D
2013-01-04	0.367213	-0.020313	2.169802	-1.295228
2013-01-05	0.224122	1.003625	-0.488250	-0.594528
2013-01-06	0.186073	-0.537019	-0.252442	0.530238

2 、显示索引、列和底层的 numpy 数据：

df.index
 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
 
df.columns
 
Index(['A', 'B', 'C', 'D'], dtype='object')

3 、 describe()函数对于数据的快速统计汇总：

df.describe()
 
	A        	B	        C	        D
count	6.000000	6.000000	6.000000	6.000000
mean	-0.256300	0.103596	0.283858	0.158536
std	0.854686	1.060269	1.181208	0.973309
min	-1.857957	-1.211098	-1.031190	-1.295228
25%	-0.412452	-0.477042	-0.429298	-0.395927
50%	0.162550	-0.158711	-0.058369	0.365058
75%	0.214610	0.747641	0.911070	0.630084
max	0.367213	1.683491	2.169802	1.447487

4 、对数据的转置(tranverse):

df.T
 
	2013-01-01 	2013-01-02 	2013-01-03	2013-01-04 	2013-01-05 	2013-01-06 
        00:00:00        00:00:00        00:00:00        00:00:00        00:00:00        00:00:00
A	-1.857957	0.139027	-0.596279	0.367213	0.224122	0.186073
B	-0.297110	1.683491	-1.211098	-0.020313	1.003625	-0.537019
C	0.135704	-1.031190	1.169525	2.169802	-0.488250	-0.252442
D	0.199878	1.447487	0.663366	-1.295228	-0.594528	0.530238

5 、按轴进行排序：

df.sort_index(axis=1,ascending=False)
 
	        D	        C	        B	        A
2013-01-01	0.199878	0.135704	-0.297110	-1.857957
2013-01-02	1.447487	-1.031190	1.683491	0.139027
2013-01-03	0.663366	1.169525	-1.211098	-0.596279
2013-01-04	-1.295228	2.169802	-0.020313	0.367213
2013-01-05	-0.594528	-0.488250	1.003625	0.224122
2013-01-06	0.530238	-0.252442	-0.537019	0.186073

6 、按值进行排序：

df.sort(columns='B')
 
	        A	        B	        C	        D
2013-01-03	-0.596279	-1.211098	1.169525	0.663366
2013-01-06	0.186073	-0.537019	-0.252442	0.530238
2013-01-01	-1.857957	-0.297110	0.135704	0.199878
2013-01-04	0.367213	-0.020313	2.169802	-1.295228
2013-01-05	0.224122	1.003625	-0.488250	-0.594528
2013-01-02	0.139027	1.683491	-1.031190	1.447487

三、选择数据

以下是将要操作的数组：

df
 
	        A	        B	        C	        D
2013-01-01	-1.857957	-0.297110	0.135704	0.199878
2013-01-02	0.139027	1.683491	-1.031190	1.447487
2013-01-03	-0.596279	-1.211098	1.169525	0.663366
2013-01-04	0.367213	-0.020313	2.169802	-1.295228
2013-01-05	0.224122	1.003625	-0.488250	-0.594528
2013-01-06	0.186073	-0.537019	-0.252442	0.530238

1 、获取数据

(1)、选择一个单独的列，这将会返回一个 Series:

df['A']
 
2013-01-01   -1.857957
2013-01-02    0.139027
2013-01-03   -0.596279
2013-01-04    0.367213
2013-01-05    0.224122
2013-01-06    0.186073
Freq: D, Name: A, dtype: float64

(2)、通过[]进行选择，即：切片

df[0:3]
 
	        A	        B	        C 	        D
2013-01-01	-1.857957	-0.297110	0.135704	0.199878
2013-01-02	0.139027	1.683491	-1.031190	1.447487
2013-01-03	-0.596279	-1.211098	1.169525	0.663366

2 、标签选择

(1)、使用标签来获取一个交叉的区域

df.loc[dates[0]]
 
A   -1.857957
B   -0.297110
C    0.135704
D    0.199878
Name: 2013-01-01 00:00:00, dtype: float64

(2)、通过标签来在多个轴上进行选择

df.loc[:,['A', 'B']]
 
	        A 	         B
2013-01-01	-1.857957	-0.297110
2013-01-02	0.139027	1.683491
2013-01-03	-0.596279	-1.211098
2013-01-04	0.367213	-0.020313
2013-01-05	0.224122	1.003625
2013-01-06	0.186073	-0.537019

(3)、标签切片

df.loc['20130102':'20130104', ['A','B']]
 
	        A	        B
2013-01-02	0.139027	1.683491
2013-01-03	-0.596279	-1.211098
2013-01-04	0.367213	-0.020313

(4)、对于返回的对象进行维度缩减

df.loc['20130102', ['A','B']]
 
A    0.139027
B    1.683491
Name: 2013-01-02 00:00:00, dtype: float64

(5)、获取一个标量

df.loc[dates[0], 'A']
 
-1.8579571971312099

3 、位置选择

(1)、通过传递数值进行位置选择（选择的是行）

df.iloc[3]
 
A    0.367213
B   -0.020313
C    2.169802
D   -1.295228
Name: 2013-01-04 00:00:00, dtype: float64

(2)、通过数值进行切片

df.iloc[3:5,0:2]
 
	        A 	        B
2013-01-04	0.367213	-0.020313
2013-01-05	0.224122	1.003625

(3)、通过指定一个位置的列表

df.iloc[[1,2,4],[0,2]]
 
	        A	        C
2013-01-02	0.139027	-1.031190
2013-01-03	-0.596279	1.169525
2013-01-05	0.224122	-0.488250

(4)、对行进行切片

df.iloc[1:3,:]
 
	        A	        B	        C	        D
2013-01-02	0.139027	1.683491	-1.031190	1.447487
2013-01-03	-0.596279	-1.211098	1.169525	0.663366

(5)、获取特定的值

df.iloc[1,1]
 
1.6834910794696132

4 、布尔索引

(1)、使用一个单独列的值来选择数据：

df[df.A > 0]
 
	        A	        B 	        C	        D
2013-01-02	0.139027	1.683491	-1.031190	1.447487
2013-01-04	0.367213	-0.020313	2.169802	-1.295228
2013-01-05	0.224122	1.003625	-0.488250	-0.594528
2013-01-06	0.186073	-0.537019	-0.252442	0.530238

(2)、使用 where 操作来选择数据：

df[df > 0]
 
	        A	        B	        C	        D
2013-01-01	NaN	        NaN	        0.135704	0.199878
2013-01-02	0.139027	1.683491	NaN	        1.447487
2013-01-03	NaN	        NaN	        1.169525	0.663366
2013-01-04	0.367213	NaN	        2.169802	NaN
2013-01-05	0.224122	1.003625	NaN	        NaN
2013-01-06	0.186073	NaN	        NaN	        0.530238

(3)、使用 isin()方法来过滤：

df2 = df.copy()
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
df2
 
	        A	        B 	        C	        D	        E
2013-01-01	-1.857957	-0.297110	0.135704	0.199878	one
2013-01-02	0.139027	1.683491	-1.031190	1.447487	one
2013-01-03	-0.596279	-1.211098	1.169525	0.663366	two
2013-01-04	0.367213	-0.020313	2.169802	-1.295228	three
2013-01-05	0.224122	1.003625	-0.488250	-0.594528	four
2013-01-06	0.186073	-0.537019	-0.252442	0.530238	three

df2[df2['E'].isin(['two', 'four'])]
 
	        A	        B	         C	        D	        E
2013-01-03	-0.596279	-1.211098	1.169525	0.663366	two
2013-01-05	0.224122	1.003625	-0.488250	-0.594528	four

5 、设置

(1)、设置一个新的列：

s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
s1
 
2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64

df['F'] = s1
df
 
	        A	        B	        C	        D	F
2013-01-01	0.000000	0.000000	0.135704	5	NaN
2013-01-02	0.139027	1.683491	-1.031190	5	1
2013-01-03	-0.596279	-1.211098	1.169525	5	2
2013-01-04	0.367213	-0.020313	2.169802	5	3
2013-01-05	0.224122	1.003625	-0.488250	5	4
2013-01-06	0.186073	-0.537019	-0.252442	5	5

(2)、设置新值

df.at[dates[0],'A'] = 0  #通过标签设置新值
df.iat[0,1] = 0  #通过位置设置新值
df.loc[:, 'D'] = np.array([5] * len(df))  #通过一个 numpy 数值设置一组新值
df
 
	        A	        B	        C	        D	F
2013-01-01	0.000000	0.000000	0.135704	5	NaN
2013-01-02	0.139027	1.683491	-1.031190	5	1
2013-01-03	-0.596279	-1.211098	1.169525	5	2
2013-01-04	0.367213	-0.020313	2.169802	5	3
2013-01-05	0.224122	1.003625	-0.488250	5	4
2013-01-06	0.186073	-0.537019	-0.252442	5	5

四、缺失值处理

在 pandas 中，使用 np.nan 来代替缺失值，这些值将默认不会包含在计算中。所处理的数组是：

df
 
	        A	        B	        C	        D	F
2013-01-01	0.000000	0.000000	0.135704	5	NaN
2013-01-02	0.139027	1.683491	-1.031190	5	1
2013-01-03	-0.596279	-1.211098	1.169525	5	2
2013-01-04	0.367213	-0.020313	2.169802	5	3
2013-01-05	0.224122	1.003625	-0.488250	5	4
2013-01-06	0.186073	-0.537019	-0.252442	5	5

1 、 reindex()方法可以对指定轴上的索引进行改变 /增加 /删除操作，这将返回原始数据的一个拷贝：

df1 = df.reindex(index=dates[0:4],columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1], 'E'] = 1
df1
 
 
                A	        B	        C	        D	F	E
2013-01-01	0.000000	0.000000	0.135704	5	NaN	1
2013-01-02	0.139027	1.683491	-1.031190	5	1	1
2013-01-03	-0.596279	-1.211098	1.169525	5	2	NaN
2013-01-04	0.367213	-0.020313	2.169802	5	3	NaN

2 、去掉包含缺失值的行：

df1.dropna(how='any')
 
	        A	        B	        C	        D	F	E
2013-01-02	0.139027	1.683491	-1.03119	5	1	
1

3 、对缺失值进行填充：

df1.fillna(value=5)
 
	        A	        B	        C	        D	F	E
2013-01-01	0.000000	0.000000	0.135704	5	5	1
2013-01-02	0.139027	1.683491	-1.031190	5	1	1
2013-01-03	-0.596279	-1.211098	1.169525	5	2	5
2013-01-04	0.367213	-0.020313	2.169802	5	3	5

4 、对数据进行布尔填充：

pd.isnull(df1)
 
	        A	B	C	D	F	E
2013-01-01	False	False	False	False	True	False
2013-01-02	False	False	False	False	False	False
2013-01-03	False	False	False	False	False	True
2013-01-04	False	False	False	False	False	True

五、合并

pandas 提供了大量的方法能够轻松的对 Series 、 DataFrame 和 Panel 对象进行各种符合各种逻辑关系的合并操作。

1 、 Concat

df = pd.DataFrame(np.random.randn(10, 4))
df
 
	0	        1	        2	         3
0	0.680581	1.918851	0.521201	-0.389951
1	0.724157	2.282989	0.648427	-0.827308
2	2.437781	0.232518	1.066197	-0.233117
3	0.038747	3.174875	-1.384120	0.322864
4	-0.835962	1.015841	0.042094	-1.903701
5	0.095194	1.926612	0.512825	0.786349
6	-1.098231	-0.669381	-0.623124	-0.411114
7	-1.229527	-0.738026	0.453683	-2.037488
8	-0.499546	-0.816864	-0.395079	-0.320400
9	0.850367	1.047287	-1.205815	-1.287821

pieces = [df[:3], df[3:7], df[7:]]
# break it into pieces
pieces
 
[          0         1         2         3
 0  0.680581  1.918851  0.521201 -0.389951
 1  0.724157  2.282989  0.648427 -0.827308
 2  2.437781  0.232518  1.066197 -0.233117,
           0         1         2         3
 3  0.038747  3.174875 -1.384120  0.322864
 4 -0.835962  1.015841  0.042094 -1.903701
 5  0.095194  1.926612  0.512825  0.786349
 6 -1.098231 -0.669381 -0.623124 -0.411114,
           0         1         2         3
 7 -1.229527 -0.738026  0.453683 -2.037488
 8 -0.499546 -0.816864 -0.395079 -0.320400
 9  0.850367  1.047287 -1.205815 -1.287821]

2 、 Append 将一行连接到一个 DataFrame 上

df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])
df
 
	A	        B	        C	        D
0	-0.923050	-1.798683	-0.543700	0.983715
1	-0.031082	1.069746	-0.761914	0.142136
2	0.178376	-0.984427	0.270601	0.737754
3	-0.882595	0.057637	-1.027661	-1.829378
4	0.570082	0.210366	0.805305	-1.233238
5	0.442322	0.709155	-0.304849	0.885378
6	-0.218852	0.052263	0.467727	0.832747
7	0.516890	0.005642	-0.990794	-1.624444

s = df.iloc[3]
df.append(s, ignore_index=True)
 
	A	        B	        C	        D
0	-0.923050	-1.798683	-0.543700	0.983715
1	-0.031082	1.069746	-0.761914	0.142136
2	0.178376	-0.984427	0.270601	0.737754
3	-0.882595	0.057637	-1.027661	-1.829378
4	0.570082	0.210366	0.805305	-1.233238
5	0.442322	0.709155	-0.304849	0.885378
6	-0.218852	0.052263	0.467727	0.832747
7	0.516890	0.005642	-0.990794	-1.624444
8	-0.882595	0.057637	-1.027661	-1.829378