五、数据处理_综合

1 缺失值判断/填充/设置/删除：

（1）判断缺失值：

# 检查数据中是否含有任何缺失值：
df.isnull().values.any()# 查看每列数据缺失值：
df.isnull().sum()# 查看每列非缺失值数：
df.notnull().sum()
df.shape[0] - df.isnull().sum()

（2）缺失值填充：

# 用上下平均值填充：
df['xxx'] = df['xxx'].fillna(df['xxx'].interpolate())
# df  (注意赋值，如果不赋值，原始序列未改变)# 将缺失值全部替换为1.0：
df.fillna(value =1.0, inplace = True)

（3）更改缺失值：

# 将某列第10行到19行设置为缺失值：
df.loc[9:18,'xxx'] = np.nan# 将第三行设置为缺失值：
df.loc[:2] = np.nan

（4）删除缺失值：

# 删除所有存在缺失值的行：
data.dropna(axis=0, how='any', inplace=True)# 删除所有有缺失值的行
df.dropna()  -- 默认axis=0# 删除所有有缺失值的列
df.dropna(axis='columns')
df.dropna(axis=1)# 删除所有值缺失的行
df.dropna(how='all')# 删除至少有两个非缺失值的行
df.dropna(thresh=2)# 指定判断缺失值的列范围
df.dropna(subset=['name', 'born'])# 使删除和的结果生效
df.dropna(inplace=True)#指定列的缺失值删除
df.toy.dropna()

2 数据去重：

# drop_duplicates()
df.drop_duplicates(['xxx'])

3 添加/删除数据：

（1）删除最后一行数据：

df.drop(index=[len(df)-1], inplace=True)

（2）添加一行数据：['Perl', 6.6]

# 方法一：字典
df2 = pd.DataFrame({'grammer':['Perl'],'popularity':[6.6]
})
df = df.append(df2,ignore_index=True)
df# 方法二：loc
df.loc[len(df)] = ['Perl',6.6]

4 数据排序：

# 按照某一列值大小进行排序
df.sort_values(by=['popularity'], ascending=True)  #注：ascending：True升序，False降序

5 数据类型转换：

（1）设置小数位数：

# 方法一：round()函数
df.round(3)# 方法二：map + lambda
df['xxx'] = df['xxx'].map(lambda x : ('%.2f') % x)# 方法三：map + lambda + format
df['xxx'] = df['xxx'].map(lambda x : format(x, '.2f'))

（2）设置百分数：

# 方法一：自定义函数+格式化处理
df['xxx'] = df['xxx'].map(lambda x : format(x, '.2%'))# 方法二：style + 格式化处理
df.style.format({'xxx' : '{0:.2%}'.format})

（3）某列数据转换为浮点类型：

# 方法一：
df['xxx'].str.strip('$').astype('float') # 如果该列存美元符号#方法二：
df['xxx'].apply(lambda x : float(x[1:])

（4）Series类型转list：

df['xxx'].tolist()  #或者to_list()

（5）将时间戳类型数据转换为datetime类型：

# 将createTime（第一列）列时间转换为月-日:
for i in range(len(df)):df.iloc[i,0] = df.iloc[i,0].to_pydatetime().strftime("%m-%d")
df.head()# 注：采用Timestamp.to_pydatetime()函数将给定的时间戳转换为本地python datetime对象; strftime() 
# 用来格式化datetime 对象；# 参考资料：
#   https://vimsky.com/examples/usage/python-pandas-timestamp-to_pydatetime.html
#   https://blog.csdn.net/shomy_liu/article/details/44141483

（6）将字符串类型转换为datetime64：

# 方法一：
df['xxx'].astype('datetime64[ns]')# 方法二：
df.Year = pd.to_datetime(df.Year,format='%Y')

6 数据拆分：

（1）某列按照'_'划分：

df['xxx'].str.split('_')

（2）strip() ：删除开头和结尾的任何字符，默认空格

df['xxx'].strip('xxx')

7 将某列数据开根号：

# 方法一：apply() + np.sqrt()
df[['xxx']].apply(np.sqrt)# 方法二：map + math.sqrt()
pd.DataFrame(df['xxx'].map(lambda x : math.sqrt(x)))

8 计算某列最大最小值之差（极差）：

# 方法一：max()，min()
df['salary'].max() - df['salary'].min()# 方法二：apply + lambda
df[['salary']].apply(lambda x : x.max() - x.min())# 方法三：numpy.ptp()函数
np.ptp(df['salary'])

9 将某列数据(比如：薪资18k-23k)转换为最大值与最小值的平均值：

# apply + 自定义函数
def func(df):min_max = df['salary'].split('-')smin = int(min_max[0].strip('k'))smax = int(min_max[1].strip('k'))df['salary'] = int((smax + smin) / 2 * 1000)return dfdf = df.apply(func, axis=1)
df

10 新增一列根据某列数值大小划分为三个层次：Pandas.cut()

bins = [0, 5000, 20000, 50000]
group_names = ['低', '中', '高']
df['categories'] = pd.cut(df['salary'], bins, labels=group_names)
df
# 注：pandas.cut用来把一组数据分割成离散的区间

11 数据合并：concat，merge，append，join

（1）DataFrame.concat()：

只是单纯的把两个表拼接在一起，参数axis是关键，它用于指定合并的轴是行还是列，axis默认是0。

# 将第一行与最后一行拼接：
pd.concat([df[:1], df[-2:-1]])# 将两个dataframe按列合并：
pd.concat([df,df1], axis=1) # 按行合并，则axis=0

（2）merge()：

针对同一个主键存在两张不同字段的表，根据主键整合到一张表里面。

# 按照单列合并数据：
pd.merge(df1, df2, on='key1')# 按照多列合并数据：多列用列表
pd.merge(df1, df2, how='left', on=['key1', 'key2'])#内外连接合并：
pd.merge(df1, df2, how='outer', on='subject_id') # inner内连接，outer外连接

（3）Series.append()/DataFrame.append()：

纵向追加Series/DataFrame

# 将第8行数据添加至末尾：
df.append(df.iloc[7])

（4）DatadFrame.join：

主要用于索引上的合并，其参数的意义与merge方法中的参数意义基本一样。该方法最为简单，主要用于索引上的合并

12 数据透视表：Pandas.picot_table()

pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

最重要的四个参数index、values、columns、aggfunc

相关资料：https://www.cnblogs.com/Yanjy-OnlyOne/p/11195621.html

# 以positionId为索引，生成两列（salary，score）的数据透视表:
df_picotTable = pd.pivot_table(df, values=['salary', 'score'], index='positionId')

13 分组抽样：Pandas.reshape()

# Year：按照每10年分组求和：
df.reshape('10AS').sum()# day：找到每月最后一日
df.reshape('BM').mean()

14 日期索引最早与最晚日期相差多少天？

(df.index.max() - df.index.min()).days