One - One Code All

Blog Content

pandas.DataFrame通过取反删除或选取含有特定数值的行或列

Python 统计学-科学计算   2014-06-06 20:46:06

假设你用了ID字段储存股票代码,那么先把需要剔除的df的ID自动用tolist输出成一个列表

然后前一个df用~isin(列表)来剔除

code_list=df1['ID'].tolist()

df2=df2[~df2['ID'].isin(code_list)]


  1. 删除或选取某列含有特殊数值的行

import pandas as pd

import numpy as np

 

a=np.array([[1,2,3],[4,5,6],[7,8,9]])

df1=pd.DataFrame(a,index=['row0','row1','row2'],columns=list('ABC'))

print(df1)

df2=df1.copy()

 

#删除或选取某列含有特定数值的行

#df1=df1[df1['A'].isin([1])]

#df1[df1['A'].isin([1])]  选取df1中A列包含数字1的行

 

df1=df1[~df1['A'].isin([1])]

#通过~取反,选取不包含数字1的行


2.删除或选取某行含有特殊数值的列

 

#删除或选取某行含有特定数值的列

cols=[x for i,x in enumerate(df2.columns) if df2.iat[0,i]==3]

#利用enumerate对row0进行遍历,将含有数字3的列放入cols中

print(cols)

 

#df2=df2[cols]   选取含有特定数值的列

df2=df2.drop(cols,axis=1) #利用drop方法将含有特定数值的列删除


3.删除含有空值的行或列

实现思路:利用pandas.DateFrame.fillna对空值赋予特定值,再利用上文介绍的方法找到这些含有特定值的行或列去除即可。


import pandas as pd

import numpy as np

 

df1 = pd.DataFrame(

    [

        [np.nan, 2, np.nan, 0],

        [3, 4, np.nan, 1],

        [np.nan, np.nan, np.nan, 5],

        [np.nan, 3, np.nan, 4]

    ],columns=list('ABCD'))

print(df1)

df2=df1.copy()

 

df1['A']=df1['A'].fillna('null') #将df中A列所有空值赋值为'null'

print(df1)

df1=df1[~df1['A'].isin(['null'])]

print(df1)

 

#删除某行空值所在列

 

df2[0:1]=df2[0:1].fillna('null')

print(df2)

cols=[x for i,x in enumerate(df2.columns) if df2.iat[0,i]=='null']

print(cols)

df2=df2.drop(cols,axis=1)

print(df2)



上一篇:pandas中dataframe缺失值处理dropna和fillna,删除带有NAN的行或列
下一篇:pandas中Series转换为DataFrame

The minute you think of giving up, think of the reason why you held on so long.