我在.csv文件中有以下数据集:
feature1, feature2, feature3, feature4
0, 42, 2, 1000
2, 13, ?, 997
1, 30, ?, 861
2, 29, ?, ?
我想创建一个pandas数据帧或一个numpy数组,其中我没有x%未知数据的特征(其中x先前在代码中指定).
解决方法:
通过使用replace和dropna
(PS,你需要在dropna中使用参数thresh)
import pandas as pd
import numpy as np
df.replace('?', np.NaN).dropna(axis=1,thresh=0.75*len(df)) # for you example , we only accpet one NA here
Out[735]:
feature1 feature2 feature4
0 0 1 100.0
1 2 2 900.0
2 1 3 861.0
3 2 4 NaN
数据输入
df = pd.DataFrame({'feature1': [0,2,1,2], 'feature2': [1,2,3,4],'feature3':[2,'?','?','?'],'feature4':[100,900,861,'?']})
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。