如何用整数值编码数据表中字符串类型的列值.例如,我有两个特征变量:颜色(可能的字符串值R,G和B)和技能(可能的字符串值C,Java,sql和Python).给定的数据表有两列-
Color' -> R G B B G R B G G R G ;
Skills' -> Java , C++, sql, Java, Python, Python, sql, C++, Java, sql, Java.
我想知道哪种sklearn函数/方法将在以上两列上进行转换,如R = 0,G = 1和B = 2以及C = 0,Java = 1,sql = 2和Python = 3:
Color: 0, 1, 2, 2, 1, 0, 2, 1, 1, 0, 1
Skills: 1, 0, 2, 1, 3, 3, 2, 0, 1, 2, 1
请让我知道该怎么做?
解决方法:
使用Sckit学习LabelEncoder()方法
import pandas as pd
from sklearn.preprocessing import LabelEncoder
df = pd.DataFrame({
'colors': ["R" ,"G", "B" ,"B" ,"G" ,"R" ,"B" ,"G" ,"G" ,"R" ,"G" ],
'skills': ["Java" , "C++", "sql", "Java", "Python", "Python", "sql","C++", "Java", "sql", "Java"]
})
def encode_df(dataframe):
le = LabelEncoder()
for column in dataframe.columns:
dataframe[column] = le.fit_transform(dataframe[column])
return dataframe
#encode the dataframe
encode_df(df)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。