特征工程

【完结篇】专栏 | 基于 Jupyter 的特征工程手册:特征降维

4

红色石头 发布于 2020-06-28

作者:陈颖祥、杨子晗 编译:AI有道编译:AI有道 经过数据预处理和特征选择,我们已经生成了一个很好的特征子集。但是有时该子集可能仍然包含过多特征,导致需要花费太多的计算能力用以训练模型。在这种情况下,我们可以使用降维技术进一步压缩特征子集。但这可能会降低模型性能。 同时,如果我...

阅读(9365)评论(0)赞 (1)

专栏 | 基于 Jupyter 的特征工程手册:特征选择(五)

5

红色石头 发布于 2020-05-24

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...

阅读(9628)评论(0)赞 (2)

专栏 | 基于 Jupyter 的特征工程手册:特征选择(四)

6

红色石头 发布于 2020-05-07

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...

阅读(10473)评论(0)赞 (1)

专栏 | 基于 Jupyter 的特征工程手册:特征选择(三)

6

红色石头 发布于 2020-04-24

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...

阅读(10100)评论(0)赞 (2)

专栏 | 基于 Jupyter 的特征工程手册:特征选择(二)

11

红色石头 发布于 2020-04-24

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...

阅读(8729)评论(0)赞 (2)

专栏 | 基于 Jupyter 的特征工程手册:特征选择(一)

9

红色石头 发布于 2020-04-22

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...

阅读(10534)评论(0)赞 (7)

专栏 | 基于 Jupyter 的特征工程手册:数据预处理(四)

8

红色石头 发布于 2020-04-14

基于 Jupyter 的特征工程手册:数据预处理的上一篇: 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(一) 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(二) 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(三) 项目地址: https...

阅读(10481)评论(0)赞 (0)