标签:机器学习

特征工程

专栏 | 基于 Jupyter 的特征工程手册:特征选择(五)

5

红色石头 发布于 2020-05-24

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...

阅读(142)评论(0)赞 (0)

特征工程

专栏 | 基于 Jupyter 的特征工程手册:特征选择(四)

6

红色石头 发布于 2020-05-07

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...

阅读(584)评论(0)赞 (1)

特征工程

专栏 | 基于 Jupyter 的特征工程手册:特征选择(三)

6

红色石头 发布于 2020-04-24

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...

阅读(720)评论(0)赞 (2)

特征工程

专栏 | 基于 Jupyter 的特征工程手册:特征选择(二)

11

红色石头 发布于 2020-04-24

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...

阅读(714)评论(0)赞 (1)

特征工程

专栏 | 基于 Jupyter 的特征工程手册:特征选择(一)

9

红色石头 发布于 2020-04-22

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...

阅读(904)评论(0)赞 (3)

特征工程

专栏 | 基于 Jupyter 的特征工程手册:数据预处理(四)

8

红色石头 发布于 2020-04-14

基于 Jupyter 的特征工程手册:数据预处理的上一篇: 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(一) 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(二) 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(三) 项目地址: https...

阅读(998)评论(0)赞 (0)

机器学习

免费书:最新的《机器学习全面指南》

5

红色石头 发布于 2020-02-04

无需置疑,数学基础和理论知识在机器学习中扮演十分重要的角色!提升数学理论水平对于提高自身的机器学习水平非常有帮助! 然而,对于大部分初学者来说,理论部分太难往往会削弱学习的积极性。在学习的时候,必须要平衡理论难度与易用性二者之间的关系。 因此,本文推荐一份非常不错的《A Comp...

阅读(3208)评论(0)赞 (6)