专栏 | 基于 Jupyter 的特征工程手册:特征选择(四)
6红色石头 发布于 2020-05-07
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(7663)评论(0)赞 (1)
红色石头 发布于 2020-05-07
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(7663)评论(0)赞 (1)
红色石头 发布于 2020-04-24
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(7454)评论(0)赞 (2)
红色石头 发布于 2020-04-24
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(6220)评论(0)赞 (2)
红色石头 发布于 2020-04-22
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(8093)评论(0)赞 (4)
红色石头 发布于 2020-04-14
基于 Jupyter 的特征工程手册:数据预处理的上一篇: 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(一) 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(二) 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(三) 项目地址: https...
阅读(7784)评论(0)赞 (0)
红色石头 发布于 2020-04-11
基于 Jupyter 的特征工程手册:数据预处理的上一篇: 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(一) 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(二) 项目地址: https://github.com/YC-Coder-Chen/featu...
阅读(2986)评论(0)赞 (0)
红色石头 发布于 2020-04-10
基于 Jupyter 的特征工程手册:数据预处理的上一篇: 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(一) 项目地址: https://github.com/YC-Coder-Chen/feature-engineering-handbook 本项目将探讨数据预...
阅读(2691)评论(0)赞 (1)
红色石头 发布于 2020-04-09
特征工程在机器学习中的重要性不言而喻,恰当的特征工程能显著提升机器学习模型性能。我们在 Github 上整理编写了一份系统的特征工程教程,供大家参考学习。 项目地址: https://github.com/YC-Coder-Chen/feature-engineering-han...
阅读(3466)评论(0)赞 (5)
红色石头 发布于 2020-02-04
无需置疑,数学基础和理论知识在机器学习中扮演十分重要的角色!提升数学理论水平对于提高自身的机器学习水平非常有帮助! 然而,对于大部分初学者来说,理论部分太难往往会削弱学习的积极性。在学习的时候,必须要平衡理论难度与易用性二者之间的关系。 因此,本文推荐一份非常不错的《A Comp...
阅读(5594)评论(0)赞 (7)
红色石头 发布于 2020-02-04
机器学习中的数学基础一直以来都是非常重要的,而且是比较难的。要想真正提高机器学习算法水平,其中的数学基础必须合格!今天给大家推荐一本非常棒的《机器学习数学基础》,原名:《Mathematics for Machine Learning》。 本书网址: https://mml-bo...
阅读(8963)评论(0)赞 (8)