专栏 | 基于 Jupyter 的特征工程手册:特征选择(五)
5红色石头 发布于 2020-05-24
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(6962)评论(0)赞 (2)
红色石头 发布于 2020-05-24
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(6962)评论(0)赞 (2)
红色石头 发布于 2020-05-07
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(7506)评论(0)赞 (1)
红色石头 发布于 2020-04-24
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(7320)评论(0)赞 (2)
红色石头 发布于 2020-04-24
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(6117)评论(0)赞 (2)
红色石头 发布于 2020-04-22
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗大量内存和计算能力。因此,我们应该进行特征选择并选择特征子集进行...
阅读(7984)评论(0)赞 (4)
红色石头 发布于 2020-04-14
基于 Jupyter 的特征工程手册:数据预处理的上一篇: 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(一) 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(二) 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(三) 项目地址: https...
阅读(7699)评论(0)赞 (0)
红色石头 发布于 2020-04-11
基于 Jupyter 的特征工程手册:数据预处理的上一篇: 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(一) 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(二) 项目地址: https://github.com/YC-Coder-Chen/featu...
阅读(2894)评论(0)赞 (0)
红色石头 发布于 2020-04-10
基于 Jupyter 的特征工程手册:数据预处理的上一篇: 专栏 | 基于 Jupyter 的特征工程手册:数据预处理(一) 项目地址: https://github.com/YC-Coder-Chen/feature-engineering-handbook 本项目将探讨数据预...
阅读(2594)评论(0)赞 (1)
红色石头 发布于 2020-04-09
特征工程在机器学习中的重要性不言而喻,恰当的特征工程能显著提升机器学习模型性能。我们在 Github 上整理编写了一份系统的特征工程教程,供大家参考学习。 项目地址: https://github.com/YC-Coder-Chen/feature-engineering-han...
阅读(3343)评论(0)赞 (4)
红色石头 发布于 2020-03-16
目标检测作为计算机视觉中的一个重要分支,近些年来随着神经网络理论研究的深入和硬件 GPU 算力的大幅度提升,一举成为全球人工智能研究的热点,落地项目也最先开始。 纵观 2013 年到 2020 年,从最早的 R-CNN、OverFeat 到后来的 SSD、YOLO v3 再到去年...
阅读(4737)评论(0)赞 (2)