Scikit-Learn 与 TensorFlow 机器学习实用指南学习笔记 5 —— 如何为机器学习算法准备数据?
2红色石头 发布于 2019-01-02
本文为《Scikit-Learn 和 TensorFlow 机器学习指南》的第二章的第 3 讲:为机器学习算法准备数据。 使用实际数据 整体规划 获取数据 发现、可视化数据,增加直观印象 为机器学习准备数据 选择模型并进行训练 调试模型 部署、监控、维护系统 第二章前 2 讲的地...
阅读(8075)评论(0)赞 (7)
红色石头 发布于 2019-01-02
本文为《Scikit-Learn 和 TensorFlow 机器学习指南》的第二章的第 3 讲:为机器学习算法准备数据。 使用实际数据 整体规划 获取数据 发现、可视化数据,增加直观印象 为机器学习准备数据 选择模型并进行训练 调试模型 部署、监控、维护系统 第二章前 2 讲的地...
阅读(8075)评论(0)赞 (7)
红色石头 发布于 2018-12-17
目前为止,我们已经对数据有了初步的认识,大体上明白了我们要处理的数据类型。现在,我们将进入更深入的研究。 首先,确保已经划分了测试集并放置一边,我们只会对训练集进行操作。另外,如果训练集很大,可以从中采样一些作为探索集(exploration set),方便进行快速处理。在我们这...
阅读(5257)评论(0)赞 (4)
红色石头 发布于 2018-12-04
本章将完整地介绍一个端对端(End-to-End)机器学习项目。假如你是某个房地产公司刚雇佣的数据科学家,你所要做的事情主要分成以下几个步骤: 1.整体规划。 2.获取数据。 3.发现、可视化数据,增加直观印象。 4.为机器学习准备数据。 5.选择模型并进行训练。 6.调试模型。...
阅读(7831)评论(0)赞 (4)
红色石头 发布于 2018-11-26
简而言之,因为机器学习的主要任务就是选择合适的机器学习算法在数据集上进行训练,所以不好的算法和不好的数据都可能严重影响训练效果。下面我们先来看看不好的数据会带来什么影响。 1.4.1 训练数据不足 对一个蹒跚学步的孩子来说,如何识别苹果?方法是拿出很多各种各样颜色、形状的苹果图片...
阅读(6317)评论(2)赞 (6)
红色石头 发布于 2018-11-20
本章介绍的是每一个数据科学家都应该知道并听说的机器学习许多基本的概念和术语。这将是一个高层次的概括(本书唯一没有很多代码的一章)。内容很简单,但是你要保证在进行下一章之前对本章每个概念都理解得很透彻。因此,端起一杯咖啡,让我们开始吧! 1 什么是机器学习? 机器学习是一门通过编程...
阅读(7019)评论(0)赞 (7)