吴恩达《Machine Learning》精炼笔记 2:梯度下降与正规方程

今天带来第二周课程的笔记:梯度下降与正规方程。

主要内容:

  • 多维特征
  • 多变量梯度下降
  • 梯度下降法实践
  • 正规方程
  • 多维特征Multiple Features

多维特征Multiple Features

还是利用房价模型的例子,增加了更多的特征,比如:房间楼层、房间数量、地理位置等,构成了一个含有多个变量的模型

n:代表的是特征的数量

x(i):代表第i个训练实例,是特征矩阵中的第i行,是一个向量vector

xij:表示的是第i个训练实例的第j个特征;i表示行,j表示列

支持多变量的假设h表示为:

为了简化公式,引入,公式转化为:

特征矩阵X 的维度是m∗(n+1),公式简化为:

多变量梯度下降

算法目标

与单变量线性回归类似,在多变量线性回归中,构建一个代价函数,则这个代价函数是所有建模误差的平方和,即:

其中:

算法过程:

Python代码

import numpy as np

def computeCost(X,y,theta):
  inner = np.power(((X * theta.T) - y), 2)  # 求解每个平方项
  return np.sum(inner) / (2 / len(X))   # 求和再除以2*len(X)

梯度下降法实践

特征缩放

面对多维度特征问题,我们需要保证这些特征具有相近的尺度,帮助梯度下降算法更快地收敛。

以房价问题为例,假设仅用两个特征,房屋的尺寸和数量,以两个参数分别为横纵坐标,假设尺寸在0-2000平方英尺,数量在0-5之间。

绘制代价函数的等高线图能,看出图像会显得很扁,梯度下降算法需要非常多次的迭代才能收敛。

解决办法:将所有的特征的尺度尽量缩放到-1到1之间,令:

其中un为平均值,sn为标准差

均值归一化

学习率问题

梯度下降算法的每次迭代受到学习率的影响

  • 如果学习率过小,则达到收敛所需的迭代次数会非常高,收敛速度非常慢
  • 如果学习率过大,每次迭代可能不会减小代价函数,可能会越过局部最小值导致无法收敛

常用学习率包含:α=0.01,0.03,0.1,0.31,3,10α=0.01,0.03,0.1,0.31,3,10

特征和多项式回归

如房价预测问题,

同时房屋面积=宽度 * 深度

在实际拟合数据的时候,可能会选择二次或者三次方模型;如果采用多项式回归模型,在运行梯度下降法之前,特征缩放很有必要。

正规方程 Normal Equation

梯度下降缺点

需要多次迭代才能达到局部最优解

正规方程demo

正规方程具有不可逆性

正规方程就是通过求解下面例子中的方程找出使得代价函数最小参数θ:

不可逆矩阵不能使用正规方程求解

Normal Equation VS Gradient Descent

梯度下降和正规方程的比较:

参数θ求解过程

正规方程的Python实现

import numpy as np

def normalEquation(X, y):
  theta = np.linalg.inv(X.T@X)@X.T@Y   # X.T@X等价于X.T.dot(X)  @等价于.dot
  return theta

至此,第二周的课程笔记完毕!

系列文章:

吴恩达《Machine Learning》精炼笔记 1:监督学习与非监督学习


本文首发于公众号:AI有道(ID: redstonewill),欢迎关注!

未经允许不得转载:红色石头的个人博客 » 吴恩达《Machine Learning》精炼笔记 2:梯度下降与正规方程

赞 (0) 打赏

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏