随机梯度下降算法
批量梯度下降算法每一步都要考虑整个数据集以计算梯度, 这在数据集较大时计算成本很高
另一种可选的方案是一次仅用一个样本来更新回归系数, 该方法称为随机梯度下降算法(Stochastic gradient descent)
α值的选择
α过大容易“越过”极值点,导致不收敛,过小则收敛速度 慢
y (1)
y
y
(2
)
..
y
(m
)
在房屋价格预测例子中, y(1)为第1个样本的报价, y(2)为第2个样本的报价,
共m个样本
矩阵解法
h ( x ( i ) ) 0 1 x 1 ( i ) . . . n x n ( i ) x ( i ) T
Xy(((xxx(((m 12.)).)).))TTTyyy.((.(m 12.)))hhh(((xxx((m (21.))).))).yyy(((12m)))
y(1)=400, y(2)=330, y(3)=369, y(4)=232, y(5)=540
x1(1)=2104, x1(2)=1600, x1(3)=2400, x1(4)=1416, x1(5)=3000 x2(1)=3, x2(2)=3, x2(3)=3, x2(4)=2, x2(5)=4 θ0=0+0.01×[(y(1)-h(x(1)))x0(1)+...+(y(5)-h(x(5)))x0(5)] θ1=0+0.01×[(y(1)-h(x(1)))x1(1)+...+(y(5)-h(x(5)))x1(5)] θ2=0+0.01×[(y(1)-h(x(1)))x2(1)+...+(y(5)-h(x(5)))x2(5)]