LR推导

“`” 参考回答：

逻辑回归本质上是线性回归，只是在特征到结果的映射中加入了一层逻辑函数g(z)，即先把特征线性求和，然后使用函数g(z)作为假设函数来预测。g(z)可以将连续值映射到0 和1。g(z)为sigmoid function.

<img alt=""img"" referrerpolicy=""no-referrer"" src=""https://uploadfiles.nowcoder.com/images/20190315/311436_1552628490936_9D5E76E02B87531758512D79F642D093"">则<img alt=""img"" referrerpolicy=""no-referrer"" src=""https://uploadfiles.nowcoder.com/images/20190315/311436_1552628603079_E4A3B22C3777267277A22FCB86F16A09""><img alt=""img"" referrerpolicy=""no-referrer"" src=""https://uploadfiles.nowcoder.com/images/20190315/311436_1552628624395_1E29A25BBD05C193537EF96F4F367DDB"">

逻辑回归用来分类0/1 问题，也就是预测结果属于0 或者1 的二值分类问题。这里假设了二值满足伯努利分布，也就是

<img alt=""img"" referrerpolicy=""no-referrer"" src=""https://uploadfiles.nowcoder.com/images/20190315/311436_1552628645965_97E3996D719420BD8FD046698495AC8D"">

其也可以写成如下的形式：

<img alt=""img"" referrerpolicy=""no-referrer"" src=""https://uploadfiles.nowcoder.com/images/20190315/311436_1552628669311_78F800D5EE77C087FAD8A7ED4D493AD2"">

对于训练数据集，特征数据x={x1, x2, … , xm}和对应的分类标签y={y1, y2, … , ym}，假设m个样本是相互独立的，那么，极大似然函数为：

<img alt=""img"" referrerpolicy=""no-referrer"" src=""https://uploadfiles.nowcoder.com/images/20190315/311436_1552628691243_0E7F39CE64ED9B7B74CB3FD687B5CE2F"">

log似然为：

<img alt=""img"" referrerpolicy=""no-referrer"" src=""https://uploadfiles.nowcoder.com/images/20190315/311436_1552628712611_A404F50FEC299DA5F90B0E1D3F6E97BC"">

如何使其最大呢？与线性回归类似，我们使用梯度上升的方法（求最小使用梯度下降），那么<img alt=""img"" referrerpolicy=""no-referrer"" src=""https://uploadfiles.nowcoder.com/images/20190315/311436_1552628740669_2879AB5674152443C45A35FA698390A7"">。

<img alt=""img"" referrerpolicy=""no-referrer"" src=""https://uploadfiles.nowcoder.com/images/20190315/311436_1552628754920_9124D1BE8521BDD45298192B8F57C46C"">

如果只用一个训练样例（x，y），采用随机梯度上升规则，那么随机梯度上升更新规则为：

<img alt=""img"" referrerpolicy=""no-referrer"" src=""https://uploadfiles.nowcoder.com/images/20190315/311436_1552628780880_BCAC67BA50235D5ECBC62002777A1675"">

<pre><code> "“`

Was this helpful?

0 / 0

发表回复 0