为什么LR用极大似然估计参数？


         如果用平方差损失函数时，损失函数对于参数是一个非凸优化的问题，可能会收敛到局部最优解，而且对数似然的概念是使得样本出现的概率最大，采用对数似然梯度更新速度也比较快

Was this helpful?

0 / 0