当前位置：代码迷 >> 综合 >> 逻辑回归详解

详细解决方案

逻辑回归详解

热度：56 发布时间：2024-02-29 10:29:21.0

逻辑回归通常用于解决分类问题，比如：客户是否该买某个商品，借款人是否会违约等。实际上，“分类”是逻辑回归的目的和结果，中间过程依旧是“回归”，因为通过逻辑回归模型，我们得到的是0-1之间的连续数字，即概率，类似借款人违约的可能性。然后给这个可能性加上一个阈值，就变成了分类。

逻辑回归与线性模型的关系

逻辑回归是线性模型，但属于广义线性模型。普通线性模型与广义线性模型的联系：

1、普通线性模型

普通线性模型的表达式：

是截距项，是未知参数。

普通线性模型具备以下特点：

响应变量y服从正太分布；
误差具有正太性，与x的变化无关；
具有非随机性，可测并不存在误差，虽然未知，但不具有随机性；
特征和对应的参数有对应关系，具有非随机性；

2、广义线性模型

响应变量y的分布从正太分布扩展到指数分布族：比如正态分布、泊松分布、二项分布、负二项分布、伽玛分布等，这和不满足正态分布等价；
具有非随机性，可测并不存在误差，虽然未知，但不具有随机性；
特征和对应的参数有对应关系，具有非随机性；

可知，逻辑回归是响应变量y服从伯努利分布的广义线性模型。

逻辑回归和线性回归的区别与联系

区别

线性回归假设响应变量服从正态分布，逻辑回归假设响应变量服从伯努利分布
线性回归优化的目标函数是均方差（最小二乘），而逻辑回归优化的是似然函数（交叉熵）
线性归回要求自变量与因变量呈线性关系，而逻辑回归没有要求
线性回归分析的是因变量自身与自变量的关系，而逻辑回归研究的是因变量取值的概率与自变量的概率
逻辑回归处理的是分类问题，线性回归处理的是回归问题，这也导致了两个模型的取值范围不同：0-1和实数域
参数估计上，都是用极大似然估计的方法估计参数（高斯分布导致了线性模型损失函数为均方差，伯努利分布导致逻辑回归损失函数为交叉熵）

联系

两个都是线性模型，线性回归是普通线性模型，逻辑回归是广义线性模型
表达形式上，逻辑回归是线性回归套上了一个Sigmoid函数

LR中特征相关问题

1、特征离散化目的

离散特征可以one-hot, 而稀疏向量内积运算速度快，结果易存储
离散后数据鲁棒性强，不会因为数据发生一点小的变动而表现出完全不同的性质，使模型更稳定
离散后可以进行特征交叉，引入非线性特征
增强模型的表达能力，离散化后，原来的一个特征变成N个特征，加大了模型的拟合能力
特征离散后相当于简化了特征，一定程度上减轻了过拟合

2、特征的共线性

LR模型中特征的共线性不会影响模型的最优解，但是会影响系数的稳定性。比如两个特征，分别表示米和厘米，这两个长度高度共线性。

的系数发生质的翻转，但是表达能力没变。

所以，LR模型中特征的共线性不会影响模型的最优解，但是会使得系数不稳定，从而解释性变差。

删除共线性的原因：

提高模型的可解释性；
提高模型的训练速度

3、特征权重的绝对值是否可以衡量特征的重要性

不一定，首先特征可能没有归一化，系数受到量级的影响（1m=1cm*100），其次，特征之间可能存在共线性，导致特征系数不稳定，可解释性差。

相关解决方案