逻辑回归通常用于解决分类问题,比如:客户是否该买某个商品,借款人是否会违约等。实际上,“分类”是逻辑回归的目的和结果,中间过程依旧是“回归”,因为通过逻辑回归模型,我们得到的是0-1之间的连续数字,即概率,类似借款人违约的可能性。然后给这个可能性加上一个阈值,就变成了分类。
逻辑回归与线性模型的关系
逻辑回归是线性模型,但属于广义线性模型。普通线性模型与广义线性模型的联系:
1、普通线性模型
普通线性模型的表达式:
是截距项,是未知参数。
普通线性模型具备以下特点:
- 响应变量y服从正太分布;
- 误差具有正太性,与x的变化无关;
- 具有非随机性,可测并不存在误差,虽然未知,但不具有随机性;
- 特征和对应的参数有对应关系,具有非随机性;
2、广义线性模型
- 响应变量y的分布从正太分布扩展到指数分布族:比如正态分布、泊松分布、二项分布、负二项分布、伽玛分布等,这和不满足正态分布等价;
- 具有非随机性,可测并不存在误差,虽然未知,但不具有随机性;
- 特征和对应的参数有对应关系,具有非随机性;
可知,逻辑回归是响应变量y服从伯努利分布的广义线性模型。
逻辑回归和线性回归的区别与联系
区别
- 线性回归假设响应变量服从正态分布,逻辑回归假设响应变量服从伯努利分布
- 线性回归优化的目标函数是均方差(最小二乘),而逻辑回归优化的是似然函数(交叉熵)
- 线性归回要求自变量与因变量呈线性关系,而逻辑回归没有要求
- 线性回归分析的是因变量自身与自变量的关系,而逻辑回归研究的是因变量取值的概率与自变量的概率
- 逻辑回归处理的是分类问题,线性回归处理的是回归问题,这也导致了两个模型的取值范围不同:0-1和实数域
- 参数估计上,都是用极大似然估计的方法估计参数(高斯分布导致了线性模型损失函数为均方差,伯努利分布导致逻辑回归损失函数为交叉熵)
联系
- 两个都是线性模型,线性回归是普通线性模型,逻辑回归是广义线性模型
- 表达形式上,逻辑回归是线性回归套上了一个Sigmoid函数
LR中特征相关问题
1、特征离散化目的
- 离散特征可以one-hot, 而稀疏向量内积运算速度快,结果易存储
- 离散后数据鲁棒性强,不会因为数据发生一点小的变动而表现出完全不同的性质,使模型更稳定
- 离散后可以进行特征交叉,引入非线性特征
- 增强模型的表达能力,离散化后,原来的一个特征变成N个特征,加大了模型的拟合能力
- 特征离散后相当于简化了特征,一定程度上减轻了过拟合
2、特征的共线性
LR模型中特征的共线性不会影响模型的最优解,但是会影响系数的稳定性。比如两个特征,分别表示米和厘米,这两个长度高度共线性。
的系数发生质的翻转,但是表达能力没变。
所以,LR模型中特征的共线性不会影响模型的最优解,但是会使得系数不稳定,从而解释性变差。
删除共线性的原因:
- 提高模型的可解释性;
- 提高模型的训练速度
3、特征权重的绝对值是否可以衡量特征的重要性
不一定,首先特征可能没有归一化,系数受到量级的影响(1m=1cm*100),其次,特征之间可能存在共线性,导致特征系数不稳定,可解释性差。