当前位置: 代码迷 >> 综合 >> 逻辑回归详解
  详细解决方案

逻辑回归详解

热度:56   发布时间:2024-02-29 10:29:21.0

逻辑回归通常用于解决分类问题,比如:客户是否该买某个商品,借款人是否会违约等。实际上,“分类”是逻辑回归的目的和结果,中间过程依旧是“回归”,因为通过逻辑回归模型,我们得到的是0-1之间的连续数字,即概率,类似借款人违约的可能性。然后给这个可能性加上一个阈值,就变成了分类。

 

逻辑回归与线性模型的关系

逻辑回归是线性模型,但属于广义线性模型。普通线性模型与广义线性模型的联系:

1、普通线性模型

普通线性模型的表达式:

是截距项,是未知参数。

普通线性模型具备以下特点:

  • 响应变量y服从正太分布;
  • 误差具有正太性,与x的变化无关;
  • 具有非随机性,可测并不存在误差,虽然未知,但不具有随机性;
  • 特征和对应的参数有对应关系,具有非随机性;

2、广义线性模型

  • 响应变量y的分布从正太分布扩展到指数分布族:比如正态分布、泊松分布、二项分布、负二项分布、伽玛分布等,这和不满足正态分布等价;
  • 具有非随机性,可测并不存在误差,虽然未知,但不具有随机性;
  • 特征和对应的参数有对应关系,具有非随机性;

可知,逻辑回归是响应变量y服从伯努利分布的广义线性模型。

逻辑回归和线性回归的区别与联系

区别

  • 线性回归假设响应变量服从正态分布,逻辑回归假设响应变量服从伯努利分布
  • 线性回归优化的目标函数是均方差(最小二乘),而逻辑回归优化的是似然函数(交叉熵)
  • 线性归回要求自变量与因变量呈线性关系,而逻辑回归没有要求
  • 线性回归分析的是因变量自身与自变量的关系,而逻辑回归研究的是因变量取值的概率与自变量的概率
  • 逻辑回归处理的是分类问题,线性回归处理的是回归问题,这也导致了两个模型的取值范围不同:0-1和实数域
  • 参数估计上,都是用极大似然估计的方法估计参数(高斯分布导致了线性模型损失函数为均方差,伯努利分布导致逻辑回归损失函数为交叉熵)

联系

  • 两个都是线性模型,线性回归是普通线性模型,逻辑回归是广义线性模型
  • 表达形式上,逻辑回归是线性回归套上了一个Sigmoid函数

LR中特征相关问题

1、特征离散化目的

  1. 离散特征可以one-hot, 而稀疏向量内积运算速度快,结果易存储
  2. 离散后数据鲁棒性强,不会因为数据发生一点小的变动而表现出完全不同的性质,使模型更稳定
  3. 离散后可以进行特征交叉,引入非线性特征
  4. 增强模型的表达能力,离散化后,原来的一个特征变成N个特征,加大了模型的拟合能力
  5. 特征离散后相当于简化了特征,一定程度上减轻了过拟合

2、特征的共线性

LR模型中特征的共线性不会影响模型的最优解,但是会影响系数的稳定性。比如两个特征,分别表示米和厘米,这两个长度高度共线性。

的系数发生质的翻转,但是表达能力没变。

所以,LR模型中特征的共线性不会影响模型的最优解,但是会使得系数不稳定,从而解释性变差。

删除共线性的原因:

  • 提高模型的可解释性;
  • 提高模型的训练速度

3、特征权重的绝对值是否可以衡量特征的重要性

不一定,首先特征可能没有归一化,系数受到量级的影响(1m=1cm*100),其次,特征之间可能存在共线性,导致特征系数不稳定,可解释性差。

 

 

 

 

  相关解决方案