机器学习逻辑回归算法

2024-06-06

逻辑回归算法是机器学习中二分类问题的一种方法,具有实现简单、高效、解释性强的优点,广泛应用于预测分析。在这篇文章中,我们将介绍它的算法原理。


逻辑回归算法是什么?


逻辑回归是一种用于二分类问题的机器学习方法,它通过一种叫做“ sigmoid 函数(平滑函数)将线性回归输出映射到映射。 0 到 1 概率值之间,然后进行分类。


尽管名字包含了“回归”,但实际上它是一种分类方法,主要用于二分类问题,而且还推广到处理多分类问题。


逻辑回归模型导出是一个概率值,一般情况下,我们会设置一个阀门值,当模型输出概率大于此阈值时,我们将样本判定为正类,否则判定为负类。


逻辑回归算法的原理


逻辑回归的原理是通过平滑函数将线性回归的输出结果(Sigmoid 函数)转化为 0-1 其中一个概率值。概率值为正分类概率值。


平滑函数的示意图如下:


如上所述,逻辑回归必须基于线性回归。线性回归 Y 值分布,通常属于二次分布,当样本数据极不规则时,我们认为 Y 值仍然属于二项分布。 ( 可以自己理解二次分布的概念)


Y 价值属于正态分布


Y 价值属于二次分布


如果某一事件的发生率为两个分布问题, P ,因此,这一事件不会发生。 1 − P,这一事件的概率被定义为发生概率与不发生概率之比。我们自然地选择概率对数。 ( 值可以是负无穷大,也可以是正无穷大)投射线性分布 y 值。


ln ( P/(1-P) ) =y 可以得到平滑函数公式


逻辑回归算法的应用步骤


1. 数据预处理


2. 线性回归模型的参数及确定 Y 值


采用梯度下降法定义线性回归模型(GD)(或者使用最小二乘法)获得线性回归方程参数,然后计算 Y 值。


3. 正类概率用平滑函数计算出来。


4. 定义概率阀值


根据工程要求,设置概率阀值。


5. 预测结果


逻辑回归算法的适用边界和优缺点


1. 适用界限


逻辑回归算法适用于二分类问题,也就是说,数据只有两个类别。


我们可以使用多个逻辑回归模型来解决多分类问题。另外,逻辑回归算法还规定数据符合一定的假设条件,例如,特征之间有线性可分。,数据服从伯努利的分布等。


2. 优势


简单易行。


计算效率很高,适合大规模数据的处理。


结果更具解释性。逻辑回归模型的结果可以转化为概率值,便于我们的解释和分析。


3. 缺陷


线性可分性:逻辑回归只能解决线性可分性问题,对于非线性可分数据,逻辑回归效果会很差。


处理多分类问题困难:逻辑回归一般只能处理二分类问题,对于多分类问题,需要进行一些额外的处理。


易过拟合:若样本量不足或特征过于复杂,逻辑回归易过拟合。


对于异常值敏感:逻辑回归对于异常值比较敏感,特别是在特征空间较小的情况下,异常值可能会对模型的性能产生很大的影响。、


第五,应用领域


线性回归模型主要用于预测和分析,逻辑回归模型是基于线性回归,所以也主要用于预测,但逻辑回归模型是基于线性回归,更多的编辑回归用于预测二分类而不是具体值。比如预测房价涨跌,预测客户性别,预测用户是否点击商品(页面)、预测顾客是否购买指定商品等。以下是更多的场景:


信贷评级:预测个人和企业的信贷风险,协助银行和金融机构做出信贷决策。


疾病预测:根据病人的临床特点和医学检查结果,预测病人是否患有糖尿病、高血压等疾病。


市场预测:预测市场趋势和产品销量,帮助企业制定营销策略和业务决策。


欺诈性检查:识别信用卡欺诈、网络欺诈等欺诈行为,帮助金融机构和电子商务平台提高安全性。


用户行为分析:通过优化智能推荐和客户体验,预测用户行为,如购买意向、流失风险等。


市场调查:分析市场调查数据,预测消费者对产品或服务的偏好和购买意向。


网络点击量预测:预测广告或推广内容的点击量,帮助广告主提高广告策略。


人口统计研究:分析人口统计数据,预测人口行为和趋势,如选民投票、消费行为等。


作者:厚谦,微信官方账号:小王子和月季


本文由 @厚谦 在没有作者许可的情况下,原发布于每个人都是产品经理,禁止转载。


题图来自 Unsplash,基于 CC0 协议。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com