从业务角度分析人工智能机器学习领域的经典算法和使用场景

10-05 07:51

目前关于机器学习算法模型的参考文献很多,但本文不涉及复杂的数学公式,旨在从业务的角度对机器学习中常见的经典模型原理和使用场景进行简单分析,总结机器学习在不同需求场景中的作用和一些实际探索。


回顾人工智能的发展历程,机器学习无疑是推动其从理论走向实践的重要里程碑。它不仅使机器学会了从数据中提取知识,使机器具备解决复杂问题的能力,而且重塑了各行各业的业务地图,大大拓展了人工智能的应用边界。


虽然与主流的深度学习领域算法如神经网络相比,机器学习在模型效果、所需人力和处理复杂任务方面存在劣势,但一些算法模型仍然因其广泛的适用性、灵活性和可解释性而发挥着不可替代的作用。


机器学习经典五大模型及应用分析


机器学习模型包括无监督学习模型和有监督学习模型。本文介绍了树模、聚类模型、集成模型、svm算法和贝叶斯模型五种经典模型,其中树模和svm算法是有监督学习模型的,聚类模型是无监督学习模型,集成模型和贝叶斯模型是根据实际业务应用确定的。目前,树模和集成(随机森林)模型仍然广泛使用。


1.1 树模型


如果选择一个模型代表机器学习领域,那就是树模。由于深度学习的兴起,其他模型已经被神经网络所取代。但是树模的应用还是很多的。在很多情况下,神经网络模型的建模效果更好,但也有很多不合适的场景。比如在短视频平台上添加即时特效,第一步就是找到人脸或者身体的位置,比如人眼、鼻子、嘴巴、手等。这个名字叫做关键点定位,然后在相应的位置加上效果,比如我想成为美国队长,那就需要先检查一下手,再加上巨盾。


如果你使用神经网络来实现它,你会在手机上慢慢运行,无法满足实时需求。但是大家都知道,短视频平台的特效是随着人物一直在动的,非常实时,这就是用树模实现的效果。虽然树模在泛化能力和处理复杂关系方面不如神经网络,但它的速度非常快,这是树模的第一个优势,也是它广泛使用的最大原因之一。


第二个优点是什么?当我们使用神经网络进行建模时,任务从前到后的整个过程是无法解释的。它就像一个黑盒子。我们只知道我们已经达到了一个结果。它包含数百万个参数。我们不知道每个参数的实际意义,也不知道过程是如何实现的。然而,在机器学习和使用的情况下,我们应该分析每个业务的逻辑和影响结果的重要因素,以便更好地提高我们的业务能力。因此,神经网络不适合这种场合,但树模的每一个决策过程都是清晰的。举例来说,我们要从这五个人中挑选出年龄低于年龄的人。 15 年龄较大的女性,树模会先做年龄判断,再通过性别判断,每一步(或每个节点)的决策逻辑十分明显。


所以综合起来,树模没有被神经网络所取代的两个主要优点就是:


速度快,适用于实时要求高的场景。


可以解释模型决策节点


1.2 聚类模型


正如我们在最后一篇文章中所说,机器学习的三个核心任务是分类、回归和聚类。聚类是划分没有标签的数据,属于无监督学习。


使用简单的一个 demo 要理解聚类,不难想象我们身边的小群体。每个人都把自己的人拉进了这个群体。在这个范围内,我们没有数据标签。如果我们把每个人都当成一个点,我们不知道最初的点属于什么类别。每个人都盲目从众,那么如何判断类别呢?就是通过密度的方式,在这项任务中,我们随机找到一个点作为初始点,如果以这个点为基础, 1 画一个半径的圈,但是圈到的所有点都是自己的群体的初始点,然后用圈到的下一个点。 1 画一个半径圈,圈的点也属于这个群体,直到找不到半径圈。 1 点击范围内,那么剩下的就是其它类别了。


例如,红色和蓝色部分都是以红色为主。 1 为了完成自己的半径圈,剩下的上部分是下一个需要分类的点集:


通过这种方式,将数据分为三类,在此基础上, demo 从中可以看出,聚类任务是没有标签的,只有在数据的情况下才能分割数据。


正如我刚才提到的,当半径设置得比较大时,比如设置成一个半径。 在这一任务中,我们不难发现只有一个红色类别:


例如,当半径较小时,设置成 0.6,获得了许多类别:


上述演示方法称为 K 均值聚类,K 这是我们需要将数据分成的类别数量。由于聚类模型只有数据,没有标签,无法通过输入和输出之间的关系来学习,因此只能通过经验或不断尝试来选择半径。


在实际应用领域,不需要人工标签确实可以节省人工成本,但业务负责人肯定想知道这样的分类依据是什么,或者如何证明任务中圈出的点是异常的,很难展示聚类模型的决策过程。因此,在处理一项任务时,他们宁愿在使用其他算法模型之前请人工标记。首选模型一般不是聚类,因为没有实用的指导价值。这只是对数据进行分割,至于为什么这样分割和分割的结果是否合理,就不得而知了,聚类模型只是得到了一个结果。


所以从业务角度总结聚类模型的优缺点:


优点是比较简单高效,不需要标签,节省人力成本。


劣势是:1. 对初始聚类的中心点和半径要不断实验才能得到满意的结果;2. 无法解释模型决策过程,对业务调整没有指导价值。


1.3 集成模型


为了提高预测的准确性和安全性,集成模型将多个机器学习模型组合在一起。综合学习可以减少单个模型的误差和方差,并结合多个模型的预测结果提供更可靠的预测结果。整体模型就是看不同模型组合的整体效果,就像我们在玩游戏时一样, A 说要去刷野,小 B 说要越塔,小 C 还说要猥琐一波。这个时候,集成模型不会只听其中一个。我们应该考虑他们的情况进行总结。比如我们投少数票服从大部分,或者在回归任务中要求平均值处理三者的估计值。这些组合的模型非常强弱。但是多个较弱的模型集成效果可以与强模型效果相媲美,这就是集成模型的意义所在。


在集成模型中,目前使用较多的模型之一是随机森林模型,由多个树模组成,每个树模都是分类器。在最后一个机器学习过程中,我写道每个机器学习任务都必须通过特征提取。随机森林在每个决策树建设过程中的“随机”体现在两个关键方面:一是在每个树模的训练过程中,随机从原始训练数据中提取一些数据点。也就是说,不同的数据子集是通过自助取样形成的;第二,在每棵树的每个分裂节点上,随机抽取一些特征进行预测,而不是考虑所有可能的特征。


正是因为它依赖于多棵树的预测结果,当系统面临不确定性和外部影响时,它仍然可以保持更好的预测效果。这叫鲁棒。当然,随机森林的另一个重要优点是树模的可解释性。


1.4 svm算法


svm算法的特点是算法的思维方式非常有创意。我们生活在三维空间中,科幻电影向我们展示了更高的维度空间。空间理论上有一句话:三维世界是四维世界的投射,svm算法的算法机制也是类似的原理。如果我们现在在一个平面上有红点和蓝点,我们需要找到一种方法来区分红点和蓝点。为了区分这两者,我做了一个决策边界。这个决策边界是一个非线性函数。在二维平面中,使用非线性函数进行分割相对困难,但我们可以找到一个映射函数,将二维点映射到三维空间中,在三维空间中可以通过线性方程进行区分。因此,任务变得很简单。因此,svm算法的核心思想是,如果我们的数据在低纬度环境中映射到高维度框架中,我们就可以获得更简单的特征方程,这将使模型更容易学习。


很多同学一开始学完svm算法就会被这一理论所折服。在 2012 和 2013 2000年左右,求职者面试。 AI 在技术岗位上,基本上要从头到尾背诵svm算法。一般基础面试部分会要求推导出一个结论,或者向面试官讲解svm算法。为什么面试要评价相关知识?首先是因为困难,其次是因为当时svm算法是一种非常先进的算法,一开始效果非常好。直到神经网络出现,svm算法才永远退出历史舞台。


1.5 贝叶斯模型


贝叶斯算法的核心是我们高数中的条件概率。我们都玩过猜测结果的游戏。如果有剪刀、石头和布的游戏机,十个人就赢了。按照我们的传统思维,有一组参数来控制结果,参数是通过它观察到的数据来决定的。如果十个人都赢了,我们会认为我在玩的时候还是在玩的。 100% 会赢,但是如果让贝叶斯模型做出预测,这是一个“十赌九输”的概念,以前大家都在传达,所以这个时候他并不觉得自己 100% 赢。


在贝叶斯算法中,还有一个先验知识,就是在数据传输到模型之前就已经有了一些知识。比如我觉得今天10点左右下班,明天太阳肯定会升起来。这些都是我的先验知识。这个先验条件是通过人工加入或者提前学习贝叶斯模型获得的。


贝叶斯模型作为机器学习的经典模型之一,是几十年前流行的算法模型。它需要低成本的会计,所以它通常处理文本任务。然而,由于它的预测是在先验环境中完成的,一旦我们在模型中添加了人工先验条件,模型只能在这种约束条件下实现目标,但这种先验条件不适用于另一个需求场景,这限制了它的应用范围。


第二,机器学习的六大应用领域


近年来,机器学习已经渗透到我们生活的方方面面,在衣食住行、娱乐、医疗、电子商务、金融和工程等领域发挥着巨大的作用。接下来,我将分析机器学习在数据分析、数据挖掘、特色工程、量化交易和工业制造领域的应用。


2.1 数据分析


数据分析估计是每个人每天听到和使用最多的领域。客观来说,数据分析是指通过收集、清理、处理和统计数据来提取数据中有用的信息或有价值的观点,通过识别模式和趋势来评估假设,从而支持决策和解决问题的过程。


一般采用我们传统的数据分析方法 excel、BI 任何擅长的工具,如平均值、中位数、最高值、最小值、近期表现、趋势等。,都可以通过图表等可视化指标来解读反应的问题或作用,所以传统的数据分析方法更偏向于统计。在上述事件中,不难看出,无论是寻找数据、寻找指标还是分析趋势,完成这一系列动作的主体都是人,强调人的主观意愿。因此,我们可以理解,传统的数据分析更强调如何制定人工规则和决策,这是传统数据分析的特点。


机器学习对数据分析的作用包括数据预处理、模式识别、分类聚类、异常检测等。它可以从数据中学习方法和规律,并用于数据预测和分类,决策主体从人变成了更理性的设备。


在获得原始数据之后,数据预处理是第一个关键步骤,它是在数据建模之前必须完成的一件事。数据预处理必须对数据进行各种转换和使用,包括:取样、值更换、类型转换等。这里不一一进行,后面的文章可以详细讲解。从技术实现的角度来看,预处理数据的方法一般都是有证据可循的。大多数情况下,它们是相似的,有固定的模板。每个公司根据自己的业务选择合适的模板。


2.2 数据挖掘


如果我们需要处理大量的数据和大量的数据指标,我们很难通过我们的人工主观经验找到更有用的信息。我们的大脑计算量有限,我们也可以把要分析的数据交给计算机。什么数据一般给计算机?有输入、导出和输入输出之间的联系。就像我们参加聚会一样,实际登录人数是导出,而聚会的主题元素、特邀嘉宾、时间是否是假期等。这些对聚会特征的描述构成了这次事件的输入。如果这次聚会的签到率很低,我想知道是什么原因导致了这个问题。但是在寻找这个因素的时候,我不再通过主观经验或者感受来分析,而是通过输入输出的联系来看待。获得联系的工具是模型,建立良好的联系是我们需要的结果。我们发现签到率与聚会的主题非常相关,这是一个主要因素。这个因素是通过模型建立关系后发现的,而不是通过统计平均方差、中位数等多个指标来发现的。数据输入输出之间建立良好的联系,并找到相应的关系。只有一个过程叫做数据挖掘。


与传统的数据分析相比,机器学习更注重在数据挖掘领域的应用。数据挖掘是从大量数据中获取有用信息和模式的过程,算法是实现这一过程的关键工具。在上面的例子中,每个算法构建了从输入输出中获得联系的模型。


建立模型后,我们会输出结果,进行分类或回归任务,即从输入到输出的过程。然而,更多的时候,我们需要建立一个好的模型来推断哪些因素起着关键作用,这涉及到模型的解释,这是数据挖掘中非常重要的作用。在工业领域,我们可以通过很多生产指标来测试一条流水线的产品或零件是否合格,但我们找不到不合格的主要原因。通过使用数据挖掘,我们可以推断哪些环节是不合格造成的,从而更好地改善那个阶段。


2.2 特征工程


为了解释什么是特色工程,我们先给大家看一些实际的例子。我们通常在计算机上安装安全保护软件。当我们访问网页、下载东西或观看视频时,我们会发送它们。 HTTP 当我们浏览的地址存在安全隐患时,安全软件会提示我们。如果现在需要基于用户的话 HTTP 要求找出用户的行为问题,挖掘异常流量。对于这一任务,我们首先要建模,然后要做分类任务,看看用户的行为是正常还是不正常。


下面是我们得到的原始数据,要了解这些数据字段的含义,就需要网络安全知识。


该数据包括访问时间、用户端和访问端。 IP 地址和端口号,发送请求中带的参数,DI 分析等。,这些也是服务器上记录的日志数据。这些原始数据不能通过计算得到具体的指标,而特征工程是将数据转化为可计算的指标。什么是可计算的指标?比如日期有年、月、日,我们不能计算矩阵乘法相似的日期,因为这是一个确定的日期,但是无论我们得到的原始数据有多复杂和非结构化,我们都可以尽可能多地发现有用的信息,就像我们可以知道它属于春夏秋冬的哪个季节一样,这些特征可以用离散变量来表示,比如可以用。 1、2、3、4 分别代表一年四季,此外,我们还可以根据日期得到是工作日还是休息日,是一个月的前十天还是后十天,是周五还是节假日的前一天等。,这样我们就可以推断出时间与用户行为问题的关系,哪个时间段出现异常的概率更高。


我们可以在上面的日期例子中选择很多特征,我们也可以从其他字段中提取特征,例如 IP 地址,我们可以看到这个 IP 历史数据中地址被浏览了多少次?有多少请求出来了?这 IP 和多少不一样 IP 有互动吗?其中哪一种互动最多,端口号,url 同样。


在这一点上,我们可以梳理出特征工程的概念,这是一个将原始数据转化为更有助于表达潜在问题的特征的过程,从而提高机器学习模型在预测不可见数据时的准确性。当我们获得原始输入数据时,我们应该尽可能丰富数据特征。


在具体情况下,提取特征需要很多成员一起努力思考,最后总结出来。每个人都在几个固定的框架中寻找一般的模型和算法,但是当我们处理数据时,我们需要很多专业知识。例如,当我们从事与网络安全相关的业务时,我们需要对网络安全有深入的了解。在提取特征之前,我们必须首先了解这些字段的含义。因此,许多数据挖掘任务的难点不在于算法和模型,而在于如何在原始输入数据中找出所需的特征,然后才能应用算法和模型。在实际应用中,与改进算法和模型参考相比,提取更多的特征对于业务的帮助来说是一种非常划算的方式。科学家们花费大量的时间和精力去探索算法,最终使模型效果提高了0.0%。但是,如果项目成员发现更多的特点,他们可以在短时间内取得良好的效果,成本低,见效快。


特征决定了结果的上限,算法只能决定如何接近这个上限。无论后续做什么,特色工程都是核心步骤,很难固定招数,基本上取决于业务分析。在 2012 2000年以前,计算机视觉和自然语言理解的特征是通过机器学习提取的,但效果并不理想。由于人工提取的特征太有限,深度学习兴起后,图像文本语音的特征一般是通过深度学习提取的。


2.3 量化交易


量化交易是时间序列预测,它的预测不同于数据挖掘,比如下一步是涨还是跌?每个人都有多大的涨跌概率?预测下一个点的具体值等。通常,当我们预测序列时,我们不仅要预测下一个点,还要预测未来一段时间的趋势。因为看趋势的下一刻是涨还是跌可能不太重要,要看它是涨还是跌的连续一段时间,这就涉及到时间序列。


然而,时间序列很难预测。如果有股票的走势图,现在只有一个。 1 号到 19 号码真实数据,下一步是预测。 20 数字,算法可以基于 1 号到 19 数字的历史数据可以预测 20 数字数据,但是下一步是预测。 21 号数据跟 20 数据关系特别大,会以前面为基础。 1 号到 20 预测数据序列,那 22 数字是基于前面的 1 到 21 号来预测。每个人都会发现,预测 20 数字的数据是基于实际值,但是预测 21 在计算数据之前要包含数据。 20 数字数据,但问题是,20 我们不知道数据的准确性,21 数据的准确性也不得而知,我们预测未来时间的序列是否达到标准也不得而知。


因此,机器学习在时间序列中很难应用,尤其是量化交易。而且有时候涨跌不服从某个规律,往往是意想不到的现象。比如中国突然出台政策,相关股票会有很大的起伏。这是一个意想不到的事件,但是模型不可能预测国家什么时候出台哪个政策。因此,在机器学习领域,很难根据现在预测未来,也很难根据未来预测未来。


如果数据分布是固定的,比如学生早上醒来,晚上睡觉,形成这样的固定模式,机器学习就可以找到并学习规则。但是,如果我们的数据分布在未来使用这个模型时发生变化,它的效果就不会起作用。量化交易就是这样。同样,AI 又无法处理跨域问题啊,在一个场景中训练模型效果如果换一个场景就不适用了。


2.4 工业制造业等领域


大量工业(制造业)公司现在面临数字化转型,机器学习早已赋能制造业,应用于新能源、汽车等领域。在新能源汽车领域,电池原材料等供应商应根据合作经验或习惯进行筛选。当输入每个供应商的原材料时,算法模型导出产品的标准率可以通过数据来节省很多人为因素。


此外,它还广泛应用于其他工业制造业,如在汽车工业中使用机器学习建模碰撞测试,然后寻找合适的模型设计指标;化工企业利用机器学习建模进行安全识别,实时监控安全问题;自动识别、缺陷检测等。在车间流水线上,取代大量人工操作。机器学习一般在风险控制领域对信贷风险进行建模,如互联网金融风险建模、利用大数据对个人信贷建模进行评分、对市场进行定价建模等。这里就不赘述了。


本文由 @AI 商品薇薇 最初发布于每个人都是产品经理,未经许可,禁止转载。


题图来自 Unsplash,基于 CC0 协议。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com