从数据知情到数据驱动的决策
数据和决策
现代世界充满了数据。经验数据由机器人和人类捕获、收集和存储。人工数据是由科学家和工程师创建和运行模型和模拟生成的。即使是高管和主题专家的意见,也是为了以后再用而写下来的数据。
为了什么?为什么我们要花那么多时间和精力去收集数据?数据革命的口号是数据驱动决策:我们可以利用这些信息做出更好的决定。对于企业来说,这可能意味着选择一个R&D项目或营销推广,可以最大化未来的收入。对于个人来说,这可能只意味着他们对下一辆车、手机或电脑的满意度会增加。
那数据科学家、分析师和工程师如何利用他们的数据来支持决策呢?从数据到决策的大部分过程都是从探索性数据分析在开始-清理和描述数据集的过程中,许多特征之间的分布、异常值和相关性主要是通过统计分析和支持图表来呈现的。探索性数据分析有很多优点,可以增强对数据集的理解,从而增强对任何可能用它做出的决策的理解:
识别潜在错误或有缺陷的数据,并纠正它们的方法
为了进行数学调整或促进额外的数据采集,识别数据集中可能代表性不足或过多的子人群。
对可能发生的事情和常见的事情建立直觉。
开始理解不同特征之间的潜在逻辑关系(但要时刻注意相关性并不等于逻辑关系)
这是做决定的第一步!实施良好的探索性数据分析将产生可靠的数据集和一系列数据集趋势决策者可以用这些洞察来引导他们的行动。综上所述,趋势洞察涉及的数据集中项目获取特定值的频率:例如,“这些东西通常是X”或“当这些东西是X时,其他东西通常是Y”。
不幸的是,许多现实世界的数据在决策过程中止步于此:向业务决策者抛出了一些利用探索性数据分析产生的趋势洞察力。随后,决策者负责推断出他们(可能有很多)不同行动计划的可能后果。说起来容易做起来难!这是一项具有挑战性的任务,无论是复杂性还是规模性,尤其是对于非技术利益相关者。
数据科学家经常“抛弃”趋势做出商业决策的人,但很难理解这些决定是如何做出的,有时他们甚至不知道这些决定是什么!
如果我们想做出更好的决定,我们需要打破数据和决策本身之间的差距。如果我们能够收集或生成与决策者可用的选择或行动计划直接对应的数据,我们就可以避免根据趋势推断。根据做出的决策类型,通常很简单:比如买家有一份自己所在地区所有待售房屋的清单,或者工程公司有几千种可以评估新组件的潜在设计模型。
建立以决策为核心的数据集所需的思维方式不同于传统的探索性数据分析,因此更容易解释结果,因此更有可能充分支持决策。我们的探索不会停止趋势,而是处理它海底捞针的问题,找到最好的单个数据点集合,这样就可以从端到端完成数据到决策的过程。
从数据知情到数据驱动。
在我们深入探讨测量空间探索的细节之前,我们先用一个例子来讨论一下。买车是很多人都熟悉的决定。这是一个很好的例子,原因如下:
后果非常严重,值得努力“纠正”。汽车价格昂贵,理想情况下使用寿命长,大多数人每天都在使用!任何购买次品的人都会告诉你,这是一种特别具有挑战性和压抑性的挫折。
人们在比较汽车时会注意各种因素:价格、可靠性、安全性、可操作性等。这不是你可以简单选择马力最大的车,期望满意的问题。
一般有很多选择。与汽车相邻的东西,如每个制造商的新车、停车场和在线市场的二手车,甚至摩托车,都可能是一个有效的解决方案。有很多潜在的数据需要整理!
假设我们只想买一辆二手车,以便进一步简化这个例子。
现在,让我们来思考一下,关于这一问题的正常探索性数据分析工作可能是什么样子。第一,我会得到一个大数据,最常见的数据集是由经验观察组成:瓜子二手车的销售数据集非常好。像这样的平面数据文件,每一个项目都与一组共享特征所描述的汽车目录相对应,是公开数据集最常见的格式。接下来,我将开始对不完整/异常目录进行总结、查找和清理,或者对不一致的列进行定义。在清理完数据之后,我会用统计数据或者图表来分析数据,以确定不同变量之间的相关性。
常见的探索性数据分析可视化是散点图矩阵,显示数据集中关键参数的成对关系。
现在再想想这个决定:我想买一辆二手车。探索性数据分析对我有帮助吗?对粉丝和专家来说,探索性数据分析的好消息是:当然有帮助!如今,我已经掌握了与我决定高度相关的趋势观点。价格与车型年份明显有关,与里程里程有关!大多数可用的汽车都有3-7年的车龄!通过对二手车市场的更好了解,我将更加自信地判断一辆车是否划算。
但是探索性数据分析是否存在?找出最合适的我的车?答案是否定的!其实我买不到数据集中的车,因为是历史目录。如果其中任何一辆车仍然有效,我不知道它是什么,因为它没有被标记。我没有实际的汽车数据,所以我还是需要自己找这些车——而且我的探索性数据分析只有在我发现的趋势可以帮助我手动搜索其他数据的时候才有用。
当相关过去数据的趋势被“抛向”决策者,而决策者正在查看当前/未来的数据时,这些趋势就更难做出正确的决策。
这就是所谓的数据和决策之间的芥蒂,这在实践中是极其常见的,因为大多数都是数据它们都包含历史数据,但是我们的决策它目前或面向未来。虽然探索性数据分析可以将大量的历史数据集处理成一组有用的观点,但观点和主动决策之间存在分歧,因为它只是通过比较来描述我的选择(也就是说,如果我愿意假设目前的二手车市场类似于过去的市场)。也许这样做出的决定会被称为资料知情决策而不是数据驱动最好做决定。真正的数据驱动决策将基于对实际决策数据集的描述——在这种情况下,数据将由目前可用的汽车目录添加。
设置交易空间
探索交易空间,或更具体地说探索多属性交易空间(MATE),这是一个数据驱动的决策分析框架。它最初是在2000年在麻省理工学院成立的。经过几十年的改进和应用,它仍然没有过时。MATE会思考价值至关重要将大数据集带入世界,其明确的目标是增加利用这些信息做出的决策所创造的价值。
MATE框架可以帮助决策者和数据科学家/分析师批判性地思考如何定义和构建决策问题,如何收集数据,以及如何最终探索数据以产生实用性和相关意见并找到最佳解决方案。从高层次来看,MATE分为定义、生成和探索三个层次。
MATE的概念、生成和探索层将数据驱动决策所需的步骤分为独立的任务,然后可视化/分析数据,以全面描述问题并收集必要的数据。
定义MATE的基本研究首先要从几个核心概念入手:
利益相关者。谁做出决定或受其影响?为了简单考虑,我们假设我是买车的唯一利益相关者;但是,请记住,很多决策都有很多利益相关者,用户的需求和愿望可能有很大的不同。我们可以并且应该考虑他们所有人。
替代方案。有哪些可能的解决方案,也就是有哪些可用的选择?在这个例子中,我已经把自己限制在购买二手车上。我的替代方案是所有从我居住地周围合理距离内销售的二手车。重要的是,替代方案应该是唯一的:我可以用制造商、型号、年份等基本变量来定义我的选择,但是如果有多个相同的车型目录,我还是需要一个像VIN这样的唯一标志符。
资源。利益相关者如何获得和使用替代方案,也就是需要投入多少钱?每辆车都有一次性购买价格。我也可以选择考虑后产生的所有权成本,比如燃料和维护,但是现在我们忽略了这些。
好处。为什么我们要一个替代方案,就是利益相关者用什么标准来判断替代方案有多“好”?也许我关心的是汽车可以携带的乘客数量(为了实用性)。、发动机气缸(为了快乐)、里程数里程(为耐久性)和安全等级(为...安全)。
这一简单的大纲向我们展示了如何在?生成在步骤中收集数据。为了正确捕捉这个决定,我需要收集我在定义步骤中确定的所有替代变量、资源和收入的数据。如果数据不足,我的价值场景就会不完整——但我可以随时添加任何我认为有用的额外变量。
完成定义层,在试图收集数据之前,有助于确保充分的收集工作,避免在不必要的参数上浪费时间。
想像一下,瓜子二手车的数据确实包含了一列,指示哪些目录还可以购买,所以才是我做决定的真正替代方案。是不是我收集了数据?不——这些数据包括我的替代变量(制造商、型号、年份、VIN)而且我的资源(价格),但是缺少我的两个优点:乘客数量和安全等级。我需要用其他数据来补充这些数据,否则我就无法准确地判断我对每辆车的喜爱程度。为了获得新数据,并正确匹配新列中的当前数据,分析师需要做一些准备工作。
幸运的是,替代变量可以作为引用不同数据集的交叉“键”。例如,我需要为每个替代方案找到一个安全等级。安全等级一般针对汽车的品牌/型号/年份,所以我可以:
查找相关安全评级的表格数据(由他人编制),然后将其与我个人的数据结合起来,通过连接品牌/型号/年份等列表。
收集自己的安全评级数据,并将其插入我的表格中,例如通过搜索找到每个替代方案的品牌/型号/年份。
或许我也想用其他替代方案来补充瓜子二手车的数据:毕竟,并非所有的二手车都在瓜子二手车上销售。最好的MATE方法是尽可能多地提供替代方案,以防事先做出决定。我可以在我的数据集中添加更多的汽车作为附加行,通过浏览周围的汽车经销商网站,搜索他们的二手车库存。根据可用的汽车数量(以及我个人的动机),我甚至可以使用网络爬虫自动执行这个过程,这通常是一种大规模的数据采集方式。但是请记住:我仍然需要至少有数据来集中每辆车的变量、资源和好处的数据。大多数经销商的目录都不包含安全评级等详细信息,所以我需要用其它数据库来补充这些信息,就像以前一样。
这时,我已经有了“海底捞针”的数据,我几乎准备好了开始探索层,找到了那根“针”。但是我该怎么办呢?MATE和探索数据分析有什么区别?
什麽是好的解决办法?
现在我的数据集已经填满了与实际决策相关的替代方案。我能不能只对它们进行探索性的数据分析来解决问题,找到最好的车?嗯(表示踌躇等)...既可能又不可能。你可以也应该!对MATE数据进行探索性数据分析——清除数据集中的潜在错误或异常仍然非常重要。如果数据是通过网络抓取工具等自动化过程收集的,这一点尤为重要。建立对数据趋势的直觉目标也没有什么不同:我们越了解不同标准之间的关系,我们就越有信心做出最终决定。例如,我在几张图片之前展示的散点矩阵也是MATE常见的可视化。
但是,即使有活跃的汽车目录数据和所有必要的变量,探索性数据分析的基本相关性和分布分析也不能帮助提取单个高价值数据点。请记住:我们关注车辆的许多不同特性(多属性交易空间探索)多属性),因此,我们不能简单地按照价格排序,选择最便宜的车。只有通过探索性的数据分析趋势,我仍然需要手动检查许多潜在的选择,直到我找到一辆功能理想、性能和价格相结合的汽车。
我需要的是一个可以把最好的车放在前面的工具。这个工具是:价值建模。
从最基本的角度来看,价值模型是一种数学函数,它试图复制利益相关者偏好。在定义层中,我们将确定利益和/或资源输入并得到一个价值分数,这个分数表示每个替代方案。的好的水平。若模型精确,我们的利益相关者将更喜欢评分较低的替代方案(汽车)。

价值模型参数值是为了模拟利益相关者的喜好而建立的。这样,如果传输到汽车的收入/资源指标,模型就会回到一个分数,这个分数可以用来自动排名与其他汽车相比。
大多数数据科学家可能已经多次建立和使用了一个简单的价值模型(无论他们是否意识到这一点或用不同的名字称呼它),作为完成这项任务的一种手段:在数据集中创建一个新列,并使用其他列的函数对行进行“评分”,以便对数据进行排序,突出高分支机构。有许多类型的价值模型,每一种都有自己的优缺点。更加精确的价值模型一般更加复杂,相应地需要更多的精力来创建。
例如,我们将使用一个简单的例子。效用函数结合了我从买车中获得的四个好处。有一个正式的启发过程可以和利益相关者一起完成,从而创建一个可以验证的正确效用函数,但我们只需要为每个特征分配一个。阀值要求(最差的可接受程度)、目标(超过这一点的最大价值水平没有额外的价值)和起伏权重(重要性衡量)快速构建效用函数。还有其他方法可以定制效用函数,包括非线性曲线和互补/替代效应。这次我们会绕过这些。
每个特征在需求和目标之间都有一个定义的效用曲线(在本例中向线性曲线),并且单个特性效用构成多属性效用的摆动权重。背景中的条形图显示了参数在数据集中中的分布。
但是等一下:为什么我没有把价格列入效用函数?技术上的答案是,大多数人在收入和资源之间表现出“不完整的排名”——这是一种花哨的说法,即利益相关者一般不能明确规定自己是喜欢低成本、低收益的替代方案还是高成本、高收益的替代方案,因为两者在严格意义上都不如另一种。对了,这也是为什么很难通过优化函数来“处理”决策的原因:在实践中,决策者通常喜欢看到一组。从低成本、低回报、高成本、高回报的替代方案,以及自己的判断,比将回报/成本结合到一个价值模型中更可靠。这个集合叫做帕累托集(或以图形方式查看时。是帕累托的前沿),它是交易空间中价值最高的区域。

交易空间的散点图突出了帕累托的前沿——最理想的替代方案通常位于前沿。请注意,左上角的回报率不到100%,因为并不是所有的汽车都符合我们的要求。
那就是“衡量空间”。散点图y轴表示收益,x轴表示成本(每一个散点图都可能是由多个特性组成的价值模型)。收入和成本之间的衡量是迄今为止现实世界中最常见的用通俗英语表达的决策框架,MATE框架的存在是指导我们将数据驱动的决策分析纳入利益相关者和决策者熟悉的结构。这几点中的每一点都是我可以买到的车——一个我可以做出实际选择的方法,一个我可以解决我的决定,不需要依靠过去的趋势推断。
现在只剩下探索层,我需要从那堆点中找到我最喜欢的针。
在海里找到针
让我们使用程序快速探索我的汽车数据。首先,因为可能是我想买的替代车型,我会用火焰来突出帕累托集中的汽车。-一个定制标记出现在图片的“顶部”,即使我改变了图片的大小,它也会保留下来。我也很好奇里程里程和交易空间的价值维度之间的关系,所以我会用这个参数作为点燃色。
交易空间按里程数公里上色,帕累托集汽车以洋红三角形标记。
我立刻想到了两个问题:
由于超过17,000辆车辆的交易空间非常密集,因此很难区分里程数里程。遮挡:有些点覆盖了其他点。我可以看到这些点通常是沿着y轴从黑暗变亮的,但是如果我能清除屏蔽,我可以更清楚地看到不同里程水平在我的收入/资源维度上的分布。
我还是看不到帕累托集中车的里程几公里,因为是洋红色的。如果我还能突出这些车,同时看到它们的里程颜色,那就太理想了。
为解决这一问题,我将以两种形式修改我的情节:
我将用凸包在交易空间中更换点——本质上将里程的里程划分为较小的块,并在每一块汽车周围绘制一个“气泡”。
我会保留我的帕累托集火焰,但是更新它,使三角形增加相应的里程数里程颜色。
通过这两次改变,我得到了以下结果:
交易空间表明,帕累托集中的个别汽车仍然以火焰突出。看这个!我能看到里程和效用之间明确的关系,这是有道理的,因为这是我在价值模型中使用的收入指标之一。另外,除了图右下角的几家商家,很明显公里数高的车辆最高开价较低——但也许更有意思的是,公里数似乎不对。最低开价影响很大。即使是低公里数的车也能便宜买到!
但是让我们通过关注帕累托集来做出决定。我没有筛选数据集来删除高成本的汽车,因为正如我之前提到的,在开始探索之前不减少替代方案的总数被称为MATE的良好实践。但事实上,我的购买预算是1万美元。也许我想要这个限制内最好的车——尤其是现在,我知道我仍然可以在这个价格范围内找到公里数较低的车。我会添加我的预算要求并转换回散点图:
交易空间的颜色是里程几公里,x轴上的预算要求是1万美元。请注意,由于预算原因,左上角的回报率进一步下降到36%左右。
好了,我们现在看到的是一张经济型汽车放大版的照片。如果我只想买一辆更符合我预算的车,那么它就是帕累托最右上方的设置点。我可以用鼠标悬停来查看汽车的详细信息:

在某一点上悬停鼠标会显示详细信息的工具提示。2006款克莱斯勒300,行驶里程14,000公里,售价9,000美元。还不错!但是等等...它被漆成白色。我忘了我讨厌白色汽车!MATE的一部分探索层是利益相关者的偏好,这些偏好在接触到新信息时通常会发生变化:即我的数据驱动决策数据。使用互动工具的一个优点是,我可以很容易地更新价值模型或过滤器来应对这些变化。我只需要添加一个过滤器来删除白色汽车,并储存一个新的帕累托集:

再一次过滤交易空间以去除白色汽车,并上传含有绿色方块的新帕累托集。
好吧!目前我预算范围内最好的车是2009款大众途锐的银色车型。和克莱斯勒相比,我少了一个乘客(6比5),这并不理想,但这款车的实用性几乎和14000比158一样高,因为里程明显较低(14000比158)。几乎是全新的,只需要3500美元!
我找到了:海底捞针。数据驱动的证据可以证明我们的决定是正确的!
我对它一见钟情——但是我必须先从其它20,000辆车中找到它!
结论
本文展示了探索性数据分析和测量空间探索是如何相似/互补的,但强调当最终目标是找到数据集中的“最佳”点时,数据采集和可视化的一些关键区别。测量空间探索可以成为探索性数据分析的“一步之遥”,促进决策从数据知识转变为真正的数据驱动。
本文来自微信微信官方账号“数据驱动智能”(ID:Data作者:晓晓,36氪经授权发布,_0101)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




