数据库的演变:怎样解读数据日益增长的故事?

08-29 19:52

如果你和数据领域有过一点关系,我想你已经感受到了数据生态系统混乱的细微差别。毫无疑问,数据世界经历了自己的发展过程,但事实上,它取得了长足的进步。


如今,即使是小企业也很难想象手动写入、读取和管理数据,因为数据生成量巨大。如果成功识别方法,每一次点击、每一次浏览、每一次事件都会产生可能有益的重大业务成果。


想象一下,这些事件的数量增加了几倍,达到了几百万甚至几十亿的规模。如何处理这么多数据,保证数据不仅占用了昂贵的空间,还体现了它们存在的意义?


数据库的演变


为了满足数据增长的速度,数据堆栈一直处于不断演变的状态。实际上,增长的不是数据,而是数据一直存在于宇宙中。增长来自于我们的技术能力,随着时间的推移,这些技术能力已经发展到可以捕捉各种数据流。例如,今天的物联网设备甚至可以通过检测呼吸和运动来调节通风能力。


然而,虽然捕获和记录数据的感官能力明显增强,但处理、管理和理解数据的能力并没有以同样的速度提高。因此,我们有眼睛、耳朵、皮肤、舌头和鼻子,但我们仍然缺乏一个完美的大脑来理解和使用来自这些渠道的输入。


假如流行的数据堆栈是人类...


一 数据基础:传统数据堆栈


数据一直存在,未来不会缺少数据生成。作为一个行业,我们知道这些无处不在的数据是可以利用的,应该用来优化资源和投资回报。


? 这里要注意的一点是,过去使用数据的主要目的是提高企业的竞争力和未来的投资回报。


第一个具体的基础是传统的数据堆栈,以实现数据的可操作性。那时它还不是“传统的”;这些都是数据堆栈。它在一定程度上改变了观点。十年或二十年后,当今流行的堆栈很容易落入传统或遗留范围。


什么是传统数据堆栈?为何会落后?


简而言之,传统数据堆是当地信息系统的昵称。组织和管理自己的基础设施和硬件不仅需要大量的劳动力,还需要脆弱性(可变性)、维修费用高,缺乏可扩展性(每一次需要扩展的堆栈都要提供新的基础设施或硬件)、在分析或缺乏根本原因分析方面,自下而上的维护引起的僵化、重新开发和极其复杂的根本原因也是一种负担。


由于传统数据堆栈中的组件(无论是仓库还是大数据集群)相互紧密结合,很难将逻辑需求与原始物理数据分离,从而减缓业务、恢复和 RCA 能力。


人工密集和紧密莲藕也是传统数据堆栈及其支撑的数据管道高度疲软的原因。转换工作不仅因为技术过时而缓慢,还因为管道不稳定,遇到动态数据或事件时会中断。众所周知,信息是不断变化的。


当然,我们来谈谈关键问题。数据堆栈的整体目标是促进业务。维护和扩大传统数据堆栈的成本对数据团队的投资回报率造成了重大打击。即使我们假设堆栈产生的价值是有用的,并且在正确的时间到达业务团队,保证过渡的成本也会吞噬一半以上的价值。


因此,传统数据堆栈的表现从来都不是一流的,尤其是在质量、数量方面,尤其是时间敏感性和投资回报率方面,这对企业尤为重要。但总比没有好。它向我们展示了更微妙的问题。这些问题比存储在大量物理文件和文件夹中,沉睡在地下室深处的数据问题高出一个层次。


二 高级数据:现代数据堆栈


这就是事实。与传统数据堆栈状态相比,我们不能否认现代数据堆栈带来的令人印象深刻的演变。最大的成就可能是革命性的向云转变,这不仅使数据更容易浏览,而且更容易恢复。 为了实现从物理数据到业务洞察的主动流动,现代数据堆栈是多点解决方案的集合,这些解决方案由用户拼接在一起。我们都看到了围绕现代数据堆栈的炒作,以及它如何让数据用户沉浸在潜力和概率中。


但实际情况是,现代数据堆栈只是一组不连贯的解决方案,它针对的是管道不堪重负的传统数据堆栈问题的各个部分,将所有数据转储到中央湖,最终导致跨行业难以管理的数据沼泽。


总的来说,数据沼泽并不比地下室的物理文档好。数据沼泽充斥着丰富有用但处于休眠模式的数据,因为这些数据具有独立的语义和不可信的语义,公司无法投入使用。


语义不可信源于现代数据堆栈的混乱,工具、集成和不稳定的管道太多,以至于真实清晰的语义在网络中丢失。理解低级语义需要另一个层次,只会进一步复杂问题。


随着数据生态系统逐渐发展成为一个复杂而独立的系统,每隔一天就会有源源不断的点解决方案加入到这个疯狂的组合中,非专家终端用户陷入混乱。毫不奇怪,它被称为 MAD(机器学习、人工智能和数据)模式。以下信息图立即指出了现代数据堆叠的问题;不用多说(一张图片胜过千言万语!)。


现代数据堆叠生态体现在选择困难、集成成本、维护成本、专业知识成本和资源成本上。由无数点解决方案组成的混乱生态系统最终会导致数据孤岛,而不是处理它们。


三 目前的解决方案:数据优先堆叠


与现代数据堆栈相反


现代数据堆栈的出现帮助我们解决了当地部署和人工密集型挑战带来的阻力。然而,现代数据堆栈也是一把双刃剑,它带来了一个新的问题,甚至是数据生态系统中树木一片一片长出叶子时意想不到的问题。


在过去的十年里,数据优先堆栈是一个里程碑式的创新,它的灵感来自 Uber、Google 和 Airbnb 等待数据优先组织开展的数据优先运动。但是数据优先意味着什么呢?


顾名思义,数据优先是把数据和数据驱动的决策放在第一位,通过抽象或智能设计结构减少其他一切的优先级。如果我们从相反的方向看“数据结束”,我们会更容易理解这一点。


目前的做法(包括 现代数据堆栈是“数据最终”的实现,需要投入大量的精力、资源和时间来管理、处理和维护数据基础设施。事实上,数据和数据应用程序已经消失在这种变化中,成为以数据为核心的团队的最终焦点,为数据制造商和数据客户创造了一个具有挑战性的业务雷区。


投资回报时间 (TTROI)


在过去的十年里,由于技术实力低下,创新有限,特别是我们对数据世界的洞察或理解非常有限,组织建立数据优先堆栈需要几年时间。


如今,企业能否更好地掌握数据是决定竞争优势的关键。许多数据优先组织已经理解了这一点,并致力于实现数据优先的关键项目。然而,复制它们并不是一个解决方案,因为它们的数据堆栈是为其特定的内部结构而设计的。


? 真正的数据优先是根据企业内部基础设施构建的数据优先堆栈。


与一般概念相反,建立数据优先堆栈需要几年时间,但随着近年来新存储、计算工具和创新技术的出现,这种想法已经不再适用。在几周内(而不是几个月或几年内)建立数据优先堆栈并获得价值并非不可能。


无中断


数据优先堆叠容易转换是合理的,因为数据优先堆叠不会造成破坏,因为它的目的不是为了推翻和更换目前的工具或之前的大量数据投资。它提供一个统一的控制平面,在复杂的子系统之上推广现有的设计结构。随着时间的推移,这些子系统可以根据用户的过渡难度或偏好,优先用数据堆叠原始构建块来代替。


四 概念因素优先堆叠数据


内部质量高,统一架构。


我们习惯于认为“高质量”的东西更贵。然而,当涉及到结构和内部质量的其他方面时,这种关系就颠倒了。由于影响较小,高内部质量可以更快地交付新功能。"


统一的方法会毫不留情地减少插入数据生态系统的移动部件。更多的工具会带来更多的垃圾(债务),使问题更加复杂。统一的方法会结合功能实现单一的管理平面。


建立一个真正统一的结构的关键是清理杂乱,并使用一组简单的结构块。这些块可以按照任何必要的顺序组合在一起,以构建更大、更精细的解决方案。这些解决方案具有松散耦合和紧密集成部件。


统一架构只需要少量的调整就可以支持非常具体的数据应用。最终目的是拥有精心策划的自助服务层,让用户摆脱复杂、独立、隔离子系统的复杂性,让他们能够致力于手头的问题——数据。


声明式可以管理


真正的数据优先堆叠将重点放在数据和数据应用上,而不是将工作分散到底层操作(如提取、集成、安排、低级存储细节等)。).此外,数据工程团队花更多的时间修复管道,而不是创建新的管道来促进业务机会。声明管理系统可以大大消除脆弱范围,并根据需要提供 RCA 镜头。


声明管理数据的质量、治理、可靠性和语义一直被认为是不可能的,但由于最新的革命性数据契约理念,数据领域的声明功能可以轻松实现。最好的是,合同不会破坏任何当前的基础设施。


3.快速回顾合同数据合同是对数据的期望。这些期望可以是业务意义、数据质量或数据安全。这是数据制造商和数据客户之间的协议,用于记录和声明,以确保数据期望得到满足。


为了深入了解合同,请关注这里。


声明式数据生态系统的目标是拥有统一的架构思想和合同握手的数据开发平台,因此也是数据优先堆叠的真正推动者。


第四,最先进的开发者感受到


数据优先堆叠的主要终端用户无疑是数据开发者。对于资源优化和业务时间表来说,数据开发者在处理数据和构建数据应用程序方面的经验尤为重要。数据优先堆叠提高了开发者的感受,抽象了低级资源管理任务,同时又不损害其灵活性,让数据开发者可以通过声明完全自由地管理战略操作。


合同在规划最佳开发人员体验方面也起着关键作用。“我们应该结束数据工程行业的灾难,没有数据合同。”数据合同的最佳位置在哪里?为什么数据工程师要放弃成千上万的待处理请求,考虑合同对他们日常感受的影响?


合同几乎完全符合价值金字塔,通过在数据环境中分布合同握手的简单哲学:


提高数据生态系统的功能能力


改善合作感受


提高数据工程师、数据生产者和数据消费者的个人体验


此后,启用 Data-First 堆栈,用户可以专注于核心数据和核心数据应用程序,而不必陷入集成和维护的细节。



价值在几个星期内实现,而非几年。


综合数据优先堆叠,最初的发展速度很慢,但一旦解决了前几周,其价值就会立即实现,因为真正的数据优先堆叠就像它的名字一样:它把数据和指标放在第一位,直接把流程和业务效益联系起来。仔细想想,数据优先是效益优先的同义词。


五 数据优先堆叠的结果


数据优先堆叠的最终目标是建立数据产品。虽然这可能是任何数据堆栈、数据团队或数据规划的理想目标,但在普通数据堆栈的复杂性中,不知何故,建立真正有助于实现业务目标的有价值数据的最终目标被遗忘了。


数据优先堆叠可以消除影响,再次将注意力集中在数据和数据应用上。当数据通过数据优先堆叠的部件传输时,典型的导出是数据产品。简而言之,它是一个数据单元,可以持续可靠地增加用户的价值。数据产品有一些独特的质量或特点,可以区分普通数据。


如果数据产品具有上述特点,它很容易成为一个简单的电子表格,存储中的文档,一个表格,一个数据库,以及存储在ML特征存储中的特征...你明白了。


总结



本文来自微信微信官方账号“数据驱动智能”(ID:Data作者:晓晓,36氪经授权发布,_0101)。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com