主机论坛_虚拟主机_美国主机_美国虚拟主机_云主机技术_全球主机交流聚集地—Web Hosting Talk 中文站

找回密码
立即注册
发新帖

0

收听

5

听众

59

主题
发表于 2018-1-31 10:22:33 | 查看: 740| 回复: 0

  通过热情地相信还不存在的东西,我们创造了它。不存在的是我们没有充分渴望的东西。
  通过热情地相信仍然不存在的东西,我们创造了它。不存在的是我们没有充分期望的东西。
  需要仍是发明之母。正如一位精明的顾问曾经告诉我的那样,“如果一个组织中需要发生什么,那么这种情况就会发生。”他的观点有两个意思:1)有些人总能找到解决问题的办法;2)高级管理层,甚至中层管理人员,很可能完全不知道他们自己的机构内的事情到底是如何完成的。
  继2016年4月26日第二届年度KafkaSummit之后
  如果我们把这个比喻扩展到整个数据管理领域,我们可以看到正在发生的转变。大数据的原始压力,再加上流数据的轴心,造成了如此大的压力,以至于传统系统即使没有完全崩溃,它的边缘也会磨损。尽管如此,此时此刻仍有无数的专业人士在忙着自己的工作,他们基本上没有意识到这一现实。
  数据承载、数据驱动的企业占据了前排的位置,并在许多方面推动了这一变革。想想像Yahoo这样的大公司!Facebook和LinkedIn向开源提供了巨大的捐款,使企业软件产业发生了逆转: Hadoop、Cassandra以及现在的Kafka,所有这些都是由亚太地区基金会( Apache Foundation )提供的,该基金会本身就是这一变革的核心参与者。
  所有这些变化的结果是什么呢?我们今天所看到的是数据管理本身的分类和重组。这并不是说,传统系统现在将被删除并替换掉了。任何行业资深人士都会告诉你您,大规模解散传统系统的情况发生的概率与Chicago Cubs赢得世界大赛的概率差不多。至少可以这么说,这是一个罕见的情况。
  现在正在发生的是,在旧世界体系周围正在建造一个超级结构。想想与州际高速公路的相似之处吧,它经常跨越它们所服务的城市和城镇,旨在向这些人口中心运送人员和货物,并为其中的任何人和任何东西提供出口它们并没有取代现有的道路,而是增加了高速公路这一选择。
  这正是Apache Kafka所做的:它为信息系统之间的数据移动提供了高速公路。根据高速公路的特性,仍然有许多公司使用线性消息队列或旧的ETL标准(提取-转换-加载);但是这些路径的速度限制很低,而且有许多坑坑洼洼;此外,维护费用往往很高;路标也很破旧。
  Kafka提供了交付数据的另一种方法,这种方法无疑是实时的、可扩展的和持久的。这意味着Kafka不仅是一个数据移动载体,而且是一个数据复制器;在一定程度上,它还是一个分布式数据库技术。我们应该谨慎些,不要把这个技术看得太重要,因为Kafka还不具备符合ACID的数据库的一些特性。然而,这一变革是真实的。
  这对信息界来说是个好消息,因为现在数据可以自由地在这个国家和全世界流动。曾经痛苦的约束条件,也就是ETL过程中点击一批窗口,现在这种情况正在减少,就像雾在烈日的照耀下,天空逐渐变晴朗一样。当把数据从一个系统无缝转移到另一个系统时,一个充满新机遇的时代将会来临。
  人类很可能是通往数据新未来道路上最大的障碍。因为旧习惯很难改变。CIO对于对企业系统进行大规模更改这一情况并不感到兴奋。一位精明的高级主管说:“做好孤独的准备。“发表评论后不到一年,他就成为了一名顾问。这不是一条简单的路径,因为要试图去管理极其庞大的企业数据世界。
  好消息是,Kafka提供了通向未来的入口。因为它是一个高性能、多方面的消息总线,所以它在传统系统和具有前瞻性的同类系统之间建立了桥梁。因此,以开放性的头脑和充足的预算迎接这一新机会的组织将能够进入新的世界,而不抛弃旧的世界。这可是个大挑战。
  言归正传
  虽然Apache Kafka是一种开源技术,任何人都可以免费下载和使用,但为LinkedIn创建此软件的人却将一个名为Confluent的独立实体剥离出来,该实体侧重于强化企业使用的服务。就像Cloudera、Hortonworks和MapR一样,他们都是围绕着Apache Hadoop的开源项目建立自己的业务的,所以Confluent试图将Kafka货币化。
  在最近的一次内部分析采访中,Confluent的CEO兼联合创始人Jay Kreps解释了开发LinkedIn的初衷:
  “我们试图解决那里的几个不同的问题。第一,我们有所有这些不同的数据系统和不同种类的数据。我们有数据库,有日志文件,有关于服务器的指标,还有用户点击的内容。当数据变大的时候,获取所有这些数据是非常困难的,因为这些数据越来越多了。只有您把数据传送到应用程序、处理或需要它的系统,数据的强大功能才能发挥出来。这是个大问题。
  “我们遇到的另一个问题是我们使用了Hadoop,这是我参与的一个问题。我们有一个出色的离线处理平台,我们可以扩展,把所有数据都输入进去。对于LinkedIn而言,我们的所有数据都是实时产生的。数据连续不断地产生。当我们尝试从数据中构建业务的关键部分时,总是存在这种不匹配的情况;这种操作每天运行一次、可能在晚上运行并在第二天产生结果,您必须跟得上这种持续生成的数据(短的交互时间)的进程。我们希望能够做一些在学术界已经存在了一段时间的事情,但实际上并不是一件主流的事情,那就是能够在数据流生成时,而不是在数据流停止生成的时候,挖掘和处理数据流。
  那好。这正是Confluent现在要对所有类型和规模的企业数据执行的操作。机会来了?不,现在还未开发。坦率地说,在企业软件的整个历史中,人们可能会认为这种技术的市场空间极其广阔。每个大型组织,甚至数据密集型的小型企业都能够从这项技术中获得巨大的利益。
  由于这项技术的神经方面,这一点似乎显得特别正确;这不仅仅涉及到思想,而且涉及到Kafka对信息系统所做的工作的性质。因为Kafka可以用来管理整个组织中的数据移动,所以它不仅仅可以被看作是一个交通警察,还可以被视为操作本身的大脑。我们正处于这个设想的早期阶段,但请放心,这是真实的。
  Kafka将如何改变数据管理
  要理解Kafka将如何改变数据管理的性质,只需想想LinkedIn改变网络的方式就可以了。现在找到同事就容易多了;如今与人保持联系也是件易事。LinkedIn为商业界人士所做的事情,Kafka将为信息系统做到:让他们在这个世界上最广泛的范围内保持联系。
  Confluent的衍生产品象征着一种被我们称为“新创新”的运动,这一场运动由软件开发与封闭源代码思想推动,由开源技术的创造者引导,由大量风险资本推动,由盈利性公司带动——这些公司寻求对组织和人员如何创建、收集、分析和利用数据进行变革。
  用Franz Kafka的话来说,从某一刻开始,就再也没有回头的余地了。这是必须达到的目标。
  WHT中文门户站虚拟主机资讯网,提供最新最全的互联网资讯,为更多主机爱好
  者提供一个交流平台。
  WHT中文资讯网原创,转载请注明出处。

www.vpsstar.com

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|WebHostingTalk中文站

GMT+8, 2024-3-19 13:38 , Processed in 0.075470 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2001-2024, Tencent Cloud.

快速回复 返回顶部 返回列表