通过Techopedia Staff,2016年2月24日
总结:主持人丽贝卡·乔兹维克(Rebecca Jozwiak)与行业顶尖专家讨论流分析。
您目前尚未登录。请登录或注册以观看视频。
丽贝卡·乔兹维克(Rebecca Jozwiak):女士们,先生们,您好,欢迎来到2016年热门技术! 今天的标题是“利用防火墙:从Streaming Analytics获得业务价值。”这是Rebecca Jozwiak。 每当我们亲爱的埃里克·卡瓦纳(Eric Kavanagh)无法来这里时,我都会成为网络广播主持人的第二指挥,所以很高兴今天看到很多人在那里。
这一集与我们的其他集有点不同。 我们谈到了什么很热门,当然今年也很热门。 最近几年一直很热。 总是有新的东西出来。 今天,我们正在谈论流分析。 流分析本身就是一种新事物。 当然,流,中心数据,RFID数据不一定是新的。 但是在数据架构的背景下,数十年来我们一直专注于静态数据。 数据库,文件系统,数据存储库–主要用于批处理。 但是现在随着从流数据,数据情感(有人称其为实时流)创造价值的转变,它们确实需要基于流的体系结构,而不是我们习惯的基于静态数据的体系结构,并且它必须能够处理快速提取,实时或近实时处理。 它不仅必须能够满足物联网的需求,而且还必须能够满足万物互联的需求。
当然,理想情况下,可以说两个体系结构并排居住,一只手洗另一只手,这将是很好的。 尽管几天之久的数据,几周之久的数据,几年之久的数据当然仍然具有价值,历史分析,趋势分析,但这些天来推动实时情报发展的却是实时数据,这就是流分析变得如此重要的原因。
我今天在谈论更多。 我们有来自澳大利亚的数据科学家Dez Blanchfield来访。 现在对他来说是一大早。 我们有首席分析师Robin Bloor博士。 Impetus Technologies的StreamAnalytix产品负责人Anand Venugopal也加入了我们的行列。 他们确实专注于该领域的流分析方面。
这样,我将继续将其传递给Dez。
Dez Blanchfield:谢谢。 我需要在这里控制屏幕并向前弹出。
丽贝卡·乔兹维克(Rebecca Jozwiak):来吧 。
Dez Blanchfield:在抓取幻灯片时,让我介绍一下核心主题。
我将其保持在较高的水平,并将其保持在大约10分钟的时间。 这是一个很大的话题。 我参加了一个活动,我们花了两到三天的时间来详细研究什么是流处理,我们正在开发的当前框架以及在这些大流量中进行分析的含义。
我们将仅弄清流分析的含义,然后深入研究是否可以获取业务价值,因为这正是企业所要寻找的。 他们希望让人们快速,简洁地向他们解释,通过对流数据应用某种形式的分析,我可以在哪里获得价值?
什么是流分析?
流分析为组织提供了一种从各种形式的业务中从企业中获得的大批量,高速数据中提取价值的方法。 此处的显着区别是,自从发明大型机以来,我们在开发静态分析和数据的镜头和视图方面已有很长的历史了,几十年来我们一直在处理这些数据。 在过去三到五年中,我们所谓的“网络规模”发生了巨大的范式转变,它正在利用实时或接近实时的数据流,而不仅仅是处理和查找事件相关性或事件触发器,但对这些流执行真正详细,深入的分析。 这是对我们之前所做工作的重大转变,要么将数据收集,放入某种存储库,现在是传统的大型数据库,大型大数据框架(如Hadoop平台),然后在其上执行批处理模式,然后获取某种见解。
我们非常擅长快速地执行此操作,并尝试了很多繁重的工作,但我们仍在真正地捕获数据,存储然后查看它,并获得一些见解或分析。 随着大数据流的发生,转向执行这些分析已成为一个非常新的令人振奋的增长领域。 它需要完全不同的方法来捕获,存储,处理和执行分析。
转变并专注于在流中执行分析的主要驱动力之一是,随着信息向您提供,并且随着业务的可用,您可以更快,更轻松地获得这些见解,从而获得可观的业务价值。 现在,在某些行业中不再进行末端处理的想法。 我们希望能够即时进行分析。 到一天结束时,我们已经知道发生了什么事情,而不是到一天结束并完成24小时批处理工作并获得这些见解。
流分析是关于直接进入该流,而数据流通常是非常大量的数据流,并且非常快速地向我们传递数据,从而获得对这些流的见解或分析。以便让它静止不动并对其进行分析。
正如我所提到的,我们已经执行了数十年的批量处理分析。 我在这里放了一张很酷的照片。 这是一张绅士站在兰德公司一生前创建的模拟计算机前的照片,这就是他们观看房子里的计算机的样子。 有趣的是,即使到那时,他们仍然拥有所有这些小表盘的概念,并且这些表盘代表从房屋传入并实时处理的信息,并告诉您发生了什么情况。 一个简单的例子是一组大气压力和温度,我们可以实时看到正在发生的事情。 但是我想,即使是在RAND Corporation将这些小模型放在一起的时候,他们实际上实际上已经在考虑处理数据并对其进行流式格式的分析。 我不太确定为什么他们要在计算机上安装方向盘,但这很酷。
自打印机问世以来,我们一直致力于捕获数据并对其进行批量分析。 正如我所说的那样,现在发生了重大变化,我们从众所周知的网络规模参与者中看到了这一点,他们都是像Twitter,Facebook和LinkedIn这样的家用品牌,我们与这些社交网站的互动行为平台不仅需要以批处理模式捕获,存储然后进行处理,而且实际上还需要从经过的数据流中实时捕获和驱动分析。 当我发推文时,他们不仅需要捕获,存储和稍后做某事,而且还需要能够立即将其放回到我的信息流中并与关注我的其他人共享。 那是一个批处理模型。
我们为什么要走这条路? 为什么组织即使考虑沿流分析之路的挑战也要花费时间,精力和金钱? 组织具有巨大的愿望,希望获得比其所在行业的竞争对手更高的性能,并且可以通过简单的流分析快速实现性能提高,并且可以从简单地跟踪我们已经存在的实时数据开始熟悉。 我在那里有一些Google Analytics(分析)的屏幕截图。 这可能是我们真正获得动手的消费者级分析的第一次。 因此,当人们访问您的网站时,您就获得了点击量,网页底部嵌入了嵌入您网站的HTML中的一小段JavaScript,这些小代码被实时制作回Google,对来自您网站上每个页面,网站上每个对象的数据流进行实时分析,然后在这个非常可爱的小网页中通过实时图表,可爱的小直方图和折线图可显示您X历史上曾经访问过您网页的人数,但现在有多少人。
正如您在该屏幕截图上所看到的,它现在显示25。 该页面截屏时的当前人数为25。 这是我们使用消费者级分析工具的第一次真正机会。 我认为很多人真的知道了。 他们只是了解了解正在发生的事情以及如何应对的力量。 当我们考虑航空电子设备的规模时,会飞来飞去,仅在美国,每天就有18, 700架国内航班。 大约六,七年前,我读过一篇论文,当时这些飞机生产的数据量在旧的工程模型中约为200至300兆字节。 在当今的飞机设计中,这些飞机每次飞行可产生约500 GB的数据或约0.5 TB的数据。
当您快速进行数学运算时,仅在美国领空,每24小时就有18, 700架国内航班,如果所有现代飞机都产生约TB的数据,则43到44 PB的数据通过这是飞机在空中时发生的。 当他们着陆并进行数据转储时,这种情况正在发生。 那是他们进入车间并从工程团队那里获得完整数据转储时的结果,以了解轴承,车轮和发动机内部的情况。 其中一些数据必须实时处理,以便他们可以决定飞机在空中还是在地面上时是否存在实际问题。 您只是无法在批处理模式下执行此操作。 在金融,卫生,制造业和工程学等其他行业中,他们也正在研究如何通过这种新的见解来实时了解正在发生的事情,而不是将这些信息存储在数据库中。术语。
还有一种将数据视为易腐烂的商品或易腐烂的商品的概念,即许多数据会随着时间的流逝而失去价值。 移动应用程序和社交媒体工具越来越多地出现这种情况,因为人们在说什么,现在趋势是您要响应的内容。 当您考虑到我们周围的物流和运输食物的生活中的其他部分时,我们会从这种意义上理解易腐商品的概念。 但是,请考虑流经您的组织的数据及其所具有的价值。 如果有人现在正在与您做生意并且您可以与他们进行实时交互,那么您就不想等待一个小时,这样就可以捕获数据并将其放入Hadoop之类的系统中,然后按此按钮,现在将无法处理它,而您希望能够根据客户的需求立即进行处理。 现在您会经常看到一个名词,人们谈论如何拥有可以为您提供个性化设置的实时数据流,以及您正在使用的个性化调整系统中的个性化设置。 因此,例如,当您使用Google搜索工具之类的工具时,如果我进行查询并且您执行相同的查询,则总是会得到不完全相同的数据。 我们基本上得到了我所说的名人经历。 我已接受一次性治疗。 根据这些系统在我身上收集的配置文件和数据,我得到了这些系统中发生的事情的我自己的个人版本,并且我能够在流中实时进行分析。
目前,将数据视为易腐商品的想法是一件实事,而随着时间的推移,数据价值的下降是我们今天必须处理的问题。 这不是昨天的事。 我喜欢这张熊抓鲑鱼从河里跳出来的照片,因为它确实确实描绘了我所看到的流分析。 正是这条海量的数据向我们袭来,如果您愿意的话,这就像是一条消防软管,而熊正坐在小河中间。 它会对其周围发生的事情执行实时分析,以便它实际上可以设计其在空中捕获鱼的能力。 这不仅仅只是浸入溪流中而已。 这东西在空中跳跃,必须在正确的时间在正确的位置抓到那条鱼。 否则,他不会吃早餐或午餐。
一个组织想要对他们的数据做同样的事情。 他们想从现在正在移动的大量数据中提取价值。 他们想对这些数据和高速数据进行分析,因此不仅是我们要处理的数据量,还在于它从中获取数据的速度。 例如,在安全性方面,来自您的所有路由器,交换机,服务器,防火墙以及所有事件以及成千上万(如果不是成千上万)的设备(在某些情况下,这些数据很容易损坏)。 当我们在物联网和工业互联网中考虑这一问题时,我们最终谈论的是数百万甚至数十亿个传感器,并且随着数据的通过来执行分析,我们现在正在考虑进行复杂的事件处理以前所未有的数量级和速度,我们今天必须处理这个问题。 我们必须围绕它构建工具和系统。 对于组织而言,这是一个真正的挑战,因为一方面,我们拥有非常大的品牌来做DIY,然后自己烘焙,只要他们有能力做到这一点,技能和工程。 但是对于普通组织而言,情况并非如此。 他们没有技能。 他们没有能力,没有时间,甚至没有钱去解决这个问题。 他们都针对这种近实时决策的概念。
我遇到过用例,它们涉及您可以想象的每个部门的各个领域,人们正在坐下来并引起注意,并说,我们如何将一些分析应用于流数据? 我们谈论网络规模的在线服务。 有传统的社交媒体平台以及在线电子零售和零售-例如应用程序。 他们都在努力为我们提供这种实时的名人体验。 但是,当我们深入研究更多的技术堆栈服务,电话服务,语音和视频时,我看到人们四处走动,在电话上进行FaceTime。 它只是爆炸。 我的想法让人们感到困惑,人们不再将手机放在耳边,而是将手机放在他们面前并与朋友的视频流交谈。 但是他们知道他们可以做到,他们适应了,他们喜欢这种经历。 这些应用程序的开发以及提供这些应用程序的平台必须对流量和流量配置文件进行实时分析,以便它们能够执行简单的操作,例如完美地路由视频,以确保语音质量。您获得的视频足以获得良好的体验。 您无法批量处理此类数据。 它不会使实时视频流成为一种功能性服务。
金融交易中存在治理方面的挑战。 一天结束后发现自己违反法律将私人数据四处转移是不行的。 在澳大利亚,我们面临一个非常有趣的挑战,那就是离不开与隐私相关的数据的海外迁移。 您不能将我的PID,我的私人个人识别数据带到国外。 澳大利亚有法律禁止这种情况的发生。 金融服务的提供者,尤其是政府服务和机构,他们必须与我一起对数据和指令流进行实时分析,以确保提供给我的东西不会消失。 所有的东西都必须留在本地。 他们必须实时进行。 他们不能违法,以后再请求宽恕。 欺诈检测–这是我们在信用卡交易中听说的一个非常明显的发现。 但是,随着我们在金融服务中进行的交易类型发生非常非常迅速的变化,PayPal现在首先要进行一些事情,以实时检测欺诈行为,其中钱不会从一件事情转移到另一件事情上,而是系统之间的金融交易。 易趣招标平台,必须在流媒体办公室实时检测欺诈行为。
现在趋势是在流中执行提取和转换负载活动,因此我们不想捕获流中的任何东西。 我们真的不能那样做。 人们已经了解到,如果我们捕获所有数据,数据就会很快被破坏。 现在的诀窍是对这些流执行分析并对其进行ETL,然后捕获所需的信息(可能是元数据),然后进行预测性分析,在这里我们可以实际告诉下一步将发生的事情刚刚在流中看到了基于我们对此进行的分析。
能源和公用事业提供商正在经历消费者对需求定价的巨大渴望。 我可能会决定要在一天中的某个特定时间购买绿色电源,因为我只是一个人在家,而且我并没有使用很多设备。 但是,如果我有一个晚宴,我可能想要打开所有设备,并且我不想购买廉价的电源并等待其交付,但愿意为获得该电源付出更多的费用。 这种需求定价已经发生,尤其是在公用事业和能源领域。 例如,Uber是您每天可以做的事情的经典示例,而这一切都是由需求定价驱动的。 有一些经典的例子,由于除夕夜的大量需求,澳大利亚人获得了10, 000澳元的票价。 我敢肯定他们已经解决了这个问题,但是在车上实时执行流分析会告诉您我应该支付多少。
物联网和传感器流–我们只是在此进行了初步探讨,实际上我们已经进行了基本的对话,但是我们将看到技术如何对此进行有趣的转变,因为当您不在谈论时仅流向您的成千上万,但成千上万甚至数十亿的设备正流向您,我们现在所拥有的技术栈几乎都没有经过专门设计来解决这一问题。
我们将在这个地方看到一些非常热门的话题,例如安全性和网络风险。 对我们来说,这是非常现实的挑战。 网络上有一个真正好的工具,叫做North,您可以在其中坐下来观看网页中实时发生的各种网络攻击。 当您查看它时,会想到“哦,这是一个可爱的小网页”,但是在那里大约五分钟后,您意识到系统正在对全球所有不同设备的所有不同流进行分析的数据量被喂入他们。 它开始使人们开始怀疑他们在该记录的边缘如何执行该操作,并为您提供一个简单的小屏幕,告诉您实时对其进行攻击的内容或其他内容以及什么类型的攻击。 但是,通过观看此页面并了解流量的数量和挑战,了解如何处理流查询,实时了解流分析可以实时为您做些什么,这是一种非常简洁的方法。并实时表示。
我认为在本节余下的对话中,我将以一种有趣的观点来解决所有这些类型的问题,这就是DIY的挑战,自己动手制作,适合一些有能力建造这类东西的经典独角兽。 他们已经获得了数十亿美元的资金来建立这些工程团队并建立他们的数据中心。 但是,对于希望在流分析业务中实现价值的99.9%的组织,他们需要获得现成的服务。 他们需要开箱即用地购买产品,并且通常需要一些咨询服务和专业服务来帮助他们实施产品,并且他们在企业中获得了该价值并将其作为有效的解决方案卖回企业。
鉴于此,我将转给您,丽贝卡,因为我认为这就是我们现在要详细介绍的内容。
丽贝卡·乔兹维克(Rebecca Jozwiak):很好 。 非常感谢Dez 这是一个很棒的演示。
现在,我将球传给罗宾。 把它拿开。
罗宾·布卢尔(Robin Bloor):好的。 因为Dez进入了流处理的精髓,所以重新覆盖它似乎对我来说没有任何意义。 因此,我将采取完全战略性的观点。 几乎从一个非常高的层次来看,到底发生了什么,并对其进行定位,因为我认为它可能会帮助人们,尤其是那些以前没有扎根于深度流处理的人们。
流处理已经存在了很长时间。 我们过去称其为CEP。 在此之前有实时系统。 最初的过程控制系统实际上是在处理信息流-当然,到目前为止没有任何进展。 您在此处的幻灯片上看到的这张图; 它实际上指出了很多东西,但它却指出了其他一切–事实是,这里存在一系列以不同颜色显示的延迟。 自从1960年左右出现计算机或商业计算发明以来,实际发生的事情就是一切都越来越快。 如果您喜欢波浪,我们曾经能够依赖于实际发出信号的方式,因为这就是它的样子。 这实际上取决于它。 因为这都是由摩尔定律驱动的,所以摩尔定律将在大约六年的时间内为我们提供大约十倍的速度。 然后,当我们真正到2013年左右时,一切都崩溃了,我们突然开始以前所未有的速度加速发展,这是前所未有的。 就速度的提高而言,我们得到了大约十倍的比率,因此,每六年就减少了延迟。 自2010年以来的六年中,我们的倍数至少是一千。 三个数量级,而不是一个数量级。
这就是正在发生的事情,这就是为什么该行业以一种或另一种方式似乎正在以惊人的速度发展的原因-因为它是如此。 仅仅通过这个特定图形的含义,响应时间实际上是沿算法在垂直轴上缩小的。 实时是计算机的速度,比人类还快。 互动时间是橙色的。 当您与计算机进行交互时,您才真正需要十分之一到大约一秒的延迟。 上面是一个事务性的地方,我们实际上在考虑您在计算机中所做的事情,但是如果这种情况在大约十五秒内消失,将变得无法忍受。 人们实际上不会等计算机。 一切都分批完成。 现在,批处理中已经完成了很多事情,它们直接进入了交易空间,甚至进入了交互空间,甚至进入了实时空间。 以前,波浪状的数据量非常小,我们可以执行其中的一些操作,而现在,我们可以使用大规模扩展的环境来处理大量数据。
因此,基本上所有这些都是在说交易和互动的人类响应时间。 目前,流技术正在做的很多事情是要告知人们有关事物的信息。 其中某些程序的运行速度比那快,并且可以很好地通知您信息,因此是实时的。 然后,我们获得许可,可以像跌落石头一样落下帷幕,从而使即时分析变得切实可行,并且价格不菲。 不仅仅是速度下降了,顶部也刚刚崩溃了。 在所有各种应用程序中,所有这些影响可能最大,您可以执行所有这些预测分析。 一会儿,我告诉你为什么。
这只是硬件商店。 您拥有并行软件。 我们在2004年谈论的是。横向扩展架构,多核芯片,内存增加,可配置CPU。 现在,SSD的运行速度比旋转磁盘快得多。 您几乎可以将磁盘旋转再见。 SSD也位于多个内核中,因此速度越来越快。 很快就会出现,我们有惠普的忆阻器。 我们已经从Intel和Micron获得了3D XPoint。 这些承诺是,无论如何它将使一切变得越来越快。 当您真正想到两种新的内存技术时,这两种技术都将使整个基本的小部件变得完整,单个电路板的运行速度将更快,我们甚至还没有看到它的终结。
流技术,这实际上是下一条信息,将继续存在。 必须要有一个新的体系结构。 我的意思是Dez在他的演讲中几点提到了这一点。 几十年来,我们将体系结构视为数据堆和数据管道的组合。 我们倾向于处理堆,并且倾向于将数据通过管道传递到堆之间。 现在,我们正在从根本上朝着我们称为Lambda数据架构的方向发展,该架构将数据流的处理与数据堆结合在一起。 当您实际上在处理作为数据流或数据堆的历史数据而来的事件流时,这就是Lambda体系结构的意思。 这还处于起步阶段。 这只是图片的一部分。 如果您认为Dez也提到过像万物互联这样复杂的事物,那么您实际上会意识到存在各种各样的数据位置问题-有关在流中应处理的内容的决策。
我在这里真正要说的是,当我们批量处理时,实际上是在处理流。 我们一次只能做一个。 我们只是等到有大量的东西,然后立即处理所有这些东西。 我们正在转向一种实际上可以处理流中内容的情况。 如果我们可以处理流中的内容,那么我们持有的数据堆将是静态数据,为了处理流中的数据,我们需要引用这些静态数据。
这把我们带到了这个特殊的事情上。 我之前曾在生物学类比的介绍中提到过这一点。 我希望您考虑的方式是当我们是人类时。 我们有三个不同的网络用于实时预测处理。 它们被称为体细胞的,自主的和肠溶的。 肠胃就是你的胃。 自主神经系统负责战斗和逃跑。 实际上,它负责对环境的快速反应。 身体运动后的躯体。 这些是实时系统。 有趣的事情-或者我认为有点有趣-很多事情比您想象的要更具预测性。 好像您实际上是在看距脸约18英寸的屏幕。 您可以清楚看到的所有内容,以及您身体可以清楚看到的所有内容,实际上是关于一个8×10的矩形。 就您的身体而言,外面的所有东西实际上都是模糊的,但是您的思想实际上是在填补空白并使其不模糊。 您根本看不到模糊。 您看得很清楚。 您实际上是在做数据流的预测方法,以便让您看到这种清晰度。 这是一种奇怪的事情,但是您实际上可以观察神经系统的运作方式,以及我们设法绕开和合理行事的方式-至少对我们中的某些人-理性地保持理智,而不会一直碰到东西。
所有这些都由此处的一系列神经分析规模完成。 即将发生的事情是组织将拥有相同的事物,并且将构建相同的事物,这将是对流的处理,包括组织的内部流–内部正在发生的事物它,外部发生的事情,实际必须做出的即时响应当然可以使人类做出决策,并使所有这些事情发生。 据我所知,这就是我们要去的地方。
其结果之一就是流应用程序的运行顺利。 将会比我们现在看到的可怕得多。 现在,我们在做显而易见的事情时收获不高。
所以无论如何,这就是结论。 流分析曾经是一个利基市场,但它已成为主流,并将很快被广泛采用。
有了这些,我会将其传递回丽贝卡。
丽贝卡·乔兹维克(Rebecca Jozwiak):非常感谢罗宾。 像往常一样很棒的演示。
阿南德,你下一个。 地板是你的。
Anand Venugopal:太棒了。 谢谢。
我叫Anand Venugopal,是StreamAnalytix产品负责人。 它是由加利福尼亚州洛斯加托斯市的Impetus Technologies提供的产品。
实际上,Impetus在成为大型企业的大数据解决方案提供商方面拥有悠久的历史。 因此,实际上,作为服务公司,我们已经完成了许多流分析的实现,并且吸取了很多教训。 在过去的几年中,我们还转变为以产品公司和解决方案为主导的公司,流分析正在领导将Impetus转变为以产品为主导的公司。 由于我们对企业的了解,Impetus清除了一些关键,非常非常关键的资产,StreamAnalytix是其中之一。
我们拥有20年的业务经验,产品和服务的完美结合使我们拥有了巨大的优势。 而StreamAnalytix则源于我们从流式传输的前五,六个实施中汲取的所有教训。
我将谈谈一些事情,但是分析师Dez和Robin在覆盖整个空间方面做得非常出色,因此我将跳过很多重叠的内容。 我可能会很快。 我们看到,除了真正的流式处理案例外,它们还使用大量的批处理加速,而在企业中实际上有非常非常重要的批处理过程。 如您所见,在大型企业中,整个事件感知,分析和采取行动的整个周期实际上可能需要花费数周的时间,而他们都试图将其缩减为几分钟甚至几秒毫秒。 因此,比所有这些批处理过程都快的任何事情都可以成为业务收购的候选者,这很好地说明了数据的价值会随着时间的流逝而急剧减少,因此在几秒钟之内,初始部分的价值就更大。 理想情况下,如果您可以预测将要发生的情况,那将是最高值,但这取决于准确性。 下一个最大值是它发生时的正确时间,您可以分析它并做出响应。 当然,此后,我们所拥有的主要限制性BI的价值急剧下降。
这真有趣。 您可能期望对为什么进行流分析有一些戏剧性的科学答案。 在很多情况下,我们看到的是因为现在有可能,而且因为每个人都知道批处理很旧,批处理很无聊,而批处理并不酷。 每个人都受过足够的教育,因为有可能进行流传输,并且每个人现在都拥有Hadoop。 现在,Hadoop发行版中已嵌入流技术,无论是Storm流还是Spark流,当然还有消息队列,例如Kafka等。
我们看到的企业正在加入并开始尝试这些案例,并且看到了两大类。 第一个与客户分析和客户体验有关,第二个与运营智能有关。 稍后,我将详细介绍一些细节。 整个客户服务和客户体验角度,我们在Impetus StreamAnalytix上以多种不同方式做到了这一点,实际上就是真正地,实时地捕获消费者的多渠道参与并为他们提供非常非常上下文相关的体验。今天不常见。 如果您正在网上浏览,请访问美国银行网站,并且正在研究某些产品,只需致电呼叫中心即可。 他们会说:“嗨,乔,我知道您正在研究某些银行产品,您希望我为您服务吗?”您今天不希望这样做,但这是流分析确实可以实现的体验。 在很多情况下,这会产生很大的不同,尤其是如果客户开始研究通过与网站上的提前终止条款或提前终止条款和条件退出您的合同,然后致电而您却无法直接与他们面对面,但只是间接地提出某种首次促销的要约,因为系统知道此人正在寻找提早终止,并且您在那时候提出要约,则可以很好地保护该流失的客户并保护该资产。
那将是一个例子,再加上很多客户服务都是很好的例子。 我们今天实施的服务可降低呼叫中心的成本,并提供令人愉悦的客户体验。 Dez在总结一些用例方面做得很好。 您可以凝视此图表几分钟。 我将其分类为垂直,水平和组合区域,物联网,移动应用程序和呼叫中心。 它们都是垂直的和水平的。 这取决于你怎么看了。 最重要的是,我们看到了很多横向用法,这些横向用法在整个行业垂直领域都相当普遍,并且存在垂直特定的用例,包括金融服务,医疗保健,电信,制造业等。如果您真的是在问自己一个问题或告诉自己那,“哦,我不知道有什么用例。 我不确定对于我的公司还是对我们的企业来说,流分析中是否真的有任何商业价值,”三思而后行。 与更多的人交谈,因为今天您公司中有一些相关的用例。 我将深入探讨业务价值是如何精确得出的。
在金字塔的底部,您可以进行预测性维护,安全性,客户流失保护等。这些用例构成了收入和资产的保护。 如果Target保护了他们长达数小时甚至数周的安全漏洞,那么CIO可以挽救他的工作。 它可以节省数千万美元,等等。实时流分析确实有助于保护这些资产并保护损失。 那就是直接的业务增值。
下一个类别将变得越来越有利可图,可以降低成本并从当前业务中获得更多收入。 这就是当前企业的效率。 这些都是我们称为实时操作智能的用例类别,您可以在其中深入了解网络的行为方式,客户操作的行为方式,业务流程的行为方式以及进行调整的能力所有这些都是实时的,因为您可以获得反馈,您也可以获得警报。 您会实时获得偏差和差异,并且可以迅速采取行动并分离出越界的过程。
您还可以在昂贵的资本升级和您认为必要的事情上节省很多钱,而这些事情在您优化网络服务时可能是不必要的。 我们听说有一个案例,一家大型电信公司推迟了对其网络基础架构的4000万美元升级,因为他们发现他们有足够的能力来管理当前流量,这是通过优化并更好地对其流量和类似的事物进行智能路由来实现的。 只有通过实时对这些见解进行实时操作的实时分析和操作机制,才有可能实现这些目标。
附加值的下一个水平是追加销售,交叉销售,在这里有机会从当前产品中获得更多的收入和利润。 这是一个经典的例子,我们许多人都知道他们经历过的地方,想想您一生中今天愿意实际购买的产品并不提供给您。 在许多情况下,这实际上是发生的。 您心中有想购买的东西,知道要购买的东西,有待办事项清单,妻子告诉过您的东西或您没有妻子但您确实想购买的东西并且您在网站上购物或在零售商店中进行交互,店面只是没有上下文,没有智能来计算您可能需要的东西。 因此,他们无法确保业务安全。 如果可以部署流分析来真正做出准确的预测,并且确实可以在最适合此特定上下文的条件下进行预测,那么此时此客户在此地点,会有大量的追加销售和交叉销售,而这又来自于流分析–能够在有机会的那一瞬间,决定该客户可能购买或响应的商品的倾向。 这就是为什么我喜欢Dez和熊一起吃那条鱼的照片。 就是这样。
我们还认为,在一个企业中,有很大的变化是,仅基于对客户行为的观察就可以提供全新的产品和服务,而这一切都基于对另一个企业的行为的观察。 比方说,如果一家电信公司或有线电视公司真正观察到客户在他所查看的哪个细分市场,什么时候在什么节目等方面的使用模式,那么他们实际上最终会创建几乎被乞讨的产品和服务以某种方式。 因此,现在多屏幕行为的整个概念几乎已被我们视为理所当然,因为我们可以在移动应用程序中看到电视或有线内容。 其中一些例子来自提供给我们的那些新产品和服务。
我将探讨“流分析的体系结构注意事项是什么?”这最终是我们正在尝试做的事情。 这是Lambda架构,您可以在其中混合历史数据和实时洞察力,并同时查看它们。 那就是Sigma所实现的。 今天我们都有批处理体系结构和企业图片。 我们正在收集某种BI堆栈和利用率堆栈,并添加了Lambda体系结构。 无论是速度层还是需求层,Lambda都是要合并这两种见解,并以一种结合了两种见解的丰富方式将它们结合在一起。
有人提出了另一种称为Kappa架构的范例,其中推测是速度层是唯一可以长期持续的输入机制。 一切都会通过这个速度层。 甚至没有离线ETL机制。 所有的ETL都会发生。 清理,数据清理,高质量ETL –所有这些都会在线发生,因为请记住所有数据都是实时生成的。 在某些时候,这是实时的。 我们已经习惯了将其放在湖泊,河流和海洋上,然后在静态分析中进行处理,以至于忘记了数据是实时生成的。 实际上,所有数据都是在时间点上发生的实时事件,并且今天湖上的大多数数据都已存储到数据库中以供以后分析,我们现在在Lambda和Kappa体系结构中拥有优势看到它,对其进行分析,对其进行预处理并在其到达时对其做出反应。 这就是这些技术所支持的。 从整体上看,它看起来像这样,其中已经有Hadoop,MPP和数据仓库。
我们提出这一点是因为重要的是,不仅要谈论岛上的新技术。 他们必须整合。 它们必须在当前的企业环境中有意义,作为服务于企业的解决方案提供商,我们对此非常敏感。 我们帮助企业将整个事物整合在一起。 左侧有数据源,可同时接入Hadoop和数据仓库层以及顶部的实时层,如您所见,每个实体都是库存计算机,右侧是数据使用层侧。 人们一直在不断努力,以移动大多数合规性,治理,安全性,生命周期管理等,如今,这些新技术已被广泛使用。
流分析正在尝试做的事情之一,如果您今天看一看,流技术领域中正在发生很多事情,并且从企业客户的角度来看,还有很多东西要理解。 有太多需要跟上的。 左侧有数据收集机制-NiFi,Logstash,Flume,Sqoop。 显然,我提出了一项免责声明,说它并不详尽。 进入消息队列,然后进入开源流引擎– Storm,Spark Streaming,Samza,Flink,Apex,Heron。 Heron可能尚未开源。 我不确定是否来自Twitter。 然后,这些流引擎会引入或支持设置分析应用程序组件,例如复杂事件处理,机器学习,预测分析,警报模块,流ETL,充实统计操作过滤器。 这些就是我们现在所说的运算符。 这些运算符的集合在串在一起的时候,如果有必要的话,也可能会在很大程度上定制一些自定义结论,从而成为在流引擎上运行的流应用。
作为该组件链的一部分,您还需要将数据存储并索引到您喜欢的数据库(您喜欢的索引)中。 您可能还必须分配缓存,然后再次分配到顶部的右侧的数据可视化层,以到达商业产品或开源产品,但是最终您需要某种产品来实时可视化该数据。 另外,有时您需要计算其他应用程序。 我们都已经看到,这些值仅是由您根据洞察力采取的操作得出的,该操作将是从分析堆栈触发到另一个应用程序堆栈的触发器,该堆栈可能会发生变化,这是IVR方面的事情或触发了呼叫中心呼出电话或类似的东西。 我们需要将那些系统集成在一起,并为您的流群集提供某种机制,以触发其他向下游发送数据的应用程序。
这就是从左到右的整体堆栈。 然后,您将拥有服务层,中间监视,安全性常规服务层等。介绍客户所看到的企业空间中哪些产品,如Hadoop发行版,它们都像我所说的一样具有流媒体,并且具有商业性或单一性。 -我们竞争对手中显而易见的供应商解决方案。 在景观中还有很多我们可能在这里没有提到的。
您所看到的基本上是企业用户所看到的。 如您所见,用于流处理的复杂且快速发展的技术前景。 我们必须简化选择及其用户体验。 我们认为企业真正需要的是在一站式易于使用的界面中对所有功能进行的功能抽象,该界面将所有这些技术整合在一起,使其真正易于使用,并且不会暴露所有活动部件以及降级问题,性能问题和生命周期维护问题。
功能抽象是其中之一。 第二部分是流引擎抽象。 流引擎和开放源域现在每三,四,六个月出现一次。 很长一段时间是暴风雨。 Samza出现了,现在是Spark Streaming。 Flink抬起头来,开始引起注意。 即使是Spark Streaming路线图,他们也正在为可能使用其他引擎进行纯事件处理提供一种方法,因为他们也意识到Spark是为批处理而设计的,并且他们也在其架构愿景和路线图中为可能具有不同的设计思路除了Spark Streaming中的当前微批处理模式以外,还用于流处理的引擎。
您必须面对一个现实,那就是会有很多发展。 您确实需要保护自己不受技术影响。 因为默认情况下,您将不得不选择一个然后再使用它,这并不是最佳选择。 如果您以另一种方式看待它,那么您将在以下两种情况之间进行斗争:“好吧,我必须购买一个专有的平台,该平台没有锁定,没有开源的杠杆作用,这可能会导致很高的成本和有限的成本。灵活性,而不是您必须自己做的所有这些开源堆栈。”再次,就像我说的那样,这是很多成本和上市的延迟。 我们要说的是StreamAnalytix是一个出色平台的例子,该平台汇集了企业级,可靠,单一供应商,受支持的专业服务-作为企业真正需要的所有功能以及开源生态系统的灵活性一个平台将它们整合在一起-提取,CEP,分析,可视化以及所有这些。
它还做着非常非常独特的事情,它将许多不同的技术引擎整合到一个用户体验中。 我们确实认为,未来将能够使用多个流引擎,因为不同的用例确实需要不同的流架构。 就像罗宾(Robin)所说的那样,存在着一系列的延迟。 如果您真正要谈论的是毫秒级的延迟水平,甚至数十毫秒甚至数百毫秒,那么此时您真的需要Storm,直到有另一种同样成熟的产品来减少宽大或宽大的时间范围,并且延迟可能在几秒钟,三秒钟,四,五秒钟(该范围),则可以使用Spark Streaming。 潜在地,还有其他引擎可以同时实现这两种功能。 归根结底,在大型企业中,将有各种用例。 您确实希望访问权限和通用性使多个引擎具有一种用户体验,而这正是我们要在StreamAnalytix中构建的内容。
只需快速浏览一下架构即可。 我们将对此进行一些修改,但实际上,左侧有多个数据源– Kafka,RabbitMQ,Kinesis,ActiveMQ,所有这些数据源和消息队列都进入了流处理平台,您需要组装一个应用程序,然后在其中拖放诸如ETL之类的运算符,以及我们讨论的所有内容。 在下面,有多个引擎。 目前,我们将Storm和Spark流媒体作为业界唯一的第一个具有多引擎支持的企业级流媒体平台。 除了具有实时仪表板的所有其他灵活性外,这是我们提供的非常独特的灵活性。 嵌入式CET引擎。 我们与Hadoop和NoSQL索引,Solr和Apache索引无缝集成。 无论它是什么,您都可以登录到自己喜欢的数据库,并迅速构建应用程序,并迅速进入市场并保持未来发展。 这就是我们在StreamAnalytix中的全部口头禅。
这样,我想总结一下。 随时向我们询问更多问题。 我想让大家进行问答环节和小组讨论。
丽贝卡,交给你。
丽贝卡·乔兹维克(Rebecca Jozwiak):好的,好的。 非常感谢。 Dez和Robin,在我们将其交给听众问答之前,您是否有任何疑问?
罗宾·布洛尔:我有一个问题。 我会重新戴上耳机,以便您能听到我的声音。 有趣的事情之一是,如果您能告诉我这一点,那么我在开放源代码领域中看到的很多内容对我来说都是不成熟的。 从某种意义上说,是的,您可以做各种事情。 但是看来我们实际上是在看其第一版或第二版软件,我只是想问您作为组织的经验,您认为Hadoop环境的不成熟有多少问题,或者是什么原因?会产生太多问题吗?
Anand Venugopal:这是现实,Robin。 你是绝对正确的。 不成熟并不一定只是功能稳定性和事物领域,而是某些情况。 但是,不成熟更多是在使用上。 开源产品问世,甚至由Hadoop发行版提供,它们都是许多功能强大的产品,各个组件被捆绑在一起。 它们不能无缝地协同工作,并且不能像美国银行,Verizon或AT&T一样提供平滑的无缝用户体验,因此可以在数周内部署流分析应用程序。 他们并不是为此而设计的。 这就是我们进来的原因。我们将其整合在一起,使其真正易于理解,部署等。
我认为它的功能成熟度很大。 今天,许多大型企业都在使用Storm。 今天,许多大型企业正在使用Spark Streaming。 这些引擎中的每一个在其能做什么方面都有其局限性,这就是为什么重要的是要知道每个引擎可以做什么和不可以做什么,而毫无头绪地说:“看我选择了Spark Streaming,它在这个特定行业中对我不起作用。”它将不起作用。 在某些情况下,Spark Streaming将是最佳选择,而在某些情况下,Spark Streaming可能根本无法为您服务。 这就是为什么您确实需要多个选择的原因。
Robin Bloor:嗯,您需要为此配备专家团队。 我的意思是我什至都不知道从哪里开始。 技术人员的明智合作。 我对您如何参与以及如何参与感兴趣。 是因为某个特定的公司正在使用特定的应用程序,还是您看到了我所谓的战略采用,即他们希望整个平台能够完成很多事情。
Anand Venugopal:我们看到了两个例子,Robin。 每个人都知道的十大品牌中的一些正在以非常战略性的方式发展。 他们知道他们将拥有各种用例,因此他们正在评估满足需求的平台,这是一种以多租户方式部署在企业中的各种不同用例。 也有单个用例的故事也开始了。 在抵押公司中,有一个特定的业务活动监视类型用例,我们正在研究,您不会想象它是第一个用例,但这是他们提出的业务解决方案或用例,然后我们将各个点连接到流式处理。 我们说:“你知道吗? 这是流分析的一个很好的案例,这就是我们如何实现它。”这就是开始的过程。 然后,在该过程中,他们受过教育,并说:“哦,哇,如果我们可以这样做,并且如果这是一个通用平台,那么我们可以将应用程序分离出来,将它们分层到平台中,并在此基础上构建许多不同的应用程序。平台。”
Robin Bloor: Dez,您有任何问题吗?
Anand Venugopal: Dez可能处于静音状态。
Dez Blanchfield:抱歉,静音。 我自己刚刚聊得很开心。 仅仅遵循罗宾的原始观察,您是完全正确的。 我认为现在的挑战是企业拥有一个生态系统以及一个文化和行为环境,其中免费和开源软件是他们所熟知的,并且他们能够使用诸如Firefox之类的工具作为浏览器,而且直到稳定和安全为止。 但是他们使用的那些非常大的平台中有一些是企业级专有平台。 因此,采用我认为开放源代码的平台并不总是容易使它们在文化上或情感上得到传播。 我在采用小型程序时就已经看到了这一点,这些小型程序是本地项目,只是将大数据和分析作为基本概念而使用。 我认为,您现在已经在整个组织中看到了他们的主要挑战之一,就是他们渴望获得成果,但与此同时,他们的一只脚却被卡在了旧罐子里,他们可以从中购买“插入一个大品牌” Oracle,IBM和Microsoft。 这些新的和知名的品牌将通过Hadoop平台,甚至更多。 涌现出更多令人振奋的品牌,这些品牌拥有流媒体等前沿技术。
您进行或获得的那种对话类型是什么? 我知道今天早上有很多人参加,我敢肯定每个人都会想到的一件事是:“我如何从董事会一直延伸到管理层,整个挑战性的层面,哦,这太开源了,太前沿了吗? “您与客户的对话进行得如何,如何直截了当地消除那种担心,以考虑采用StreamAnalytix之类的恐惧?
Anand Venugopal:实际上,我们发现出售我们的价值主张相当容易,因为客户自然会倾向于使用开源作为首选。 他们不会轻易放弃并说:“好吧,我现在要开源。”实际上,他们对主要产品进行了非常认真的评估,比如说这是IBM还是典型产品,因为他们拥有这些供应商关系。 他们不会将我们或开源引擎与该产品相提并论。 他们将进行六到八到十二周的评估。 他们会说服我自己想要某种程度的性能和稳定性,然后他们下定决心说:“哇,您知道什么,我实际上可以做到。”
例如,今天,我们有一个主要的一级电信公司,它在许多堆栈的顶部都在生产中运行流分析,并且他们正在与另一个非常非常大的知名供应商进行评估,只有在我们证明了所有这些之后,他们才相信性能,稳定性和所有这些要素。 他们不认为这是理所当然的。 他们发现开放源代码通过他们的评估是有能力的,并且他们意识到,在最坏的情况下,“也许有我可能做不到的两个用例,但是如今,我的大多数业务加速用例都可以通过开源来实现堆栈。”我们启用它的使用。 所以那是最大的优点。 他们想要开源。 他们真的希望摆脱多年来已经习惯的供应商锁定情况。 然后,我们来这里说:“您知道吗,我们将为您使用开源软件变得更加简单,友好。”
Dez Blanchfield:我认为企业发现的另一个挑战是,当他们引入传统的现任者时,他们通常落后于我们在此谈论的令人兴奋的事物的某些前沿边缘,而我并不是说作为负面轻微。 事实是,他们需要一代又一段的旅程来发布他们认为要经过的稳定平台,老式的开发和UATN集成周期,测试和文档以及营销和销售。 鉴于您正在做的事情,我想我想考虑的事情是,昨晚查看您的一些最新版本以进行某种研究工作,现在您已经有了这种组合从前期咨询的角度和实施的角度来看,您需要具备一定的能力,但是您也可以加入其中。我认为这是现任公司要奋斗一段时间的地方。 我们已经看到许多像我在市场上一样的东西。 它们通常位于我称为追赶节点的位置,而根据您的告诉,当您在外面进行这些对话并在那里执行时。
您能否举几个例子,说明您已经采用了某些垂直边界? 例如,确实存在利基环境,例如火箭科学,将卫星放入太空并从火星收集数据。 在地球上只有少数人这样做。 但是,在航空,航运,物流,制造和工程等领域,都存在诸如健康之类的垂直行业,这是您迄今为止所见过的范围更广,范围更广的行业领域的几个例子。收养?
Anand Venugopal:电信公司就是一个很好的例子。
我将在这里快速修复我的幻灯片。 案例研究4,您能在这里看到幻灯片吗?
这是大型电信公司摄取机顶盒数据并对其执行多项操作的情况。 他们正在实时查看客户的实际需求。 他们正在查看机顶盒中实时发生错误的位置。 他们试图通知呼叫中心,如果该客户现在正在呼叫,则来自该客户的机顶盒的代码链接信息,维护票证信息会迅速关联该特定客户的机顶盒是否有问题,甚至在之前客户说一个字。 每个电缆公司,每个主要的电信公司都在尝试这样做。 他们提取机顶盒数据,进行实时分析,进行广告系列分析,以便放置广告。 有一个巨大的用例。
正如我所说,这家抵押公司又是一种通用模式,其中大型系统参与处理来自其的数据。 流经系统A到系统B到系统C的数据,这些都是受监管的业务,所有内容都必须保持一致。 通常,系统彼此之间不同步,一个系统在说:“我正在处理100笔贷款,总价值为1000万美元。”系统在说:“不,我正在处理110笔其他贷款他们必须真正迅速地解决这个问题,因为他们实际上正在处理相同的数据并做出不同的解释。
无论是信用卡,贷款处理,业务流程,还是抵押业务流程或其他任何事物,我们都在帮助他们实时进行关联和对帐,以确保这些业务流程保持同步。 那是另一个有趣的用例。 有一个主要的美国政府承包商正在研究DNS流量以进行异常检测。 他们建立了一个离线培训模型,他们正在基于该模型对实时流量进行评分。 这些有趣的用例中的一些。 有一家主要的航空公司正在查看安全队列,他们正在努力为您提供以下信息:“嘿,这是您乘飞机的大门。 今天的TSA队列大约是45分钟,而两个小时则是其他时间。”您可以预先获得更新。 他们仍在努力。 有趣的物联网用例,但流分析的绝佳案例将带给客户体验。
丽贝卡·乔兹维克(Rebecca Jozwiak):这是丽贝卡。 当您讨论用例时,来自一个听众的成员提出了一个很大的问题,他想知道:“在这些案例研究中,这些计划是从公司的信息系统分析方面推动的还是还是从房屋的信息系统分析方面推动的?有特定问题或需求的企业?”
Anand Venugopal:我认为我们看到大约60%左右,50%到55%的情况是非常主动的,热情的技术计划,这些计划恰好知道,恰好精通并了解某些业务需求,并且他们可能有一个赞助商确定了这些,但是这些技术团队已经准备好应对即将来临的业务用例,然后一旦建立了功能,他们就知道他们可以做到这一点,然后便开始业务并大举出售。 在30%到40%的情况下,我们看到企业已经有一个特殊的用例,它正在寻求流分析功能。
丽贝卡·乔兹维克(Rebecca Jozwiak):这很有道理。 观众提出了另一个技术性问题。 他想知道这些系统是否同时支持结构化和非结构化数据流,例如实时Twitter流或Facebook帖子的沉积物,还是需要对其进行初始过滤?
Anand Venugopal:我们正在讨论的产品和技术非常支持结构化和非结构化数据。 可以配置它们。 所有数据都具有某种结构,无论是文本,XML还是其他任何东西。 就时间戳馈送而言,有一些结构。 可能还需要解析另一个Blob,以便您可以将解析器注入流中以解析出数据结构。 如果它是结构化的,那么我们只是告诉系统:“好吧,如果有一个逗号分隔的值,并且第一个是字符串,第二个是日期。”因此,我们可以将解析信息注入到向上的屏幕层中,轻松处理结构化和非结构化数据。
丽贝卡·乔兹维克(Rebecca Jozwiak):听众还有另一个问题。 我知道我们已经超出了小时的上限。 这位与会者想知道,似乎实时流应用程序正在开发将其重新集成到交易系统(例如他们提出的欺诈预防系统)中的需求和机会。 在那种情况下,是否需要对交易系统进行调整以适应这种情况?
Anand Venugopal:是合并,对吗? 它是交易系统的合并。 它们有时成为我们实时分析事务的数据源,在许多情况下,比如说有一个应用程序流程,在这里我试图显示一个静态数据查找站点,然后在我们的情况下,进行某种流式处理在其中,您正在查找静态数据库(例如HBase或RDBMS),以将流数据和静态数据组合在一起,以做出决策或分析见解。
我们还看到了另一个大的行业趋势– OLAP和OLTP的融合–这就是为什么您拥有同时支持事务和分析处理的Kudu之类的数据库和内存数据库的原因。 流处理层将完全位于内存中,我们将研究其中一些事务数据库或与之交互。
丽贝卡·乔兹维克(Rebecca Jozwiak):混合工作负载是我认为必须克服的最后障碍之一。 Dez,Robin,你们两个还有其他问题吗?
Dez Blanchfield:我要跳到最后一个问题,如果您不介意的话,请总结一下。 在过去十年左右的时间里,我一直与之打交道的组织面临着这一激动人心的流分析挑战的第一个挑战,当我们围绕整个挑战开始对话时,他们倾向于放回桌面上的第一件事是我们掌握了技能吗? 我们如何重新训练技能集以及如何在内部获得该能力? 推动并推动我们前进,然后将其作为第一步,这是非常有意义的。
但是对于中型到大型组织,您目前正在为此准备什么,在内部构建该功能,从围绕它的基本词汇中获取任何信息以及他们可以使用什么样的信息呢?组织是否正在过渡到这种框架,并从CEO的IT部门重新配置了他们现有的技术人员,以便他们在构建和实施它后就能自己运行它? 简而言之,什么样的挑战以及如何解决这些挑战,与您打交道的客户,他们所发现的挑战的类型以及他们如何解决这些再培训和重新获得经验和知识以做好准备并为此做准备的问题能够在操作中四处走动?
Anand Venugopal:通常,一小组试图出去购买流分析平台的人已经相当聪明,因为他们了解Hadoop,他们已经掌握了Hadoop MapReduce技能,并且因为他们与Hadoop紧密合作发行商,他们都很熟悉。 例如,一切都在变得卡夫卡。 他们正在对此进行处理,并且Storm或Spark流都在其开放源代码域中。 的确,人们对此很熟悉或已在其中建立技能。 但它首先要由一小撮人组成,他们既有足够的技能,又有足够的聪明。 他们正在参加会议。 他们正在学习,并向供应商提出明智的问题,在某些情况下,他们还向供应商学习。 当供应商来参加第一次会议时,他们可能不知道任何东西,但他们共同阅读,然后开始玩。
一小群人是核心,然后它开始增长,现在每个人都意识到第一个业务用例已经投入运营。 浪潮开始了,我们在上周的Spark峰会上看到,像Capital One这样的大型企业在那里并充满了力量。 他们选择了Spark。 他们在谈论它。 他们在Spark中教育了很多人,因为他们在许多情况下也作为用户为它做出了贡献。 我们在许多大型企业中也看到了同样的情况。 它从一小撮非常聪明的人开始,然后开始了全面的教育浪潮,人们知道,一旦高级副总裁或高级主管结盟,他们就想赌这个东西,这个词就会散播开来,他们都开始学习这些技能。
Dez Blanchfield:我相信您在建立这些冠军方面也有一段美好的时光。
Anand Venugopal:是的。 在与最初的冠军合作时,我们进行了大量的教育,我们举办了培训课程,并且为大客户提供了许多许许多多的培训,我们回去了,经过一波又一波的培训,使很多用户进入了主流使用阶段,尤其是在Hadoop MapReduce站点中。 我们发现,在一家大型客户的信用卡公司中,我们至少提供了五到八种不同的培训计划。 我们还为所有这些产品提供了免费的社区版本,包括我们的产品,人们可以下载,习惯并以这种方式进行自我教育的沙箱。
Dez Blanchfield:今天早上,这就是我要给您的一切。 非常感谢你。 我发现看到您今天为我们准备的模型类型和用例非常有趣。 谢谢。
Anand Venugopal:太好了。 非常感谢大家。
丽贝卡·乔兹维克(Rebecca Jozwiak):感谢大家加入我们的这些热门技术网络广播。 听到Dez Blanchfield,Robin Bloor博士和来自Anand Venugopal的Impetus Technologies的声音令人着迷。 谢谢主持人。 谢谢演讲者,也谢谢观众。 下个月我们还有另一个热门技术,所以寻找。 您总是可以在Insideanalysis.com上找到存档的内容。 我们还在SlideShare上添加了很多内容,在YouTube上也添加了一些有趣的内容。
那是所有人。 再次感谢,祝您有美好的一天。 再见。