硬件 大铁,满足大数据:利用Hadoop和Spark解放大型机数据

大铁,满足大数据:利用Hadoop和Spark解放大型机数据

Anonim

通过Techopedia Staff,2016年6月2日

总结:大型机上使用了Hadoop生态系统来快速高效地处理大数据。

您目前尚未登录。请登录或注册以观看视频。

埃里克·卡瓦那(Eric Kavanagh):好的,女士们,先生们,星期四东部时间四点,这几天意味着这当然是Hot Technologies的时间了。 的确是的,我叫埃里克·卡瓦纳(Eric Kavanagh)。 我将成为您今天的网络研讨会的主持人。 伙计们,这是好东西,“大铁,遇见大数据” –我只是喜欢这个标题–“使用Hadoop和Spark解放大型机数据。”我们将谈论新旧相遇。 哇! 我们涵盖了过去50年中企业IT讨论的所有话题。 Spark遇到大型机,我喜欢它。

真正有一个关于你的地方,还有关于我的足够地方。 今年很热。 我们在本系列中谈论热门话题,因为我们实际上是在尝试帮助人们了解某些学科,某些领域。 例如,拥有一个分析平台意味着什么? 从大型机中解放大数据意味着什么? 这些东西是什么意思? 我们正在努力帮助您了解特定类型的技术,它们在组合中的适用范围以及如何使用它们。

今天我们有两名分析师,然后是Syncsort的TendüYogurtçu。 她是我们这个领域的远见卓识,非常高兴今天与我们自己的Dez Blanchfield和Robin Bloor博士一起上网。 我只想简单地说几句话。 一个是,伙计们,您在这个过程中扮演着重要的角色,所以请不要害羞地问一些好问题。 我们希望在网络广播的问答环节(通常在节目结束时)与他们联系。 我要说的是,我们有很多很好的内容,所以我很高兴听到这些男孩怎么说。 然后,我将其交给Dez Blanchfield。 Dez,地板是你的,把它拿走。

Dez Blanchfield:谢谢Eric,也谢谢大家今天参加。 因此,当我有机会谈论世界上最喜欢的事情之一,大型机时,我会感到非常兴奋。 这些天他们没有得到太多爱。 我认为大型机是原始的大数据平台。 有人会争辩说它们是当时唯一的计算机,这很合理,但是60多年来,它们实际上一直是大数据近来流行的引擎室。 我将带您了解为何我认为是这种情况。

在大型机的上下文中,我们已经看到了技术硬件堆栈的旅程,该旅程已从您现在在屏幕上看到的图像转移了。 这是旧的FACOM大型机,是我的最爱之一。 我们已经进入了大型铁器阶段,九十年代后期和网络泡沫时代。 这是Sun Microsystems E10000。 这个东西在96个CPU上是绝对的怪物。 最初为64,但可以在96 CPU上升级。 每个CPU可以运行1, 024个线程。 每个线程可以同时处于应用速率。 这简直太可怕了,实际上推动了互联网繁荣。 这就是我们所说的所有大型独角兽,现在我们正在运行,而不仅仅是大型企业,还有一些大型网站。

然后,我们最终获得了这种通用的现成商用PC模型。 我们只是将许多廉价的机器捆绑在一起,我们创建了一个集群,我们迎接了巨大的铁挑战,特别是以开源项目搜索引擎Nutch的Hadoop项目的形式,变成了大数据。 我们从本质上重新创建了大型机,并将许多小CPU粘合在一起并能够像L路径一样运行,并以运行单独的作业或部分作业的形式运行,它们在许多方面都非常有效。 如果您开始规模较小,则价格会更低,但这些大型集群中的许多集群肯定会比大型机变得更昂贵。

我对这些事情的看法是,从互联网泡沫到网络2.0的繁荣,再到如今追逐独角兽的时代,我们忘记了这个平台仍在为我们许多最大的关键任务系统提供动力。 当我们考虑一下大型机平台上正在运行的东西时。 它是大数据,尤其是数据主力,但肯定是大数据。 我们每天都在使用传统的企业和政府系统,例如银行,财富管理和保险。

航空公司订票和航班管理系统,尤其是实时性至关重要的航班管理。 在某个时候,几乎每个州和联邦政府都有大型机,而且不可避免地仍有许多大型机。 零售和制造业。 一些已经存在并且从未消失的旧软件。 只是继续为制造环境提供动力,而且肯定会实现大规模零售。 医疗系统。 防御系统,当然是防御系统。

在最近的几周中,我读了许多文章,其中有些导弹控制系统仍在旧的大型机上运行,​​而这些大型机正在努力寻找零件。 他们正在研究如何升级到新的大型机。 运输和物流系统。 这些听起来可能不像是性感的话题,但这些都是我们每天都会涉及的话题。 而且某些大型电信环境仍在大型机平台上运行。

当您考虑其中的数据类型时,它们都是至关重要的。 它们确实是非常重要的平台,我们每天都将其视为理所当然的平台,并在许多方面使生活成为可能。 那么,谁还在使用大型机?这些人又是谁在使用这些大型平台并保存所有这些数据? 好吧,正如我在这里所说的,我相信很容易被媒体从大型钢铁转移到机架上常见的现成集群或廉价PC或x86机器所愚弄,以至于认为大型机已经灭亡。 但是数据表明大型机从未消失过,实际上它已经存在了。

我在过去几周内在这里进行的研究表明,70%的企业(尤其是大型企业)数据实际上仍然驻留在某种形式的大型机上。 71%的《财富》 500强企业仍在大型机上运行核心业务系统。 实际上,在澳大利亚这里,我们有许多组织在城市中心拥有数据中心。 它实际上是一台真正的地下计算机,许多大型机只在那儿运行,滴答作响并乐于完成工作。 很少有人知道,在城市的一个特定区域中,在他们的脚下走动的街道上,有一个巨大的数据中心,里面充满了大型机。 在全球100家银行中,有92家(即排名前100位的银行)仍在大型机上运行银行系统。 全球排名前25位的零售链中有23个使用大型机在EIP和BI平台上仍运行其零售管理系统。

有趣的是,排名前10位的保险公司中有10家仍然在大型机上运行其平台,并且实际上是在大型机上提供云服务。 如果您正在使用Web界面或移动应用程序,而该界面存在中间件,则实际上是在与后端的繁琐内容进行通信。

我发现仍然有超过225个州和地方政府机构在大型机平台上运行。 我敢肯定有很多原因。 也许他们没有预算考虑使用新设备,但这对于在大型机上运行并带有一些非常关键数据的超大型环境来说,是一个巨大的足迹。 正如我前面提到的,大多数国家仍在大型机上运行其关键防御系统。 我敢肯定,他们在很多方面都试图下车,但是你走了。

2015年,IDC进行了一项调查,接受调查的CIO中有350名表示他们仍然拥有和管理大型机形式的大型铁器。 令我惊讶的是,它可能超过了目前在全球范围内生产中运行的大规模Hadoop集群的数量–那里的一个有趣的小数据。 我将继续进行验证,但这是一个很大的数目。 350位CIO报告说他们仍在生产一个或多个大型机。

去年,2015年,IBM给了我们强大的Z13,这是其大型机平台的 13 版本。 媒体对此事疯狂,因为他们惊讶于IBM仍在制造大型机。 当他们揭开面纱,看一看到底是什么时,他们意识到它实际上与我们为之兴奋的几乎每个现代平台(以大数据,Hadoop以及当然还有集群的形式)相提并论。 这个东西运行了Spark,现在运行了Hadoop。 您可以在其上运行成千上万的Linux机器,它看起来和感觉都像其他任何集群一样。 这真是一个惊人的机器。

许多组织都采取了这些措施,实际上我就其中多少台机器占用了数据。 现在,我认为3270文本终端已经被Web浏览器和移动应用程序取代了一段时间,并且有大量数据支持该功能。 我认为现在我们进入了一个时代,我们已经意识到这些大型机并没有消失,并且有大量数据在上面。 因此,我们现在要做的只是添加所谓的现成分析工具。 这些不是定制构建的应用程序。 这些都是一次性定制的。 您可以从字面上直接购买包装好的商品,然后将其插入大型机并进行一些分析。

正如我之前所说,大型机已经存在了60多年。 当我们考虑这有多长时间时,这比大多数在职IT专业人员的实际职业生涯要长。 实际上,甚至可能是他们的一些生活。 2002年,IBM售出了2300台大型机。 在2013年,这一数字增长到了2700个大型机。 2013年一年内大型机的销量为2700。我无法获得2015年的准确数据,但我想它正迅速接近2015年,2013年每年售出的3, 000台。我希望能够确认这一点。

随着Z13的发布,大型机平台的 13 迭代,我认为从头开始开发大约要花费1.2或13亿美元,IBM的机器外观和感觉都与其他集群相同我们今天拥有本地运行Hadoop和Spark的功能。 并且可以肯定地与其他分析和大数据工具连接,或者总是与现有或新的Hadoop集群之一连接。 我认为必须将大型机平台纳入大数据战略。 显然,如果有一个数据,那么您将拥有大量数据,并且想弄清楚如何从那里得到数据。 而且,就商业世界而言,他们在精神上和情感上都可以通过多种方式收集灰尘,但他们会留下来。

您所有分析工具与大型机托管数据的连接性和接口应该是企业尤其是政府大数据计划的关键部分。 现在,软件总是会注意到它们,对它们进行长时间的观察,并意识到这些事物的内在含义,并将思想联系起来,从而开始获得一些洞察力,并对实际的内在感觉有所了解。 然后,我将要交给我亲爱的同事Robin Bloor博士,他将为您增加那段小小的旅程。 罗宾,把它拿走。

罗宾·布洛尔:好的,谢谢。 好的,既然Dez演唱了大型机的歌曲,那么我将就旧的大型机世界和新的Hadoop世界探讨我认为正在发生的事情。 我想这里的主要问题是,您如何管理所有这些数据? 我并不认为大型机在大数据能力方面面临挑战–正如Dez所指出的那样,其大数据能力非常强大。 实际上,您可以在其上放置Hadoop集群。 面临挑战的地方是生态系统,我将对此进行详细说明。

这是一些大型机的位置。 它具有很高的入门成本,并且过去实际上发生了什么,自90年代中期以来,大型机的普及率开始下降,它往往已经失去了低端产品,那些买了便宜的大型机的人却没有。对于那些人来说真的不是特别经济。 但是实际上,在大型机的中端和高端,它实际上仍然是,而且可以证明,实际上是价格低廉的计算。

必须说,这是由Linux拯救的,因为在大型机上实现的Linux当然可以运行所有Linux应用程序。 在大数据甚至是一个单词,或者我想是两个单词之前,很多Linux应用程序就已经出现了。 实际上,这是一个非常出色的私有云平台。 因此,它可以参与混合云部署。 问题之一是大型机技能短缺。 实际上,存在的大型机技能正在老化,因为人们年复一年地离开该行业退休,而只是在人数上被取代。 所以这是一个问题。 但是它仍然是廉价的计算。

挑战的领域当然就是整个Hadoop。 这是Doug Cutting与原始Hadoop大象的合影。 Hadoop生态系统将继续保持主导地位的大数据生态系统。 它提供了比大型机实际可实现的更好的横向扩展,并且长期以来作为数据存储的成本更低。 Hadoop生态系统正在不断发展。 对此进行思考的最佳方法是,一旦特定的硬件平台和具有其优势的操作环境成为主导,那么生态系统就会活跃起来。 而这发生在IBM大型机上。 好吧,后来发生在Digital VAX,Sun的服务器,Windows和Linux。

发生的事情是,我一直认为或喜欢想到的Hadoop,作为一种分布式数据环境,其生态系统正在以惊人的速度发展。 我的意思是,如果您仅提及开源,Spark,Flink,Kafka,Presto等各种令人印象深刻的贡献,然后将其中一些基于NoSQL和SQL的功能添加到Hadoop中,然后添加到其中。 Hadoop是实际上存在的最活跃的生态系统,当然在公司计算中也是如此。 但是,如果您希望将其视为数据库,那么现在它与我通常认为的真实数据库(尤其是在数据仓库领域)没有任何可比性。 这在一定程度上解释了许多未在Hadoop上运行的大型NoSQL数据库(例如CouchDB等)的成功。

作为数据湖,它的生态系统比任何其他平台都要丰富得多,因此不会被其取代。 它的生态系统不仅仅是开源生态系统。 现在,数量众多的软件成员拥有的产品基本上是为Hadoop构建的,或者已导入到Hadoop。 他们刚刚建立了一个生态系统,就其广度而言,没有任何可以与之竞争的生态系统。 这实际上意味着它已成为大数据创新的平台。 但是我认为它仍不成熟,我们可以就Hadoop在操作上的成熟与否进行长期讨论,但我认为大多数关注此特定领域的人都清楚Hadoop比大型机落后了几十年。在操作能力方面。

不断发展的数据湖。 数据湖是任何定义的平台,如果您考虑到公司计算中存在数据层,现在很容易从固定数据库和构成数据层的数据湖的角度来考虑它。 数据湖的应用是多种多样的。 我在这里有一张图,它仅涉及将Hadoop用作登台区域或将Hadoop和Spark用作登台区域时需要完成的各种数据整理工作。 而且,您已经掌握了全部内容-数据沿袭,数据清理,元数据管理,元数据发现-它可以用于ETL本身,但通常需要ETL才能将数据引入。主数据管理,数据业务定义,服务管理Hadoop中发生了什么,数据的生命周期管理以及Hadoop中的ETL,并且您还拥有可以在Hadoop上运行的直接分析应用程序。

这就是为什么它变得非常强大,并且在成功实施和实现的地方,通常它上面至少运行着这些应用程序的集合。 而且这些应用程序中的大多数,尤其是已经向我简要介绍过的应用程序,它们现在仅在大型机上不可用。 但是您可以在大型机上,在大型机分区中运行的Hadoop集群上运行它们。

我认为,数据湖正在成为快速数据库分析和BI的自然过渡区域。 它成为您接收数据的地方,无论是公司数据还是外部数据,都将其弄乱,直到可以清洁到可以使用且结构合理的使用方式,然后再将其传递。 所有这一切仍处于起步阶段。

在我看来,大型机/ Hadoop共存的想法是,大公司不太可能放弃大型机。 实际上,最近看到的迹象表明,大型机的投资正在增加。 但是他们也不会忽略Hadoop生态系统。 我看到60%的大型公司正在使用Hadoop,即使其中许多实际上只是在进行原型设计和试验。

难题是,“如何使这两种东西共存?”,因为它们将需要共享数据。 带入数据湖的数据需要转移到大型机。 大型机上的数据可能需要进入数据湖或通过数据湖才能与其他数据联接。 那将会发生。 这意味着它需要快速的数据传输/ ETL功能。 假设在大型机环境或Hadoop环境中不大可能动态地共享工作负载。 它将是共享的数据。 而且大多数数据不可避免地将驻留在Hadoop上,仅仅是因为它是成本最低的平台。 端到端分析处理也可能会驻留在那里。

总而言之,最终我们需要考虑公司数据层,对于许多公司而言,它将包括大型机。 并且该数据层需要主动管理。 否则两者将无法很好地共存。 我可以把球传给你埃里克。

埃里克·卡瓦纳(Eric Kavanagh):再说一遍,滕杜(Tendü)我只是让你做演讲者,所以把它拿走。

TendüYogurtçu:谢谢Eric。 谢谢你让我 大家好。 我将与客户讨论Syncsort的经验,涉及如何将数据视为组织中的一项资产,从大型机升级到分析平台上的大数据。 我希望在会议结束时我们也有时间向观众提问,因为这确实是这些网络广播中最有价值的部分。

仅对于不知道Syncsort做什么的人,Syncsort是一家软件公司。 我们已经有40多年的历史了。 从大型机方面开始,我们的产品从大型机到Unix,再到大数据平台,包括Hadoop,Spark,Splunk,均在内部和在云中进行。 我们一直专注于数据产品,数据处理和数据集成产品。

从第一天起,我们关于大数据和Hadoop的策略就已经真正成为生态系统的一部分。 作为真正专注于使用超轻量级引擎进行数据处理的供应商所有人,我们认为有很大的机会参与到Hadoop成为数据处理平台并成为该组织的下一代数据仓库体系结构的一部分。 自2011年以来,我们从MapReduce开始为开源Apache项目做出了贡献。 在Hadoop第2版中已经进入前十名,并且实际上参与了包括Spark软件包在内的多个项目,我们的一些连接器发布在Spark软件包中。

我们利用了非常轻量级的数据处理引擎,该引擎完全基于平面文件的元数据,并且与Hadoop分布式文件系统等分布式文件系统紧密结合。 在推出大数据产品时,我们充分利用了大型机的传统,算法的专业知识。 我们与主要供应商(包括Hortonworks,Cloudera,MapR和Splunk)的主要供应商紧密合作。 Hortonworks最近宣布,他们将转售我们的产品,以便通过Hadoop进行ETL入门。 通过与Dell和Cloudera的紧密合作,我们还将ETL产品转售为大数据设备的一部分。 实际上,我们使用Splunk在Splunk仪表板中发布了大型机遥测和安全数据。 我们有着紧密的合作伙伴关系。

每个C级高管的想法是什么? 的确,“我如何利用我的数据资产?”每个人都在谈论大数据。 每个人都在谈论Hadoop,Spark,这是下一个计算机平台,可以帮助我创建业务敏捷性并开放新的变革性应用程序。 新的上市机会。 每位高管都在思考:“我的数据战略是什么,数据计划是什么?如何确保自己不落后于竞争对手,并且在未来三年内我仍然在这个市场上?”我们在我们与客户交流时,以及在与全球客户群交流时,您都可以看到这一点,您可以想象,因为我们已经存在了一段时间。

当我们与所有这些组织交谈时,我们也在技术堆栈中看到了Hadoop发生中断的情况。 确实是为了满足有关数据作为资产的这种需求。 利用组织拥有的所有数据资产。 我们已经看到企业数据仓库体系结构的发展,使得Hadoop现在成为现代数据体系结构的新焦点。 而我们的大多数客户,无论是金融服务,保险,零售电信公司,这些计划通常都是我们发现Hadoop即服务或数据即服务。 因为每个人都在尝试使数据资产可用于其外部客户或内部客户。 在一些组织中,我们看到了一些举措,如为其客户提供的几乎是一个数据市场。

实现这一目标的第一步之一就是创建企业数据中心。 有时人们会称其为数据湖。 创建这个企业数据中心实际上并不像听起来那样容易,因为它实际上需要访问和收集企业中几乎所有的数据。 现在,这些数据来自所有新来源,例如移动传感器以及旧数据库,并且处于批处理模式和流模式。 数据集成一直是一个挑战,但是,由于数据源的数量和种类以及交付方式的不同(无论是批量还是实时流传输),与五年前(十年前)相比,如今它更具挑战性。 有时我们将其称为“不再是您父亲的ETL。”

因此,我们讨论不同的数据资产。 当企业试图利用新数据,从移动设备收集的数据(无论是汽车制造商的传感器还是移动游戏公司的用户数据)时,他们通常需要引用最关键的数据资产。企业,例如客户信息。 这些最关键的数据资产通常位于大型机上。 将大型机数据与这些新兴资源(云中收集,通过移动设备收集,在日本汽车公司的生产线或物联网应用程序中收集)相关联,必须通过引用其旧数据集来理解这些新数据。 这些旧数据集通常位于大型机上。

而且,如果这些公司无法做到这一点,也无法利用大型机数据,那么机会就错了。 这样一来,将数据即服务或利用所有企业数据都无法真正利用组织中最关键的资产。 还有遥测和安全数据部分,因为几乎所有事务数据都驻留在大型机上。

假设您要使用自动取款机,我想其中一位与会者向此处的与会者发送了一条消息,以保护银行系统。 由于数据量大和数据种类繁多,保护和收集大型机的安全数据和遥测数据并通过Splunk仪表板或其他工具(Spark,SQL)提供这些数据现在变得比以往更加重要。

技能是最大的挑战之一。 因为一方面您有一个快速变化的大数据堆栈,所以您不知道哪个项目将生存,哪个项目将无法生存,我应该雇用Hive或Pig开发人员吗? 我应该投资MapReduce还是Spark? 或者接下来的事情,Flink,有人说。 我应该投资这些计算机平台之一吗? 一方面,跟上快速变化的生态系统是一个挑战,另一方面,您拥有这些旧数据源。 新技能并不完全匹配,您可能会遇到问题,因为这些资源可能实际上已经退休。 在了解那些旧数据堆栈和了解新兴技术堆栈的人员的技能方面存在很大差距。

第二个挑战是治理。 当您真正跨平台访问所有企业数据时,我们的客户会提出以下问题:“我不希望我的数据着陆。 我不希望将数据复制到多个位置,因为我想尽可能避免多次复制。 我想拥有端到端的访问权限,而又不将其放置在中间。”管理这些数据成为一个挑战。 另外,如果要访问瓶颈数据,又要在云中收集大多数数据并访问和引用旧数据,则网络带宽将成为一个问题,即群集平台。 在拥有这种大数据计划和先进的分析平台以及如何利用所有企业数据方面,存在许多挑战。

Syncsort提供的是,我们之所以被称为“简直是最好的”,并不是因为我们仅仅是最好的,而是我们的客户实际上只是在访问和集成大型机数据方面将我们称为最好的。 我们支持大型机的所有数据格式,并使其可用于大数据分析。 无论是在Hadoop还是Spark还是在下一个计算机平台上。 因为我们的产品确实隔离了计算机平台的复杂性。 作为开发人员,您可能正在笔记本电脑上进行开发,专注于数据管道以及数据准备工作,为分析创建此数据的步骤,下一阶段以及在MapReduce中采用相同的应用程序或采用该方法。在Spark中使用相同的应用程序。

当YARN可用时,我们帮助客户做到了这一点,他们不得不将其应用程序从MapReduce版本1迁移到YARN。 我们正在帮助他们使用Apache Spark进行相同的操作。 我们的产品(新版本9)也与Spark一起运行,并附带动态优化功能,该功能会将这些应用程序隔离在将来的计算机框架中。

因此,我们需要访问大型机数据,无论是VSAM文件,DB2还是遥测数据(例如SMF记录或Log4j或syslog),都需要通过Splunk仪表板进行可视化。 同时,由于组织可以利用其现有的数据工程师或ETL技能,因此可以大大缩短开发时间。 实际上,在Dell和Cloudera的赞助下,有一个独立的基准测试,该基准测试专注于您进行手工编码或使用Syncsort等其他工具所需的开发时间,开发时间减少了约60%到70% 。 桥接技能会在各组之间,在这些数据文件主机之间以及在人员方面的那些数据文件主机之间设置差距。

通常,大数据团队,数据吸收团队或负责将这些数据作为服务体系结构开发的团队不一定会与大型机团队交流。 他们希望几乎在许多组织中都尽量减少这种交互。 通过缩小这一差距,我们取得了进步。 最重要的部分是真正确保整个过程的安全。 因为在企业中,当您处理此类敏感数据时,有许多要求。

他们说,在保险和银行业等受到严格监管的行业中,我们的客户要求:“您提供了这种大型机数据访问,这很棒。 您是否也可以要求我将这种EBCDIC编码的记录格式保留为原始格式,以便我能够满足我的审核要求?”因此,我们使Hadoop和Apache Spark能够理解大型机数据。 您可以将数据保留为其原始记录格式,进行处理并为分销商计算机平台设置级别,如果需要放回去,则可以显示记录未更改且记录格式未更改,您可以遵守法规要求。

而且,大多数组织在创建数据中心或数据湖时,也都试图通过单击来执行此操作,以便能够将元数据从Oracle数据库中的数百个模式映射到Hive表或ORC或Parquet文件变得必要。 我们提供工具,并提供工具以使其成为一步式数据访问,自动生成作业或数据移动以及自动生成作业以进行数据映射。

我们讨论了连接性部分,合规性,治理和数据处理。 而且我们的产品既可以在内部也可以在云中使用,这使得它非常简单,因为如果我决定完全采用公共云还是混合云,则公司无需考虑明年或未来两年会发生什么。环境,因为某些群集可能在本地或云中运行。 我们的产品可在Amazon Marketplace,EC2,Elastic MapReduce以及Docker容器上获得。

总结一下,所以我们有足够的时间进行问答,这实际上是关于访问,集成和遵守数据治理的要求,而这一切都变得更加简单。 而且,由于我们的开源贡献,尽管使此过程变得更简单,但真正意义上的“一次设计即可在任何地方部署”,我们的产品在Hadoop数据流中本机运行,并在Spark中本机运行,从而使组织不受快速变化的生态系统的影响。 并提供用于批处理和流传输的单个数据管道和单个接口。

而且这还可以帮助组织有时评估这些框架,因为您可能希望实际创建应用程序并仅在MapReduce和Spark上运行,并亲自了解,是的,Spark承诺了这一点,并提供了迭代算法的所有先进技术,以实现最佳机器学习并且预测分析应用程序可与Spark配合使用,我是否也可以在此计算机框架上完成流式处理和批处理工作负载? 您可以使用我们的产品测试不同的计算机平台。 无论您是在独立服务器,笔记本电脑上还是在Google Cloud和Apache Spark中进行动态优化,对于我们的客户而言,确实是一个巨大的价值主张。 真正的挑战是他们所面临的挑战。

我将只介绍其中一个案例研究。 这是监护人寿保险公司。 Guardian的举措实际上是集中其数据资产并使之可供客户使用,减少了数据准备时间,他们说,每个人都在谈论数据准备占整个数据处理管道的80%,他们说这实际上是在他们希望获得75%到80%的收益,他们希望减少分析项目的数据准备,转换时间和产品上市时间。 在他们添加新数据源时创建敏捷性。 并使集中式数据访问可用于所有客户。

他们的解决方案(包括Syncsort产品)现在拥有一个类似Amazon Marketplace的数据市场,并由一个数据湖(基本上是Hadoop)和NoSQL数据库提供支持。 他们使用我们的产品将所有数据资产带入数据湖,包括大型机上的DB2,大型机上的VSAM文件,数据库旧数据源以及新数据源。 因此,他们集中了可重用的数据资产,这些资产可搜索,访问并可供其客户使用。 他们确实能够添加新的数据源,并比以前更快,更高效地为客户提供服务。 而且分析计划甚至在预测方面也取得了更大的进步。 因此,我将暂停一下,希望这对您有所帮助,如果您对任何相关主题有任何疑问,欢迎您。

埃里克·卡瓦纳(Eric Kavanagh):当然,我和滕杜(Tendü)会谈一谈。我收到一位听众的评论,说:“我喜欢这种'设计一次,可以部署到任何地方。”。 我的意思是,您为实现这种敏捷性做了哪些工作,并且需要缴税吗? 例如,当我们谈论虚拟化时,总是要对性能征税。 有人说百分之二,百分之五百分之十。 为使设计一次实现,部署到任何地方,您做了什么?您如何做?在性能方面是否要缴纳税款?

TendüYogurtçu:好的,谢谢。 不可以,因为与其他供应商不同,我们实际上并未生成Hive或Pig或某些不是引擎本身的代码。 这是我们的开源贡献发挥巨大作用的地方,因为我们一直与Hadoop供应商,Cloudera,Hortonworks和MapR密切合作,并且由于我们的开源贡献,我们的引擎实际上作为流程的一部分在本地运行,作为Hadoop流程的一部分,作为Spark的一部分。

这也意味着我们可以进行动态优化。 这是由于我们的客户受到计算机框架挑战的结果。 当他们将某些应用程序投入生产时,他们说:“我只是在稳定我的Hadoop集群,在MapReduce YARN版本2,MapReduce版本2上稳定,人们在谈论MapReduce已经死了,Spark是接下来,有人说Flink将是下一件事,我该如何应对?”

这些挑战对我们而言确实变得如此显而易见,我们投入了精力进行这种动态优化,我们称之为智能执行。 在运行时,根据群集(无论是Spark,MapReduce还是Linux独立服务器),在执行作业,提交此数据管道时,我们决定如何在引擎中本地运行该作业。 Hadoop或Spark数据流。 之所以没有开销,是因为一切都是通过我们拥有的动态优化来完成的,而所有一切也都可以完成的,因为我们的引擎由于我们的开源贡献而被本地集成。 这是否回答你的问题?

埃里克·卡瓦纳(Eric Kavanagh):是的,很好。 我想在那边再提一个问题,然后是Dez,也许我们也会邀请您和Robin一起来。 我只是其中一位参加者的热闹评论。 我会读它,因为它确实很精巧。 他写道:“似乎在物联网的历史上很热” –像物联网一样–“是您越尝试“简化”真正复杂的事物,往往不是看起来做事越简单,提供更多的吊绳。 想想数据库查询,爆炸,多线程等。”您能对他所引用的这个悖论发表些评论吗? 简单性与复杂性之间的关系,以及底层的实质是什么?

TendüYogurtçu:好的。 我认为这是非常正确的观点。 当您简化工作并进行这些优化时,一定要有人隐瞒需要发生的事情的复杂性,对吗? 如果您瘫痪了某些东西,或者正在决定如何相对于计算机框架运行特定的工作,那么显然有一部分工作正在被推送,无论是在用户端,菜单编码还是在引擎优化上。 其中的一部分是,通过简化用户体验,就能够利用企业中现有的技能集产生了巨大的好处。

您可以缓解这种矛盾,减轻挑战,“是的,但是我无法控制引擎内部幕后的所有工作”,方法是向高级用户开放想要拥有这种控制权。 通过还投资某些事物的可服务性类型。 能够提供更多的操作元数据,更多的操作数据(如该与会者给出的示例),用于SQL查询以及引擎正在运行。 我希望答案。

埃里克·卡瓦纳(Eric Kavanagh):听起来不错。 Dez,拿走它。

Dez Blanchfield:我真的很想对您在开源贡献中的足迹以及您从大型机和专有领域的传统,长期运行的经验中走出来的旅程有更多的了解,然后转向为开源做出贡献以及如何实现。 我渴望理解的另一件事是,您看到的观点是,不仅是IT部门,而且企业正在像人们现在所说的那样关注数据中心或数据湖,以及他们是否看到这种趋势。仅仅是一个统一的数据湖,还是我们正在看到分布式数据湖,人们是否正在使用工具将它们组合在一起?

TendüYogurtçu:好的。 对于第一个公司来说,这是一段非常有趣的旅程,作为私有软件公司,这是继IBM之后的第一批公司。 但是,一切再次从我们的Hadoop客户开始。 我们有像ComScore这样的数据公司,它们是最早采用Hadoop的公司之一,因为它们正在全球范围内收集数字数据,除非他们在其内部投资了千万美元的数据仓库设备,否则它们将无法保存90天的数据。环境。 他们开始研究Hadoop。 之后,我们也开始关注Hadoop。

当我们做出决定并承认Hadoop确实将成为未来的数据平台时,我们还了解到,除非我们不参与其中,否则我们将无法发挥作用。是生态系统的一部分 我们与Hadoop供应商,Cloudera,Hortonworks,MapR等紧密合作。我们开始与他们进行真正的交谈,因为合作伙伴关系对于验证供应商可以带来的价值非常重要,并确保我们可以共同进入企业并提供更有意义的东西。 必须建立大量的关系,因为我们不知道Apache开源项目,但是我必须说这些Hadoop供应商提供了大力支持。

我们开始一起工作,并着眼于枢纽,即如何在空间中甚至没有所有人软件的情况下也能带来价值。 那很重要。 这不只是放置一些可以在您的产品上运行的API,还可以说我将对此进行投资,因为我相信Hadoop将成为未来的平台,因此通过投资我们想要制作的资源确保它成熟并准备就绪。 实际上,我们可以启用一些我们贡献之前没有的用例。 这将使整个生态系统受益,我们可以非常紧密地发展这些伙伴关系。

花了很多时间。 我们从2011年开始捐款,而从2013年1月21 开始捐款-我记得那个日期,因为那个日期我们做出了最大的贡献,这意味着从那时起,我们现在就可以普遍使用我们的产品-建立这种关系花了很多时间,展现价值,合作伙伴成为供应商以及开源社区中的提交者的设计合作伙伴。 但这很有趣。 作为一家公司,让我们成为该生态系统的一部分并建立良好的合作伙伴关系非常荣幸。

关于数据中心/数据湖的第二个问题,我认为,在大多数情况下,当我们将这些数据视为服务实现时,是的,它可能是集群,物理上是单个或多个集群,但是比成为那个单一位置更具概念性对于所有数据。 因为在某些组织中我们看到了大型集群部署,但它们在公共云中也有集群,例如,因为从在线部分收集的某些数据实际上保存在云中。 拥有一个可以实际利用这两个数据管道的单一数据管道,并将它们用作单个数据中心,单个数据湖就变得非常重要。 我认为,不仅是物理位置,而且跨集群,跨地理位置甚至在内部和云中拥有数据中心和数据湖将变得至关重要。 特别是前进。 今年,我们开始看到越来越多的云部署。 太奇妙了。 到目前为止,今年上半年我们已经看到了许多云部署。

埃里克·卡瓦纳(Eric Kavanagh):好的,很酷。 罗宾,你有什么问题吗? 我知道我们只剩下几分钟了。

罗宾·布洛尔:好的,我可以问她一个问题。 我想到的第一件事是,人们对卡夫卡充满了兴奋,我对您对卡夫卡的看法以及您如何与人们使用卡夫卡的方式融为一体感兴趣。

TendüYogurtçu:好的。 是的,Kafka越来越受欢迎。 在我们的客户中,我们发现这是一种数据传输层,并且几乎认为数据是总线。 例如,我们的一位客户实际上使用的是一种消费数据,该数据被推入多个(例如成千上万的在线用户)的Kafka中,并且能够对其进行分类和推送。

同样,Kafka是通往此数据的不同使用者的数据总线。 对一些高级用户和不太高级的用户进行分类,并在该数据管道中进行一些其他操作。 我们与Kafka集成的方式基本上是,我们的产品DMX-h成为可靠的消费者,成为Kafka的高效,可靠的消费者。 它可以读取数据,这与从我们的任何其他数据源读取数据没有什么不同。 我们使用户能够根据他们所拥有的时间要求或从Kafka总线上可能消耗的消息数量来控制窗口。 然后,我们还可以在通过我们的产品并将其推回Kafka时对这些数据进行充实。 我们已经对此进行了测试。 我们已经在客户现场对其进行了基准测试。 还通过了Confluent的认证。 我们与Confluent员工紧密合作,它的性能很高且易于使用。 同样,API发生了变化,但是您不必担心,因为该产品确实将其视为另一个数据源,即流数据源。 实际上,与我们的产品和Kafka一起工作非常有趣。

Robin Bloor:好的,我还有另一个问题,只是一般的业务问题,但是我很早就认识Syncsort,因此您一直享有声誉,并为ETL和大型机世界提供了非常快速的软件。 现在大多数业务都转移到了Hadoop吗? 是不是您以某种方式将您的业务从大型机领域中大幅度地扩散出去了?

TendüYogurtçu:我们的大型机产品仍在全球50%的大型机上运行。 因此,除了我们在大数据和Hadoop方面所做的工作外,我们还拥有非常强大的大型机产品线。 而且我们仍处于大多数IT简化或优化项目中,因为您希望能够一方面利用大数据Multex平台中的大型机数据并利用所有企业数据,但是还有非常关键的事务性工作负载该应用程序仍将继续在大型机上运行,​​我们为这些客户提供了使这些应用程序真正高效的方法,它们可以在zIIP引擎中运行,因此它们不会消耗太多的处理周期和MIPS,从而使其具有成本效益。

我们将继续投资大型机产品,并实际进入这个领域,使人们从大型机转移到大型数据,并跨这些平台扩展产品线。 因此,我们不必将整个业务转移到一侧,我们在双方上都将继续拥有非常成功的业务。 收购也是我们关注的重点。 随着大数据平台的数据管理和数据处理空间的发展,我们还承诺进行大量的免费收购。

罗宾·布卢尔(Robin Bloor):好吧,我想我不能问你它们是什么,因为不允许你告诉我。 我对您是否在大型机上实际看到过Hadoop或Spark的许多实现,或者这是否非常罕见感到兴趣。

TendüYogurtçu:我们还没有看到。 还有更多的问题。 我认为大型机上的Hadoop由于核心结构的种类而没有多大意义。 但是,大型机上的Spark十分有意义,Spark在机器学习和预测分析方面确实非常出色,而且我认为能够将其中一些应用程序与大型机数据一起使用确实很有意义。 我们还没有看到有人这样做,但是实际上是驱动这些事情的用例。 如果您作为公司的用例更多地是将大型机数据带入并与大数据平台中的其余数据集集成,那就是一个故事。 它要求从大数据Multex平台访问大型机数据,因为您不太可能将数据集从开放系统中取出并调回大型机。 但是,如果您只想探索一些大型机数据并进行一些数据探索发现,应用一些高级AI和高级分析功能,那么Spark可能是在大型机上运行的好方法。

埃里克·卡瓦纳(Eric Kavanagh):观众还有一个问题,实际上是两个问题。 我给您一个标签小组问题,然后我们总结。 一位与会者问:“ IBM是否将您的开源贡献集成到其公共云生态系统中,换句话说,就是Bluemix?”另一位与会者提出了一个非常好的观点,他指出Syncsort对于使那些将已经有了它,但是如果公司放弃新的大型机而支持他所说的CE,那么一切都将变得阴云密布,但是它可能会下降,但是请注意,你们真的很擅长通过绕开每秒高达1 GB的操作系统来移动数据。 正如他所说,您能否谈谈您的核心实力,以及IBM是否将您的产品集成到Bluemix中?

TendüYogurtçu:与IBM一起,我们已经是IBM的合作伙伴,我们已经就他们提供产品的数据云服务进行了讨论。 我们的开源贡献向所有想要利用它们的人开放。 Spark软件包中还提供了一些大型机连接性,而不仅仅是IBM。 任何人都可以利用这些优势。 在Bluemix中,我们还没有专门做任何事情。 您介意重复第二个问题吗?

埃里克·卡瓦纳(Eric Kavanagh):是的,第二个问题是关于您多年来的功能核心领域,这实际上是在处理ETL的瓶颈,显然,你们仍将作为大型机来做这些事情,从理论上讲,尽管Dez的仍然有点摇摆不定。 但是与会者刚刚指出,Syncsort非常擅长通过绕开操作系统和每秒高达1 GB的数据来移动数据。 您能对此发表评论吗?

TendüYogurtçu:是的,真正的整体资源效率是我们的优势,而可扩展性和性能则是我们的优势。 我们没有妥协,简化有很多含义,我们不会因此而妥协。 例如,当人们在2014年开始谈论Hadoop时,许多组织最初并没有真正关注性能。 他们说:“哦,如果发生什么事情,我可以添加另外两个节点,我会好的,性能不是我的要求。”

当我们谈论最佳性能是因为我们已经在本地运行时,我们甚至没有遇到Hive的多个MapReduce作业和启动它们所产生的开销的最初打h。 人们告诉我们:“哦,这不是我的担心,暂时不用担心。”

当我们来到2015年时,情况发生了变化,因为我们的一些客户已经超出了其生产集群中的存储量。 对于他们来说,了解Syncsort可以提供什么变得至关重要。 如果您要从数据库或大型机中获取一些数据并将其写入集群中的Parquet格式,则无论您是登陆和登台并进行其他转换,还是只是进行机上转换和登陆目标文件格式,都会有所作为,因为您从存储,网络带宽节省,集群工作量节省,因为您没有运行额外的作业。 看来,我们在发挥意识方面发挥的优势,使我们感觉到了资源的利用效率。

这就是我们描述它的方式。 这对我们至关重要。 我们不认为这是理所当然的。 我们从未认为这是理所当然的,因此我们将继续在Apache Spark或下一个计算机框架中发挥强大的作用。 这将继续是我们的重点。 就数据移动和数据访问而言,这绝对是我们的强项之一,我们正在Hadoop或Spark上下文中访问大型机上的DB2或VSAM数据。

埃里克·卡瓦纳(Eric Kavanagh):好的,伙计们,这是结束网络广播的好方法。 非常感谢您的时间和关注。 正如您所说,感谢Tendü和Syncsort进入简报室并进入圆桌会议。 观众提出了很多很好的问题。 伙计们,这是一个不断变化的环境。 我们将像对待其他所有技术一样归档此热门技术。 您可以在insideanalysis.com和techopedia.com上找到我们。 通常它会在大约一天内上升。 亲爱的,我们将向您告别。 非常感谢。 我们会尽快与您联系。 照顾自己。 再见。

大铁,满足大数据:利用Hadoop和Spark解放大型机数据