资料库 前进的动力:将关系超越传统

前进的动力:将关系超越传统

Anonim

通过Techopedia Staff,2016年6月8日

要点:主持人Eric Kavanaugh与专家Dez Blanchfield,Robin Bloor和Bert Scalzo讨论了数据库技术的创新。

您目前尚未登录。请登录或注册以观看视频。

埃里克·卡瓦纳(Eric Kavanagh):女士们,先生们,这是东部时间的四个星期三。 我在新奥尔良,夏天来了,这意味着天气很热! 是时候使用热门技术了,是的,的确是。 我叫埃里克·卡瓦纳(Eric Kavanagh),我将成为您的主人。 我将为Hot Technologies踢球。 今天的主题是“前进的动力:超越传统的关系。”亲朋好友,今天我们有三位数据库专家在电话上,因此,您有任何疑问,将困难的问题发送给他们,不要害羞。 今天,我们为您准备了一堆好内容。 真正有关于你的地方,对我来说足够。 当然,今年很热。 在本次展会中,我们正在谈论所有热门技术,这是与Techopedia的朋友建立的伙伴关系。 今天,我们将一直深入到信息管理的基础,当然是数据库。 我们将谈论我们如何到达这里,今天正在发生的事情以及正在发生的事情。 发生了很多非常有趣的事情。

显然,我们在数据库领域有一些严肃的创新。 有一阵子安静了。 如果您与行业中的一些分析师交谈,我想大概是从2005年到2009年或10年这一年,就创新而言似乎并没有进行太多。 突然之间,一切都突然爆发了,比如越狱之类的东西,现在发生了各种各样有趣的事情。 这主要是由于网络的规模以及所有出色的网络属性正在做的有趣的事情。 那就是NoSQL概念的来源。 这意味着两件事:它不表示SQL,因为它不支持SQL,还不仅表示SQL。 有些人使用了一个术语“ NewSQL”。 但是显然,SQL(结构化查询语言)确实是基础,也是查询的基础。

有趣的是,所有这些NoSQL引擎发生了什么? 好了,他们出来了,对此非常兴奋,然后几年后,我们所有人都开始听到了什么? 哦,Hadoop上的SQL。 好吧,所有这些公司都开始将SQL接口添加到他们的NoSQL工具上,并且任何编程领域的人都知道,这将带来一些挑战,一些困难,以及一些交叉的事物等等。 因此,我们今天将发现很多这样的东西。

我们有三位主持人:我们有来自悉尼的Dez Blanchfield,来自德克萨斯州的我们自己的Robin Bloor以及来自德克萨斯州的Bert Scalzo。 因此,首先我们将收到Dez Blanchfield的来信。 亲爱的,我们将在#HotTech的标签上进行鸣叫,随时发送您的评论,或通过网络广播控制台的“问与答”组件,甚至通过聊天窗口发送您的问题。 有了这个,Dez Blanchfield,把它拿走。

Dez Blanchfield:谢谢Eric。 嗨,大家好。 因此,我将尝试将场景设置在30, 000英尺的高度,以了解过去十年中发生的事情,以及我们已经看到的重大变化-至少至少十五年了-数据库管理系统,以及从商业或技术角度来看的一些影响,以及我们最近忍受的一些趋势,使我们进入今天将要围绕该主题进行的对话。

我在这里的封面图片是沙丘,风在它的顶部吹来细小的沙子。 结果,沙丘从一个空间缓慢地走到另一个空间。 这是一个了不起的现象,实际上,这些巨大的40英尺和50英尺高的沙山实际上在移动。 它们移动非常缓慢,但是它们确实移动,并且随着移动,它们改变了景观。 如果您在沙丘是自然事物的区域中度过所有时间,那将是一件值得关注的事情。 因为您有一天可以看着窗外,并且意识到这片巨大的沙山实际上实际上已经移动了很少的细小颗粒,并且风慢慢地将其从一个位置转移到另一个位置。

而且我认为从很多方面来说,这已经是数据库系统的世界了。 直到最近,沙粒形式的微小变化才使沙丘形式的巨型沙丘移动。 这些年来,数据库平台几乎没有什么变化,并且在中端时代的大型机中,它一直是围绕数据库系统和平台的相当稳定和牢固的环境。 但是最近,我们的商业需求和技术驱动因素发生了一些相当重要的事情。 我将引导我们完成这些。

我认为,数据库的基本概念(我们已经知道很多年了,并且您可能已经在展会前的玩笑中听到了),今天与我联系的两位专家终生都在在这样的空间中,他们完全有权利分享80年代初期开始出现在这里时的吹牛权利。 但是我们在过去的十年中已经看到了巨大的转变,在我将其移交给Robin Bloor博士之前,我将快速地引导我们完成。

我们经历了我所说的“更大,更好,更快,更便宜”的体验。 正如我所说,数据库的定义已更改。 数据库平台必须解决性能问题以及技术和商业要求的环境也发生了变化。 我们已经看到对解决方案的需求增加,以解决更复杂的商业或更复杂的技术要求。 因此,快速浏览一下我认为这实际上意味着什么,我们进入了90年代,并且我们看到数据库技术受到了互联网的引入的影响,以及我们当时所说的互联网规模。 我们不仅在谈论坐在码头前的人,最初是像电传打字机终端那样,内置有物理打印机,并且有132列文本以纸质形式出现。 然后是早期的绿色屏幕终端,用键盘打孔。

但是,您知道,我们的世界是长时间与计算机通讯的终端和串行电缆或网络电缆。 然后是互联网,以及连接的爆炸性增长,您不必再将其插入计算机。 要进入数据库系统,您只需要一个Web浏览器。 因此,数据库技术必须进行巨大的变革,以处理用于索引世界的基本搜索引擎技术的所有规模,并以数据库格式规模为例存储信息索引。 像Google和其他公司这样的人提供了一个执行此操作的平台。 并且产生了所有新型的数据库存储以及查询和索引。 然后我们有了音乐网站和电影网站。

然后在2000年代,我们看到了互联网泡沫的兴起,这使使用由某种形式的数据库始终提供支持的系统的人数激增,甚至更加戏剧化。 在这个阶段,关系数据库仍然可以应付大部分负载,我们只是将它们放在更大的罐子上,然后我们从诸如IBM和Sun等人那里去了运行Unix平台的非常非常大的中型系统。 。 从硬件,性能的角度来看,网络泡沫的兴起使事情变得更大,更快,并且数据库引擎发生了一些重大变化,但更好的是,我们仍然看到了同样的事情。很久。

然后我们提到了这个Web 2.0的时代。 这是一个巨大的转变,因为突然之间我们需要更简单的数据库平台,并且必须有一个水平形式的规模。 这就是我们处理数据库概念的方式的重大转变。 我认为我们现在仍然真的在追赶。 现在,我们正在处理整个泥潭,我要说的是正面旋转,而不是负面含义,是我们所谓的大数据的泥潭,是一个巨大的爆炸,我的意思是爆炸。 当我们谈论数据库时,这种可笑的变化垂直地出现在我们拥有的选项数量的图表上,以及某种形式的关系查询能力。

有趣的是,我个人认为大数据确实只是冰山一角。 对于大数据的影响以及我们现在可用的选择类型,我们确实会感到有些兴奋。 我们拥有NoSQL引擎的所有功能,图形引擎,所有这些类型的平台,我们可以在这些平台上投放数据并使用它们进行处理。 甚至到事实上,我今天与我们一起在这里与Eric Kavanagh进行的第一次对话中,都围绕着与Apache Drill有关的对话,Apache Drill是一个开放源代码项目,可让您查询模型内部的数据具有不同的数据类型:从硬盘上的原始CSE文件到PB级的HDFS文件系统,应有尽有。 而且您知道,它允许您对各种令人兴奋的工厂的结构化和非结构化数据执行这些SQL样式的查询。

我们将看到“智能建筑”成为现实,我们想以为我们拥有安全和热管理的智能建筑,但我所谈论的是对您的身份更加了解的智能建筑。以及您进入的位置以及在该级别上进行的各种整洁的事情,直到智能城市-城市级别的整个生态系统-知道如何聪明地做事。 除此之外,我们还拥有一件令人难以置信的东西,我认为世界上没有人能完全掌握这一切,而这就是物联网的形式。 在过去的十年中,所有这些不同的变化都发生了,大概大概是二十年,如果我们将其四舍五入,我认为这只是影响了我们所认为的数据库的世界。

有几项重要的事情使这一切成为可能。 硬盘驱动器的成本已大大降低,并且在许多方面,这使得驱动某些参考架构(例如Hadoop模型)成为可能,因为我们要吸收大量数据并将其散布到许多硬盘驱动器上,用它做聪明的事。 实际上,在我看来,关系数据库或传统DB单元模型已成为分片。 RAM的价格非常非常便宜,这为我们提供了一个全新的机会来使用不同的参考体系结构(例如内存),以及进行诸如分区非常大的数据块的操作。

因此,这给了我们现在正在查看的这张小图,该图显示了如果您处于大数据环境中,可用的平台类型。 而且,它非常非常难读,其原因是,关于此的信息太多。 将数据放入任何形式的数据库系统中,进行查询并进行传统读写的方法有很多制造,建模和制造选项。 而且它们并不都符合要求,实际上它们甚至都没有符合任何基本样式标准,但是他们仍然认为自己是数据库。 我将在几秒钟内向您展示几个屏幕,向您提供一些背景信息,以了解我所指的是从90年代和互联网规模转变为Web 2.0,然后是大数据带来的整体增长。 如果我们认为这个大数据技术前景图令人兴奋,因为上面有很多选择,那么让我们看一下一个关键的垂直领域。

让我们看一下营销技术。 这是数据库管理系统的选择,或者仅在mar-tech领域内进行数据管理,因此与营销相关的技术。 现在是几年前的2011年。 五年前,这就是风景。 如果我只是简单地回顾一张幻灯片,这就是我们在数据库技术中拥有的各种品牌和产品中当今的数据格局。 这就是五年前的营销技术行业。

现在,如果以今天的观点来看,这就是它的样子,并且完全不可穿透。 只是品牌和选择的墙,成千上万的软件组合都认为自己属于数据库类,它可以捕获,创建或存储和检索各种形式的数据。 而且我认为我们现在进入了一个非常非常有趣且勇敢的时代,从前您可以了解主要品牌,您可以了解Oracle和Informix,DB2等五,六个不同的平台,并且几乎是20年前所有品牌的专家。 十年前,它变得容易了一点,因为一些品牌下降了,而且并不是所有的品牌都能应付网络繁荣的规模,而有些公司破产了。

如今,绝对不可能成为现有的所有数据库技术的专家,无论是关系数据库还是我们在过去几十年中认识的标准数据库管理平台。 或更可能的情况是,像N​​eo4j这样的更现代的引擎。 因此,我认为我们正在进入一个非常勇敢的世界,那里有很多可用的选项,并且我们已经在内存或磁盘上水平扩展了平台。 但是我认为对于技术和业务决策者来说,这是一个充满挑战的时刻,因为他们需要在技术堆栈上做出一些非常大的决定,在某些情况下,这些决定实际上只存在了几个月。 对于一些更令人兴奋的新开源数据库平台来说,现在已经有18个月的历史了。 他们开始合并平台,并变得更加新颖和令人兴奋。

我认为我们今天将就这一切如何影响传统的数据库平台以及它们如何响应传统的数据库以及正在使用的技术类型进行一场精彩的对话。 考虑到这一点,我现在将传递给罗宾·布洛尔博士,并获得他的见解。 罗宾,交给你。

Robin Bloor:好的,谢谢。 是的,这个话题太大了。 我的意思是,如果您只是摘下Dez展示给您的插图之一,那么您可能会和其中的一个进行长时间的交谈。 但是您知道,您可以进入数据库–自1980年代以来,我一直都在研究数据库,但我不知道,您可以采用不同的方式研究数据库。 我认为今天要做的事情之一就是谈论破坏性事情在硬件级别发生的原因。 您必须记住,在软件级别实际上也发生了很多破坏性的事情,因此,这并不是所有事情的全貌,而只是硬件方面的事情。

我也不会谈论很长的时间,我只是想给您提供硬件图片。 数据库具有跨越CPU,内存和磁盘的数据检索功能,并且正在发生巨大变化。 我之所以这样说,是因为我学会了从实际操作的角度理解数据库。 您知道,CPU上的实际数据与从内存中拉入CPU的数据,从磁盘到内存并通过CPU的数据之间的延迟有所不同。 而旧的数据库体系结构只是试图平衡这一点。 您知道,他们只是说:“嗯,这进行得很慢,我们会将数据缓存在磁盘上,以便存储在内存中。 我们将尝试以一种非常准确的方式进行操作,以使我们要求的数据中有很大一部分已经存在内存中。 我们将尽快将数据传输到CPU。”

而且数据库是在过去编写的,而机器是为小型集群编写的。 现在,对于无知的并行性。 因为如果要从群集中获得一些性能,则必须并行执行各种操作。 并行性是游戏的一部分,与现在不同。 我将稍微讲一下发生的事情。

首先,磁盘。 磁盘确实结束了。 关于数据库,这已经差不多了。 我认为数据存档有很多环境,甚至是在Hadoop上运行的非常大的数据湖,如今最糟糕的旋转磁盘可能仍然可行。 确实,磁盘旋转的问题在于读取速度没有特别提高。 当CPU上升时,摩尔定律的速度大约每6年提高一个数量级。 记忆紧随其后,然后这两个彼此合理地保持同步,虽然并不完全顺畅,但他们做到了。

但是随机读取到磁头围绕磁盘飞行的磁盘,我的意思是,除了别的以外,这是物理运动。 而且,如果您要随机读取磁盘,那么与从内存中读取相比,它的速度会令人难以置信,大约要慢100, 000倍。 而就在最近,我深入研究过的大多数数据库体系结构实际上只是从磁盘上串行读取的。 您确实希望以某种方式从磁盘中缓存尽可能多的内容,然后将其从该慢速设备中拉出并放入快速设备中。 而且,您可以执行很多聪明的事情,但是事情已经结束了。

固态磁盘或闪存驱动器实际上就是它们的替代品,它很快就会取代旋转磁盘。 而且这又完全改变了,因为数据在磁盘上的组织方式是根据磁盘的工作方式来组织的。 实际上,这是关于一个磁头在旋转表面上移动,实际上是多个磁头在多个旋转表面上移动,并随即拾取数据。 固态驱动器只是您可以阅读的一小部分。 我的意思是,第一件事是所有传统数据库都是为旋转磁盘而设计的,而现在正在为SSD重新设计它们。 新数据库可能可以–现在正在编写新数据库的任何人都可能忽略磁盘旋转,甚至根本不考虑它。 但是,固态硬盘的主要制造商三星告诉我们,固态硬盘实际上处于摩尔定律曲线上。

我认为它们已经比旋转磁盘快三到四倍,但现在基本上每18个月它们将变得更快。 速度提高一倍,速度提高10倍,大约六年。 但是,仅此而已,正如我稍后将告诉您的那样。 当然,旋转磁盘正在成为归档介质。

关于记忆。 首先,RAM。 每个CPU的RAM之间的CPU比率一直在增加。 当然,从某种意义上讲,它可以提供更快的速度,因为您现在可以拥有的英亩内存可以存储更多的内存。 这实际上是在减轻MLTP类型的应用程序或随机读取应用程序的压力,因为更容易满足这些要求,因为您现在有很多内存,这样您就可以缓存任何可能会读入内存。 但是您会遇到更大的数据堆问题,因此,大数据实际上并不是那么简单。

然后我们有了配备3D Xpoint的英特尔和拥有相称内存PCM的IBM,它们提供了他们认为是的东西–嗯,它至少比当前的SSD快10倍,而且他们相信它将得到与RAM的速度非常接近。 当然,它更便宜。 因此,以前,您具有CPU,内存和磁盘的数据库结构,现在我们正朝着具有四层的结构发展。 它具有CPU,内存或RAM,然后是这种比SSD快的内存(实际上是非易失性的),然后是SSD。 这些新技术是非易失性的。

还有惠普的忆阻器,您还不知道,因为它是在大约七年前宣布的,但尚未出现。 但是我听到的谣言是,惠普还将与忆阻器一起对游戏进行一些改动,因此您的内存状况刚刚出现变化。 这并不像我们拥有更快的东西,这就像我们拥有了一个全新的层。 然后我们有了一个事实,即SSD访问,您可以并行读取。 您不能并行读取旋转磁盘,除非拥有许多不同的旋转磁盘。 但实际上,您可以并行读取一块SSD。 而且,因为您可以并行读取,所以如果您实际上在单个CPU上跨多个进程设置了多个进程,并且仅使用SSD,它的读取速度将比其简单读取速度快得多。

估计这样做可以使您几乎达到RAM速度。 这就是说,内存架构的未来尚不清楚。 我的意思是,事实是,各种主导供应商(无论他们是谁)可能会决定硬件的发展方向。 但是没有人知道现在的情况。 我曾与一些数据库工程师交谈过,他们说:“我不怕发生了什么事”,但他们不知道如何从一开始就对其进行优化。 而且您总是这样做,所以很有趣。

然后是CPU。 好吧,多核CPU不仅仅是多核CPU。 我们还有大量的L1,L2和L3缓存,尤其是L3,我不知道它高达数十兆字节。 你可以在那放很多东西。 因此,您实际上可以将芯片用作缓存介质。 这样就改变了游戏。 当然,矢量处理和数据压缩实际上已经有许多厂商做到了,将这些东西拖到了CPU上,以使它们在CPU上的运行速度大大提高。 然后您就会发现,配备GPU的CPU确实非常擅长加速分析。 他们确实擅长某些查询,这取决于您的查询是什么。

您可以创建带有CPU和GPU的板,也可以像AMD现在所做的那样,生产称为APU的东西,这是CPU和GPU的结合。 它具有两种功能。 因此,这是另一种处理器。 然后,英特尔最近宣布他们将在芯片上安装FPGA。我当时在想:“到底会发生什么?”因为如果CPU,GPU的可能性,以及CPU,FPGA的可能性–顺便说一句,如果您确实愿意,可以在同一块板上放置CPU,GPU和FPGA。 我不知道您实际上将如何以这种方式运行任何东西,但是我确实知道正在做这种事情的公司,而且它们正在获得非常非常快的查询响应。 这不是将要被忽略的东西,也许这是已建立的供应商以及即将出现的新供应商将要使用的东西。 DBMS始终是并行的,但是现在并行的可能性才有了爆炸性的增长,因为这允许您以多种方式将其与此并行化。

最后,是向上扩展还是向外扩展? 扩大规模确实是最好的解决方案,但这只是一回事。 如果您可以完全优化一个节点上的CPU和磁盘上的内存性能,则可以得到更好的节点性能。 而且您将使用更少的节点,因此它将变得更便宜,对吗? 而且它会更易于管理。 不幸的是,这是一个依赖于硬件的设计,并且随着硬件的变化,这样做的可能性越来越小,除非您的工程师能够以硬件变化的速度运行。 确实会遇到工作负载问题,因为在进行扩展时,您将对要执行的工作负载做出各种假设。

如果您进行扩展,也就是说,如果您的体系结构强调在进行扩展之前先进行扩展,那么实际上您必须同时进行这两项工作,而仅仅是强调一种。 然后,您将获得更好的网络性能,因为该体系结构将处理它。 就硬件而言,这将更加昂贵,因为将有更多的节点,但是工作量问题将减少,并且设计将更加灵活。

我只是想把它扔进去,因为如果您真的想到了所有硬件更改,我只是指了指,然后又想到了,您将如何扩展和扩展这些东西? 然后您意识到,至少在我看来,数据库工程师的薪水很低。 因此,如果您仅考虑硬件层,那么数据库挑战就显而易见了。 现在,我将其传递给伯特,他将使我们所有人都受过良好的教育。

埃里克·卡瓦纳(Eric Kavanagh):就是这样! 伯特?

伯特·斯卡尔佐:非常感谢。 让我直接进入这些幻灯片。 我有很多幻灯片要浏览,因此在其中很多幻灯片上我可能会很快浏览。 我们将要讨论的是“前进的动力:超越传统的关系”。它不再是您父亲的数据库。 情况发生了变化,正如一位早先的发言者所说,在过去的六到七年中,形势发生了根本性的变化。

我本人自80年代中期以来一直在从事数据库工作。 我已经撰写了有关Oracle,SQL Server,基准测试和许多其他内容的书籍。 “世界瞬息万变。 大不会再打败小。 我会加上“适应”。那是鲁珀特·默多克(Rupert Murdoch)的话。 我真的相信这将是正确的。 您将无法像10、15、20年前那样做数据库工作。 您将必须按照企业现在想要的方式进行操作。

我将尝试在介绍的内容中保持通用性,但是我正在谈论的大多数功能都可以在Oracle中找到,您将在SQL Server,MySQL,MariaDB和其他一些重要功能中找到玩家。 关系数据库的革命,我再次同意早期的演讲者。 如果您看准2010年左右,我们从红色赛车转到了黄色赛车。 发生了很大的变化,到2020年,我相信您将看到另一个重大变化。 我们正处于一个非常有趣的时期。

现在,这张幻灯片是关键,这就是为什么我在上面放了一把钥匙。 所有这些变化都在进行中,左侧是技术,右侧是业务。 问题是,哪个因素引起了什么,哪个因素支持了那个? 我们进行了所有这些硬件更改:磁盘减少,磁盘大小增加,新型磁盘,因此早期的扬声器对此有所介绍。 所有这些较新版本的数据库,内存价格下降。 但是在右侧,我们有数据保护和合规性,数据仓库,商业智能,分析,强制性数据保留。 等式的两面都在驱动,等式的两面都将利用所有这些新功能。

首先,我们有典型的SAS旋转磁盘,现在它们已高达10 TB。 如果您尚未看到,Western Digital HGST拥有他们所说的氦气驱动器,现在可达到约10 TB。 旋转磁盘的成本变得越来越低。 如前所述,固态磁盘最多可以达到2 TB,但三星很快就会有20 TB的单元。 费用正在变得合理。 我要谈的另一件事不是闪存盘的概念。 PCIe,即PCI Express,与NVMe相比,您可能听说过这种非易失性存储器。 基本上,NVMe将取代SAS和SATA,实际上它比其他任何东西都更像是一种通信协议。 但是现在这些磁盘已高达约3 TB。

您可能还已经看到,某些SAS驱动器现在带有U.2连接器,该连接器与支持标准磁盘NVMe的SAS或SATA的连接器有所不同-当然,磁盘也必须支持它。 然后是带有M.2连接器的SATA,这些都开始使用NVMe。 实际上,现在有一些笔记本电脑供应商正在销售其中装有NVMe闪存盘的笔记本电脑,与您以前使用的技术相比,这些东西会大打折扣。

许多人不知道所有这些不同的闪光是什么。 如果您在右下角看,那是M.2的示例。 您可能会说:“哎呀,它看起来很像它左侧的mSATA驱动器。”但是正如您所看到的,它的针脚上有两个间隙,而不是一个,而且更大一些。 而且,M.2可以采用三种不同的尺寸。

然后是PCI Express闪存和NVMe闪存。 现在,NVMe闪存也是PCI Express,但是PCI Express通常仍然是为旋转磁盘编写的SAS或SATA型控制器算法,而NVMe是专门为闪存编写的算法或技术。 再次,您将看到所有这些。

NVMe提供了很多东西。 我认为最大的两个改进是,在右上角,延迟减少了多达70%。 实际上,我看到的甚至比这还高。 另外,如果您查看右下角的内容,则当您的操作系统与NVMe磁盘进行通讯时,它通过的软件级别将大大减少。 基本上,您要通过操作系统附带的NVMe驱动程序,它直接与媒体对话。 有很多原因导致这项技术将彻底改变数据库世界。

很多时候,人们会说:“嗯,NVMe有多快?”您知道,过去的美好时光,可以追溯到2004年及之前,如果我们拥有每秒300兆字节的Ultra-320 SCSI,我们会感到非常兴奋。 当今的速度,你们中的许多人可能都在光纤或InfiniBand上,并且达到了顶峰。 右侧的NVMe从当前技术的终止处开始。 我要说的是,具有八车道链接的PCI Express 3.0的起价将近8000,并且随着我们获得PCI Express的新版本,第四版本等而不断提高。 NVMe除了无处可去。

现在,数据库中发生了哪些变化? 现在,在幻灯片的右上角,我提出了我认为该技术已出现的商业原因。 在这种情况下,由于数据仓库和强制保留数据的法规原因,数据库开始在其中提供压缩。 现在,有些数据库将压缩作为附加组件提供,有些则将其作为标准的内置组件提供,比如说企业版数据库,而某些数据库(例如Oracle)甚至可以提供更好的压缩版本,即例如,在Exadata平台中,他们实际上已经构建了可以支持非常专业的压缩的硬件,例如,Exadata中的硬件获得了40倍的压缩率,因此非常重要。 我认为这是强制性的数据保留,人们只是想要更长的数据。 为了进行分析和商业智能,企业需要最后5、10、15年的数据。

现在,在2008年,2009年左右开始出现的另一个功能是分区。 再次,您将在Oracle,SQL Server等数据库中找到该数据库,并且在这两个数据库中都需要为此付费。 在Oracle中,您必须购买分区选项;在SQL Server中,您必须使用数据中心版本。 这是您传统的分而治之的技术,您所要做的就是在顶部具有逻辑大表的概念,将其放入磁盘后,实际上就分解成了多个存储桶。 您会看到,这些存储桶是按照某些分隔条件(通常是引用或称为分区功能)来组织的,然后,同样,您也可以在某些数据库平台中进行子分区,甚至可以进行进一步的操作。

同样,我认为数据仓库和强制性数据保留都推动了这一点,并且在某些数据库中,您最多可以有64, 000个分区,而在其他一些数据库中,甚至可以有多达64, 000个子分区。 这使您可以将数据分解为可管理的部分。 您还将对索引进行分区; 这是一个选择,您不必这样做,但也可以对索引进行分区。 这样做的原因之一可能是您拥有滑动的数据窗口。 您希望保留10年的数据价值,但是为了删除索引以运行今晚的批处理负载,您不必只在当前存储桶中的每一行上都删除索引。 分区实际上是一个非常好的管理工具,尽管大多数人认为分区的巨大好处是在您的计划中放弃了分区消除,从而加快了查询速度。 这真是锦上添花。

现在您可能听说了分片,并且您可能会想,“好吧,为什么将这张幻灯片放在这里?”这是NoSQL之一–这是那些Hadoop类型的环境之一。 Oracle 12c发布了两个版本,这还不是G8,但是正在显示或预览的版本中确实有分片。 您将拥有像Oracle这样的传统数据库系统,并且能够像在Hadoop模型中一样进行分片,因此,您将拥有另一种分而治之的技术,它将拆分您的逐行将其分为每个节点的分组,就像在某些NoSQL数据库中看到的那样。 实际上,对于MySQL,您实际上可以使用他们的一种群集技术来完成这项工作,但是它已经进入了传统数据库,我的猜测是Microsoft不会被抛在后面。 这两个人一直在互相跳蛙,所以我希望在下一版本的SQL Server中能看到分片。

数据生命周期管理,再次是强制性数据保留,还用于商业智能和分析。 确实,这是一种分而治之的技术,通常DBA会手动执行此操作,也就是说,“我将把今年的数据保留在快速磁盘上,将去年的数据保留在稍慢的磁盘上,也许我会可以将最后两年的数据保存在更慢的磁盘上,然后我将采用一些存档方法。”通常不再使用磁带,通常是–使用某种类型的网络连接存储或具有很多功能的设备存储,并且成本效益高,但它仍在旋转磁盘。

因此,现在您实际上可以在Oracle和SQL Server上购买定义规则的选件,而这只是在后台自动发生。 您无需再编写脚本,也无需执行任何操作。 而且,如果您看过6月初发布的SQL Server 2016,则有一个名为“ Stretch Databases”的新功能,它基本上可以使您(在该页面的右下角)可以从多层直接迁移到云中再说一次,这是内置于数据库中的一项功能,您只需说一句类似的话:“如果数据已存在365天以上,请将其移至云中,并且您会自动为我完成此操作。”

这将是一个非常酷的功能,实际上,我在想,这可能是我们将来要看到的功能,也就是说,您将拥有混合数据库,其中将保留一些本地信息。还有一些在云中。 在此之前,人们曾想过:“哦,我要么在内部部署,要么在云上部署。”现在,我们看到两种技术以这种混合方式结合在一起。 我认为这将是一个很大的规模,并且微软首先到达了那里。

编辑,这是由于数据保护和合规性。 现在,在过去的好日子里,我们可能会说:“嘿,应用程序开发人员,当您在报表中显示此内容时,当您在屏幕上显示此内容时,您应该检查一些安全事项,请知道,仅显示数据好,像往常一样,当您将其推送到应用程序时,它并没有在一个地方完成,因此它会以不同的方式完成,或者没有完成。在某些地方还没有完成。 因此,现在您实际上已经在数据库系统中获得了此功能。

现在,在SQL Server 2016中,此功能已内置,因此,它不是数据中心新增的可选费用项目; 在Oracle 12中,您必须购买他们的生命周期管理插件,但这是新事物,并且再次由业务驱动。 特别是因为您现在要保存大量数据,并且正在进行数据挖掘,因此BI和分析必须知道谁正在访问哪些数据并确保只允许他们查看什么。他们被允许看到。

同样,再次来看一下数据保护和合规性。 您会发现现在很多数据库系统正在构建压缩,或者很抱歉,直接将加密加密到数据库中,如果您查看写入它的关系图上的向下箭头和向上箭头,那么此加密的重要意义到磁盘加密,然后将其读回内存并解密。 实际上,这是一个模型,还有另一种模型,只有在它通过网络将数据传递到实际的客户端应用程序时,它才会执行。

在那种情况下,它甚至还可以在内存中的数据库服务器上进行加密,并且只有在将其发送到客户端应用程序时才能解密。 这里有两种不同的模型,您可以在数据库中找到它们,事实上,最近刚刚添加的数据库之一是MariaDB,其版本为10.X; 我相信他们现在是10.1或10.2。 而且我实际上对此加密做了一些基准测试,为了获得这种加密,我仅经历了吞吐量或速度下降了8%左右的情况。 在基准测试中,加密不会引起太大的影响,因此这是一个非常有用的功能。

现在,我们在前面提到了有关闪存和SSD的信息。 很多人没有意识到的Oracle和SQL Server中的功能之一就是您可以使用数据库服务器上的闪存或SSD,并且可以对数据库说:“就好像它们是内存一样使用。 将RAM视为优先级,但假装这是慢速内存,并将其用作扩展缓存。”现在,在SQL Server 2014中,它问世了,它被称为“缓冲池扩展”,它是免费的。 在Oracle中,它是在11g R2中推出的,它被称为“数据库闪存缓存”,并且在那里免费提供。

不过,我的建议是仔细测试该功能。 每次进行查找时,每次使缓存更大时,它都将花费更长的时间。 如果您将一个3 TB的闪存卡放入数据库,并说“将其添加到内存中”,实际上您可能会发现由于由于需要查看时间而使速度变慢,并且看到它在闪存中,脏了还是脏了。清洁? 有一点是收益递减。 我的建议是再试一次,看看有什么用,但再次出现在您的数据库中;对于Oracle,在SQL Server和Oracle中已经存在了几年。

然后把我们带到内存数据库的祖父那里,那是因为数据库价格下降了。 您可能认为发生这种情况的另一个原因是,许多分析要求非常快速地访问数据,因此它必须在内存中。 请注意,数据库用于访问此数据,对其进行压缩,对其进行加密,对其进行存储的算法,您知道在某些情况下某些数据库可能会继续将内存存储为一行。

在某些情况下,某些数据库可能会将其分解为面向列的数据库,而这样做的原因是,它们通过按列顺序与行顺序进行存储而获得了更高的压缩级别,大约在11到12倍之间。 它首先出现在SQL Server 2014中,被称为“ Hekaton”。在SQL Server 2016中得到了根本的增强,他们会看到它被一些不同的名称引用,并在Oracle 12c中出现。 我说的是这里的第二个版本,而不是R2。 Oracle 12c有两个不同的版本,即12.1.0.1和12.1.0.2.。 这是数据库R1版本的第二个版本。

而且,在两个数据库中,内存对象的定义方式相似。 在这里,您可以在右上角看到我正在创建一个SQL Server,并且可以看到它说的是内存优化且持久性仅是模式。 我不会讨论所有这些语法含义,而在Oracle中实际上更简单,您只需更改一个表并在内存中说或不说,就可以更改它。 我可以说今天是内存中,明天不是,因此它非常灵活。

我使用内存表在Oracle上进行了一些测试,运行了将近40分钟的测试,排在第一行。 现在重要的是,当我到达最下面的两行时,我已经增加了运行时间或将运行时间减少了大约五分钟,当我查看压缩因子时,内存中的数据实际上是3.6缩小至4.6倍。 这很重要,因为在这种情况下,我使用的是面向列的格式及其压缩。 那你猜怎么着? 实际上,我存储的内存几乎是四到五倍。 我不仅获得了内存中的优势,面向列的优势,而且还获得了更多数据的优势–内存缓存中的数据多达五倍,因此这是一项非常强大的技术。 再次强调一下Oracle和SQL Server,它们确实是很酷的功能。 有了这些,我想我将提出很多问题。

埃里克·卡瓦那( Eric Kavanagh):伯特,首先,您在所有精彩的教育中都变得非常无私。 您能谈一谈你们的工作吗? 因为您拥有一些可以促进您一直在谈论的内容的支持技术。 只需谈论一下您的工作,然后让Dez和Robin进入方程式即可。

Bert Scalzo:是的,我在IDERA的一家公司工作。 我们位于德克萨斯州,总部位于休斯敦,实际上我现在坐在奥斯汀,但我的总部位于达拉斯。 我们制造数据库工具,并制造数据库工具来帮助您解决问题。 这个问题可能和生产力一样简单,在这种情况下,我们有一个名为DBArtisan的工具可以让您执行数据库管理任务,并且它是可以管理12个不同数据库平台的工具。 我可以管理SQL Server,可以管理Oracle,可以管理MySQL,DB2,Postgres,并且我使用的是一种工具,一种可执行文件,一种GUI设计和一套一致的工作流程。 我们还提供实现合规性的工具,我们有一个名为SQL Compliance Manager的工具来帮助您满足合规性需求。 另一个名为SQL Security的工具,因此我们尝试制作可帮助您高效工作的工具,如果您访问我们的网站,那真的很不错,我们这里有很多免费软件,因此,如果没有其他功能,请下载–我认为我们有20或25个免费软件。 这里有一些非常好的免费软件,例如SQL Server和Windows帮助检查,它基本上只是查看您所拥有的内容并告诉您是否有问题或事物,并且它是完全免费的。

埃里克·卡瓦纳(Eric Kavanagh):你真的是-

Bert Scalzo:绝对是第一件事

埃里克·卡瓦纳(Eric Kavanagh):您现在谈论的是市场的异质性,过去曾经有一种千篇一律的方程式,实际上,我记得在2005年迈克尔·斯通布雷克(Michael Stonebraker)博士去世时曾采访过他大力推动谈论有关面向列的数据库运动的判决,他谈论了多年以来“一刀切”的关系模型如何占主导地位,并且他预测这一切都会改变,而男孩则是对的。那。 现在,我们有了一个非常多样化和有趣的环境,有很多不同的选择和机会,但是您确实需要有人来管理所有这些,而且在我看来,您的公司非常专注于解决数学问题,因此可以推动数学的发展。异构头,对不对?

伯特·斯卡尔佐:绝对。 我的意思是总会有DBA说“我不想使用GUI工具,我用脚本做所有事情”,您知道吗? 他们认为他们是DBA的超人类型,这很好,但是对于我们大多数人来说,我们只想完成工作,而且–您知道,我使用Microsoft Word编写文档。 我使用Microsoft Outlook来发送电子邮件。 我的意思是,我有执行任务的工具。 我们正在建立相同的概念,正在为数据库管理员和开发人员构建工具,以帮助他们专注于他们想做的事情,而不是他们必须做的事情。

埃里克·卡瓦纳(Eric Kavanagh):这是有道理的,但让我转交给我们的专家,大家可以随意参与。我们收到了一些来自观众的评论。 也许Dez有几个问题,Robin有几个问题?

Dez Blanchfield:好的。 鉴于您拥有丰富的经验,我想向您提出的第一个问题是,您很快就会意识到其中的任何一点都会变慢的时间点吗? 还是您认为我们真的正处于这种不断增长的变化线的切入点? 我认为公司所面临的最大问题之一,而总是试图支持为那些公司提供业务运营技术的人们所面临的最大变化是,变化的速度如此之快,以至于他们跟不上所有事物。出现了不同的功能,软件,系统,框架,体系结构以及新代码,然后是其下的硬件,您是否看到当前的变化速度立即降低了? 我的意思是,您可以使用整个IDERA套件处理如此广泛的平台,是我们很快就要放慢脚步,还是很长一段时间都在这种疯狂的失控货运列车上?

伯特·斯卡尔佐(Bert Scalzo):我认为我们正处于增长曲线的前20%,而且还有很长的路要走,有两方面的推动力。 技术在不断发展。 您已经提到了一些即将出现的新的内存类型,这将是很棒的。 三星很快就会在这里拥有20 TB的闪存驱动器。 那将改变一切。 我们已经拥有了所有这些NoSQL和云数据库,这将继续下去。 不过,一件有趣的事是,当我查看Oracle和SQL Server等数据库以及其他一些数据库时,它们实际上不再是关系数据库。 我可以将非结构化数据放入Oracle,但仍保持ACID合规性。 如果您在20年前告诉我,我只是说您正在吸毒。

Dez Blanchfield:是的,他们很酷。 好吧,即使现在,那些具有相当不错的利基垂直市场的引擎(例如GIS),也比现在的本机功能要好。 您对DBA所面临的挑战以及我们希望在各地看到的DBA的不同时期发表了一些很棒的评论,但是与您所处理的业务层次类似的世界是什么样子? 我的意思是,这些人使用的平台从诊断管理器到清单工具,再到碎片整理,一路走来,DBA如何应对这种变化以及他们如何处理这些平台-您知道,他们在使用您的工具做什么以应对这种格局的重大转变?

伯特·斯卡尔佐(Bert Scalzo):好,我要回溯将近20年前,然后我要说的是DBA解决了组织中非常具体的角色。 他们通常使用一个数据库平台(可能是两个),并且管理相对较少的数据库。 现在到数据库管理员为止,他实际上将要了解10个数据库平台。 他正在管理,这在某些情况下是成千上万个数据库,这不是开玩笑。 that's more on the SQL Server world or the MySQL world. But still in the Oracle world they could be managing hundreds of databases. And so they've got all these new features coming out, they've got all these new platforms, and they've got all these databases they're responsible for. They're looking for tools to enable their productivity and also to help them learn some things.

And I'll give you an example – if I want to partition a table it's a pretty obscure syntax, and if I want to sub-partition it, the syntax gets even more difficult. I know what I want to do, I want to create buckets. If I've got a tool like DBArtisan that says, “Hey, here's a nice screen that lets you concentrate on what you're trying to do rather than how you're trying to do it, and oh by the way, push the Show SQL button when you're done and we'll show you what the SQL was so you can start to really learn and master this.”

DBAs are finding that tools that help them get the job done but also help teach them all this new stuff that they're using and the same would be true – let's say I'm an Oracle guy and I go over to MySQL and say, “Okay, create a database, DBArtisan. Now show me the SQL because I wonder what it is like to create a database on MySQL and I just learned to syntax.” And so we're not only helping them to work across database, we're also educating them across database.

Dez Blanchfield: It gets even more interesting when you get out to some of the more modern – or not more modern, that's not a fair thing to say – but once upon a time a database is a database. These days I see everything you're talking about there with the added challenge that the technology stacks that we traditionally see from vendors and you sort of open source into it and also that they're good. Not just deal with the database engines and the query languages, but they also deal with the data types, the structured and unstructured, you know, the challenge of having to deal with everything from the far end of the spectrum of a multi-petabyte HDFS environment to little tiny containers, and packet files and various log file formats.

And I think that that's something now we're seeing where just no human being, no matter how much of a superman, superwoman, whatever they might think they are, they physically, they just can't mentally deal with that rate of change and the scale of variations. I think the suite of tools you're offering now are going to get to a point where they'll almost be on a default set of in many ways so that we can't run the database environments we got without them because we just physically can't throw that many bodies at them. I really enjoyed your presentation. I'm going to pass to Dr. Robin Bloor, I'm sure he's got plenty of questions to throw at you as well.

Robin Bloor: Okay. Well I certainly have questions. Bert, I don't know where you're going – I had a really interesting conversation a couple of days ago where someone started telling me about the latest DU data protection, and it seemed to me from what they were saying that it was incredibly draconian in terms of things they insisted on. I wondered if you'd actually looked at that; is it something you're familiar with?

Bert Scalzo: Absolutely. 是的

Robin Bloor: 2016, Okay, tell us about it.

Bert Scalzo: And I've actually-

Robin Bloor: Deeply interesting.

Bert Scalzo: I actually worked for a while for a flash vendor, in their database area helping them build flash products for databases, and I can tell you that the draconian goes all the way down. What I mean is, if you remember my one slide, I said in some databases it will do the encryption but it puts it into the server memory and in some databases the encryption – it's still encrypted in the server memory, it only gets decrypted when it gets sent to the client. Well what you'll also find is some of these government standards, especially Department of Defense or military here in the US, they also go all the way down to the flash level and they want to know not only that you support encryption and decryption in your hardware, but that if someone stole the chips that – you know, pulled them out of the thing, out of your server, that what's there is encrypted and so even though they've got the storage it can't be and they would all the way down to the actual – not to the flash part itself but down to the individual chips. They wanted to know that chip by chip, everything was encrypted.

Robin Bloor: Wow. I mean there are a lot of things that – you know, I think it was only one or two slides that you've brought up about this, but it was something, a scenario that I think is really interesting. The redacting of information for instance, there's got to be a little bit clever than just masking off various fields because especially with machine learning nowadays, you can do deductive things that allows you to surface information that you couldn't previously surface.

If you're trying to protect, let's say health information, then that's a very, very draconian rules in the US with regards to health information, but you can actually, using various machine learning techniques, you can often work out who's somebody's medical information actually is. I just wondered if you've got anything to say about that because they all think that's an interesting area.

Bert Scalzo: Yeah, absolutely, and I'm just using this as example, I'm not trying to say one database is better than another, but this is a very good example for what you just asked. In Oracle, if I am not allowed to see a row of data for example, like I'm not allowed to see the John Smith medical record. In Oracle if I say, “Select that record, ” I'll be blocked or I'll be allowed to see what I'm allowed to see and it will be redacted. And if I say, “Select account star from the table where equals John Smith, ” I'll get zero.

In SQL Server, it can do the redaction but it has some holes. If I say, “Select account star from the table where it equals John Smith, ” I'll actually get back a one, so I know there's a John Smith. One is more secure than the other. Now I expect them to fix that, they always play leap frog with each other. And again, I'm not trying to differentiate between the databases other than to show an example of – look at what we're talking about now, something as simple as select account has to also be cut by the redaction, even though, technically speaking, there's nothing being redacted other than the existence of the row.

Robin Bloor: Yeah, right. That's kind of interesting. I mean, another general question because I don't got a lot of time, is really just about the improvements. I mean you've been in one where I know that you've been showing us examples of various test results you've run – do you think that the traditional databases, let's call them the dominant databases, SQL Server and Oracle, do you think that they're going to stay ahead of the completion? Or do you think they're actually going to get caught by one or another of various kinds of disruptions in the marketplace that really run for them? What's your opinion?

Bert Scalzo: I have an opinion and it's – you know, again I'm going to say it's my opinion – Microsoft for example, in the post-Ballmer era is just impressing the living hell out of me. I mean this stretch database getting SQL Server on Linux, getting .NET over on Linux, getting PowerShell over on Linux; I don't think that traditional database vendors are going to get left behind. I think they've decided, “Hey, let the new guys, the startups define something. Let them figure out what sharding is and how it should be perfected, and once they've done all the research and development, we know exactly what users want, now let's add sharding to Oracle.” I think they're just getting smart and saying, “Hey, being second or third is not bad when you're the dominant player because then people won't migrate off of you.”

Robin Bloor: Yeah, I mean it is a strategy that has been used. I mean IBM used to do that and the whole of the – for the whole of their product ranges and it does rate reasonably well until somebody comes up with something that's just completely off the wall that nobody's ever thought of, but you can't plan against that anyway.

Questions from the audience, Eric?

Eric Kavanagh: Yeah, but you've got time I think just for one maybe and I know that Bert has to run. There was something in here about – okay, the sharding architecture on Oracle 12c is that an indication of – or what is that an indication of in your opinion, what do you think is happening there?

Bert Scalzo: Well, Oracle is absorbing or/and offering everything that all the other database vendors are. For example, I can put unstructured data in Oracle. I don't know how you can put unstructured data and then call it a relational database, so it doesn't make any sense, but you can. And now Oracle is adding sharding, so Oracle is saying, “You know what? Whatever the market wants, we will make our database offer because the market wants what the market wants and we want to deliver the solution, we want them to stay with us.”

I think that you're going to see additional items. I would not be surprised to see Hadoop-like clustering of database nodes not in an Oracle rack or real application cluster, but basically in more of a traditional Hadoop-type clustering doing that sharding. And so I think you'll be able to deploy a database like Oracle like you would a Hadoop, and these kind of trends are going to continue. These big database vendors, they make billions of dollars and they don't want to lose their market, so they're willing to adapt to anything or adopt anything.

Eric Kavanagh: Well, you know, it's funny because I've followed the open-source vendors for quite some time and have wondered all that while how big of an impact it will have on traditional closed-doors technology, and for a while it sure felt like the open-source vendors were making some serious headway, and now as I look at the marketplace I see kind of what you're saying, that the big guys have done their math, have sharpened their pencils and they figured out how they can weave a lot of that stuff into their architectures. Whether it's IBM, or Oracle, or SAP – I was just at the SapphireNow Conference last month and Steve Lucas, who heads half of that company, bragged that SAP now incorporates in their HANA cloud platform, more open-source components than any of their competitors. If you do the math on that, it's a pretty impressive statement and it tells me the big guys aren't going anywhere anytime soon.

Bert Scalzo: No, I would bet my money on both. I mean if you look, Microsoft's stock recently was at about $50 and, you know, just a few years ago it was at 25. You don't double your stock price in a short period unless you're doing good things and, you know, from doing everything from Windows 10 being free for the first year to all the other smart things they're doing, this stretch database feature I think is just phenomenal. I think what's going to happen is a lot of people are going to end up in Azure, not directly, not like they said, “Let's migrate my database over to Azure.” It's going to migrate over there magically because it's going to get archived over there using this new stretch database feature and so the adoption of Azure is going to just skyrocket.

Eric Kavanagh: Well that's one of the trends in the marketplace that even I can see, even on your Mac. As you go in your Mac to save some documents, they now – and the newer Macs just follow through the cloud, right? I mean, there's a lot of sense in that strategy and I also look at it and go, “Okay guys, you're trying to lure me piece by piece into your cloud environment, and then someday when I want to watch some movie if my credit card is expired I'm going to be in trouble.”

Bert Scalzo: Yeah, but you do it on Facebook.

Eric Kavanagh: Yeah. 确实如此。

Bert Scalzo: You put everything on Facebook.

Eric Kavanagh: Well, not quite everything.

Bert Scalzo: No, I mean-

Eric Kavanagh: Yeah, go ahead.

Bert Scalzo: These social trends are reaching into businesses. Now businesses still have a lot of other things they have to do, but they're seeing these trends and they're doing the same kinds of things. I don't see either Oracle or Microsoft going away. In fact, I'm going to be buying stock on both each time there's a dip.

Eric Kavanagh: Yes, indeed. Well folks, go to idera.com, IDERA dot com. Like Bert said, they have a whole bunch of free stuff up there and it's one of the new trends in the marketplace – give you some free stuff to play around with, get you hooked, and then you go buy the real stuff.

Folks, this has been another Hot Technology. Thanks for your time today, Bert, Dez of course, and Robin as well. We'll talk to you next week, folks, lots of stuff going on. If you have any ideas, feel free to email yours truly, . We'll talk to you next time folks, take care. Bye-bye.

前进的动力:将关系超越传统