资料库 建议的力量:数据目录如何赋予分析师权力

建议的力量:数据目录如何赋予分析师权力

Anonim

通过Techopedia Staff,2016年6月22日

总结:主持人丽贝卡·乔兹维克(Rebecca Jozwiak)与Dez Blanchfield,Robin Bloor和David Crawford讨论了数据目录的优势。

您必须注册此事件才能观看视频。 注册以观看视频。

丽贝卡·乔兹维克(Rebecca Jozwiak):女士们,先生们,您好,欢迎来到2016年热门技术。今天,我们得到了“建议的力量:数据目录如何赋予分析师权力。”我是主持人丽贝卡·乔兹维克(Rebecca Jozwiak),为我们通常的主持人埃里克(Eric)今天,卡瓦纳(Kavanagh)环游世界时,感谢您加入我们。 今年很热,不仅在我所在的德克萨斯州很热,而且到处都是热。 涌现出各种各样的新技术。 物联网,流数据,云采用,Hadoop持续成熟并被采用。 我们拥有自动化,机器学习功能,所有这些东西当然都由数据来强调。 而且企业每天都在驱动越来越多的数据。 当然,这样做的目的是引导知识和发现,并做出更好的决策。 但是,要真正从数据中获取最大价值,必须很容易做到。 如果将它锁在企业内部,或者埋在企业中,或者放在企业内部的某些人的大脑中,那么对于整个企业来说,这不会有什么好处。

我当时想的是数据分类和图书馆的流程,很久以前,如果您需要查找一些东西,需要研究某个主题或查找一些信息,就去那里了,当然您也去过名片目录,或去过那里工作的crabby女士。 但是游走也很有趣,如果您只是想看一下,并确定自己可能发现了一些整洁的东西,那么您可能会发现一些您不知道的有趣事实,但是如果您确实需要找出一些东西, ,您就知道要查找的内容,因此需要卡片目录,而企业目录当然是数据目录,它可以帮助您掌握所有数据,以供我们的用户充实,发现,共享,消费并真正提供帮助人们可以更快,更轻松地获取数据。

因此,今天我们有了我们自己的数据科学家Dez Blanchfield,还有我们自己的首席分析师Robin Bloor医生,还有Alation的David Crawford,他将谈论他公司的数据编目故事,但首先我们将与Dez一起开始。 Dez,我把球传给了你,地板是你的。

Dez Blanchfield:谢谢你,谢谢你今天给我的礼物 。 这是我非常感兴趣的问题,因为在我的日常工作中遇到的几乎每个组织,我都发现了与我们在展会前玩笑中简短谈到的完全相同的问题,那就是从事业务已超过几年的大多数组织在组织中埋藏了大量的数据,格式不同,实际上,我的客户的数据集可以追溯到Lotus Notes,而数据库仍在某些地方运行作为伪互联网的案例,它们都面临着这样的挑战:实际查找其数据在哪里,如何获得数据,由谁提供数据访问权,何时提供对它们的访问权限以及如何公正目录,以及如何将其发布到每个人都可以使用的地方:A)了解其中的内容和其中的内容,以及B)如何访问和使用它。 当然,最大的挑战之一是找到它,另一个巨大的挑战是了解其中的内容以及如何访问它。

我可能很清楚,我有很多数据库,但实际上我不知道其中有什么数据库,也不知道如何找出其中的数据库,因此,正如我们现在在预展数据中发现的那样,您总是倾向于经常在办公室里走来走去,问问题,在立方体的墙壁上大喊大叫并尝试弄清楚,通常我的经验是,您甚至可能发现自己正徘徊在前台,接待处,问是否有人知道谁你要去和他们说话。 通常,IT人员并不总是这样,因为他们不知道数据集是因为有人刚刚创建了数据集,而且它可能很简单-很多时候,我们会发现某种项目可以在IT环境中站稳脚跟,项目经理使用了所有事物的电子表格,并且已经获得了大量有关资产,上下文和名称的有价值的信息,除非您知道该项目并且认识那个人,否则您将找不到这些信息。 它只是不可用,您必须拥有该原始文件。

关于数据,有一个短语被嘲笑,我不一定同意,但是我认为这是一个小小的抛弃,那是一定数量的人认为数据是新的石油,而我当然,今天晚些时候,我们还将在某些方面进行介绍。 但是,我注意到,当然是这种转变的一部分,是那些学会珍惜其数据的企业组织已获得了超越竞争对手的巨大优势。

大约五,六年前,IBM发表了一篇有趣的论文,他们对澳大利亚的4, 000家公司进行了调查,他们将所有信息,所有绩效数据,所有财务数据汇总在一起,然后放在一个沸腾的锅中,然后将其发送给澳大利亚经济学院,他们实际上在这里开始了一个共同的趋势,那就是利用技术的公司总是获得与同行和竞争对手相比如此的竞争优势,以至于竞争对手几乎永远无法追赶,我认为如今,数据的情况大都如此,我们已经看到了人们所说的数字化转型,组织已经清楚地弄清楚了如何找到他们拥有的数据,使这些数据可用并以某种非常容易使用的消耗性使其可用不必总是知道组织为什么会需要它,并获得了超越竞争对手的明显优势。

在这张幻灯片上,我有几个示例,您可以看到。 我的观点是,在我看来,几乎每个行业领域的大规模中断都是由数据驱动的,如果要顺应当前趋势,我的观点是,我们实际上只是之所以开始,是因为当长期存在的品牌最终意识到这意味着什么并进入游戏时,他们将以批发方式进入游戏。 当一些拥有大量数据的主要零售商开始对数据进行历史分析时,如果他们甚至知道数据的存在,那么一些在线参与者就会收到一些警钟。

但是,对于大多数这样的品牌,我的意思是说我们拥有的Uber是世界上最大的出租车公司。 他们没有出租车,那么让他们产生魔力的是什么?他们的数据是什么? 最大的住宿提供商Airbnb,我们拥有世界上最大的电话公司WeChat,但他们没有实际的基础设施,手机,电话线。 阿里巴巴是地球上最大的零售商,但他们没有任何库存。 Facebook,世界上最大的媒体公司。 我认为,根据最新统计,他们现在拥有14亿活跃数据用户,这是一个令人难以置信的数字。 它并不遥远–我想有人声称每天实际上有四分之一的星球都在那儿,但是这里的内容提供商实际上并不创建内容,他们提供的所有数据不是由他们创建的,而是由他们创建的由他们的订户,我们都知道这种模型。

您可能未曾听说过的SocietyOne,是一个本地品牌,我认为在一些国家中,这是一家实际上从事点对点贷款的银行,也就是说,它没有钱。 它所做的只是管理事务,数据位于其下方。 Netflix,我们对此非常非常熟悉。 这里有一个有趣的单线。 当Netflix可以在澳大利亚合法使用时,当它正式宣布时,您不必使用VPN即可使用它,世界各地的许多人都倾向于-如果您在本地无法使用它–当Netfix在澳大利亚推出时,它使我们的互联网链接上的国际带宽增加了40%,因此它在一夜之间几乎使澳大利亚的互联网使用量翻了一番,仅一个应用程序,一个云托管的应用程序只处理数据。 这只是令人难以置信的统计数字。

当然,我们都对Apple和Google熟悉,但是它们是地球上最大的软件公司,但实际上并没有编写应用程序。 所有这些组织的一致之处是什么? 嗯,这是数据,他们之所以没有到达那里,是因为他们不知道数据在哪里,也不知道如何对其进行分类。

我们现在发现的是,存在整个全新的资产类别,称为数据,并且公司正在意识到这一点。 但是他们并不总是拥有用于绘制所有数据,对所有数据进行分类并使其可用的工具,专有技术以及因此而来的工具,但是我们发现,几乎没有实物资产的公司在这些方面获得了很高的市场价值。通过此新数据资产类别记录时间。 正如我已经说过的,一些老玩家现在已经意识到这一点,并且肯定会把它发挥出来。

我非常喜欢带一些人去旅行,所以在18百个,18百个后期中,您将对美国市场更加熟悉,事实证明要进行人口普查我认为他们每年大约需要每十年运行一次,但是如果您要每年进行一次人口普查,则可能要花费八到九年才能进行数据分析。 事实证明,该数据集随后被留在了纸上的盒子中,几乎没人能找到它。 他们只是不断地提取这些报告,但是实际数据却很难获取,我们在1940年代的第二次世界大战中遇到了另一个世界重要时刻,情况与此类似,而这就是Bletchley Park Bombe拼写的BOMBE ,它是一个庞大的数字处理分析工具,可以处理小的数据集并在其中查找信号,并用于帮助通过Enigma破解代码。

再说一遍,从本质上来说,这是一种设计的设备,不是要进行分类,而是要对数据进行标记和映射,并且可以采用模式并在数据集中找到它,在这种情况下,可以使用断码,查找键和短语并查找定期将它们存储在数据集中,因此我们经历了寻找数据中事物并进行数据分类的过程。

然后出现了这些东西,这些巨大的低成本机架,只是现成的机架。 我们做了一些非常有趣的事情,其中​​之一就是我们建立了非常便宜的集群,可以开始为这个星球编制索引,而且众所周知,这些来来去去的大品牌,但可能是Google最常见的家我们都听说过的品牌–它已成为一个实际的动词,并且当您的品牌成为动词时,您就知道自己是成功的。 但是Google在没有意识到的情况下(可能在商业世界中)教给我们的是,他们能够将整个星球编入特定级别的索引,并对世界范围内的数据进行分类,并可以非常轻松地将其获取,一个小的单行公式的便捷形式,一个几乎没有任何内容的网页,您键入查询,它就会找到并找到它,因为他们已经爬过了行星,对其进行了索引并使其易于使用。

我们注意到的是,“等等,我们在组织中没有这样做–为什么呢? 为什么我们拥有一个可以对整个星球进行地图绘制和索引,对它进行爬网和索引并使其可用的组织,我们可以对其进行搜索,然后单击要查找的东西进行查找,我们为什么会这样因此,世界各地现在有许多这样的小型机架可用于Intranet并查找内容,但实际上,它们仍然只是想超越传统Web的想法页面或文件服务器。

现在不再以多种方式进入下一代数据目录,而是通过便利贴和饮水机对话来发现数据访问不再是用于数据发现和分类的合适方法,事实上,我认为这从来都不是。真的是。 我们再也不能仅仅通过笔记,发布笔记和聊天就将整个挑战带给人们。 现在,我们已经远远超出了真正的下一代数据编录方法的领域。 我们必须做好准备。 如果这是一个简单的问题,我们早些时候已经可以通过许多方法解决,但是我认为这不是一个简单的问题,仅索引和调用数据只是其中的一部分,知道数据中的内容并根据发现的内容构建元数据,然后以简单易用的形式提供元数据,尤其是自助服务和分析。 它仍然是一个尚待解决的问题,但是五年之内的许多难题都得到了切实,切实的解决和利用。

众所周知,人为数据编目是失败的良方,因为人为错误是我们在数据处理中面临的最大噩梦之一,我经常谈论这个话题,在我看来,人们填写纸质表格可能是最大的噩梦我们处理大数据和分析业务,以不断地修复他们所做的事情,甚至简化为简单的事情(例如日期和字段),人们将其以错误的格式放置。

但是正如我已经说过的,我们已经看到互联网搜索引擎每天都在索引世界,因此现在我们想到了可以在发现过程中对业务数据集进行处理的想法,并且现在有了工具和系统在您今天要学习时随时可以使用。 因此,我认为真正的诀窍是为工作选择合适的工具和最佳工具。 最重要的是,找到它的正确部分,以帮助您入门。 而且我相信我们今天会听说,但是在我们这样做之前,我将转交给我的大学Robin Bloor,听听他对这个话题的看法。 罗宾,我可以交给你吗?

罗宾·布卢尔(Robin Bloor):是的,当然可以。 让我们看看这是否有效,哦,是的。 好的,我的方向与Dez确实不同,但最终我会在同一个地方。 这是关于连接数据的,所以我只是想逐步了解连接数据的现实。

事实是,数据比以往任何时候都更加分散。 数据量以惊人的速度增长,但实际上,不同的数据源也在以惊人的速度增长,因此数据一直在变得越来越分散。 但是由于特别是分析应用程序(但不是唯一的应用程序),我们确实有充分的理由连接所有这些数据,因此我们陷入了困境,陷入了零散的数据世界,正如Dez所说的那样,数据中有机会是新石油。

关于数据,它曾经驻留在文件系统或数据库中的旋转磁盘上。 现在,它生活在一个更加多样化的环境中,它生活在文件系统中,但现在也生活在Hadoop实例甚至Spark实例中。 它存在于多种数据库中。 不久前,我们对一些关系数据库进行了标准化,您知道过去五年来这种情况已经消失了,因为需要文档数据库,并且需要图形数据库,所以您知道,游戏具有改变了。 因此它位于旋转磁盘上,但现在位于SSD上。 最新的固态硬盘数量-肯定是三星生产的最新固态硬盘单元-20 GB,这是巨大的。 现在它存在于内存中,从某种意义上说,数据的原始副本可以在内存中,而不是在磁盘上,我们以前没有建立过这样的系统; 我们现在做。 它生活在云中。 这意味着它可以存在于任何这些事物中,在云中,您不必知道它在云中的位置,只有它的地址。

仅仅为了说明这一点,到目前为止,Hadoop作为可扩展的数据存储失败了。 我们曾希望它将成为一个可扩展的横向扩展数据存储,并且它将成为所有内容的一个文件系统,而且它将–彩虹将基本上出现在天空中,而独角兽会跳舞,而这一切都没有发生。 这意味着我们最终会遇到数据传输问题,有时并不需要数据传输,但这也是一个难题。 如今,数据确实确实具有引力,一旦您进入了数TB的数据,将其收集起来并扔掉,就会导致延迟出现在您的网络中或出现在各个地方。 如果要传输数据,则计时是一个因素。 如今,几乎总是存在一些限制,您需要花费多少时间才能将一件事,一个数据从一个地方转移到另一个地方。 过去我们曾经将其称为批处理窗口,当计算机处于闲置状态时,无论您拥有多少数据,都可以将其扔掉,然后一切都可以解决。 好了,这已经过去了,我们生活在一个更加实时的世界中。 因此,时间是一个因素。 一旦要移动数据,那么如果数据具有重力,则可能无法移动它。

从某种意义上说,数据管理是一个因素,您实际上必须管理所有这些数据,您不是免费获得这些数据,并且复制可能是必需的,以便使数据实际完成所需的工作,因为可能不放在任何地方。 它可能没有足够的资源来进行数据的正常处理。 因此,数据被复制,并且数据被复制的程度超出了您的想象。 我想很久以前有人告诉我,平均数据至少要复制两次半。 ESB或Kafka提供了数据流选项,但如今它需要体系结构。 如今,您确实需要以一种或另一种方式来思考数据散列的实际含义。 因此,通常最好是访问数据所在的位置,当然,只要您实际获得数据并且取决于上下文,就可以获得所需的性能即可。 无论如何,这是一个困难的局面。 在数据查询方面,我们曾经能够以SQL的方式来思考,我们现在已经真正提出了,您知道,不同形式的查询,SQL是的,但是相邻的图查询,Spark只是其中的一个示例做图,因为我们比以往更需要做文本搜索,还有正则表达式类型的搜索,这实际上是复杂的模式搜索和真正的模式匹配,所有这些事情实际上正在兴起。 所有这些都很有用,因为它们可以为您提供所需的东西,或者可以为您提供所需的东西。

现在,查询跨越了多个数据,因此并非总是如此,如果这样做,性能通常会令人吃惊。 因此,这取决于环境,但是人们希望能够从多个数据源查询数据,因此一种或另一种数据联合会变得越来越流行。 数据虚拟化也是一种很常见的方法,这取决于性能,这是一种不同的实现方式。 数据查询实际上是流程的一部分,而不是整个流程。 值得指出的是,如果您实际查看的是分析性能,那么实际的分析所花费的时间可能比收集数据的时间长得多,因为这取决于具体情况,但是如果您要执行任何操作,则数据查询是绝对必要的对多个数据源进行的一种分析,实际上,您实际上必须具有跨领域的功能。

关于目录。 目录的存在是有原因的,至少我们是说,有目录,在数据库中有模式,有每个目录,无论走到哪里,您都会找到一个地方,然后您实际上发现存在某种目录,而统一的全局目录显然是个好主意。 但是很少有公司有这样的事情。 我确实记得,在2000年-恐慌的2000年-我确实记得共产党甚至无法确定他们拥有多少可执行文件,不介意他们拥有多少不同的数据存储,现在可能就是这种情况,您知道,大多数公司在全球范围内并不主动知道他们拥有的数据。 但是,实际上,拥有一个全局目录或至少要对由于数据源的增长以及应用程序的持续增长所发生的事情进行全局了解变得越来越有必要,对于分析来说,这一点尤其必要,因为您也是一种方式,并且这里还有其他问题,例如沿袭和数据问题,并且对于安全性而言,数据治理的许多方面都是必要的,如果您真的不知道拥有什么数据,这个想法你要统治它只是荒谬的。 因此,以某种方式对所有数据进行分类只是事实。 问题是目录是否连贯,实际上您可以使用它做什么。 因此,我将回到丽贝卡。

丽贝卡·乔兹维克(Rebecca Jozwiak):好的, 谢谢罗宾 。 接下来,我们有来自Alation的David Crawford,David我将继续前进并将球传给您,您可以将球拿走。

David Crawford:非常感谢。 非常感谢你们让我参加这个节目。 我想我要开始做这件事,所以我认为我在这里的角色是采用一些理论,看看它是如何实际应用的,以及我们能够吸引真正客户的结果,因此您可以看到幻灯片中的一些内容,我想谈一谈我们在分析可能的改进中将看到的结果。 因此,为了激励讨论,我们将讨论他们如何到达那里。 因此,我很幸运能够与许多非常聪明的人,这些客户紧密合作,我只想指出一些能够实际测量的人,并讨论数据目录如何影响他们的分析师。工作流程。 只是暂时停留在最前面,我认为我们看到的变化之一是,数据目录与以前的中介解决方案相比,关系真正考虑我们提出的解决方案的方式之一是从分析师那里开始。然后倒退。 可以说,让我们着眼于提高分析师的工作效率。 与仅遵从法规或仅存有存货相反,我们正在开发一种使分析师更具生产力的工具。

因此,当我与金融服务公司Square的一名数据科学家交谈时,有一个人Nick在告诉我们他的工作方式,他过去花费了几个小时来找到合适的数据集来开始报告,现在他可以使用市场占有率搜索在短短几秒钟内完成,我们与他们的CTO进行了交谈,后者拉动了使用Square的分析师,对不起,使用Alation的分析师,以了解他们的所见所闻,他们看到了什么,并报告了50生产率的提升,以及全球最大的零售商之一eBay,他们有超过一千名定期进行SQL分析的人员,而我与Deb Says密切合作,这是该项目她的数据工具团队的经理,她发现当查询者采用Alation,采用目录时,他们看到对数据库编写新查询的速度提高了一倍。

因此,这些都是真实的结果,这些人实际上是在组织中应用目录的人员,我希望带您了解设置所需的内容。 在公司中如何建立目录,也许最重要的是,它很多是自动发生的,因此Dez谈到了系统,了解了系统,而这正是现代数据目录所要做的。 因此,他们将Alation安装在其数据中心中,然后将其连接到其数据环境中的各种元数据源。 我将重点介绍数据库和BI工具-从这两个数据库中,我们将提取基本上存在的技术元数据。 对,那是什么桌子? 什么报告? 报告定义是什么? 因此,他们提取该技术元数据,并为这些系统内部的每个对象自动创建一个目录页面,然后,他们还提取该技术元数据并将其分层,并在使用数据之上。 这主要是通过从数据库读取查询日志来完成的,这是一个非常有趣的信息源。 因此,每当分析师编写查询时,每当报告工具(无论是自家种植的还是现成的)时,当应用程序运行查询以插入数据以进行操作时,报告工具是否运行查询以更新仪表板数据集–所有这些内容都记录在数据库查询日志中。 无论您是否有目录,它们都将与数据库一起捕获在查询日志中。 数据目录可以做什么,尤其是Alation的目录可以做什么,就是读取这些日志,询问其中的查询,并根据这些日志创建一个非常有趣的使用图,然后我们将其发挥作用,以通知未来的用户有关数据的过去用户如何使用它的信息。

因此,我们将所有这些知识汇总到一个目录中,并且为了使其成为现实,这些都是已经在客户上部署的集成,因此,我们看到了Oracle,Teradata,Redshift,Vertica等关系数据库。 在Hadoop世界中,Hadoop上有一系列SQL,并且在Hadoop文件系统,Impala,Tez,Presto和Hive之上存在一些关系型元存储,我们也看到了像Altiscale这样的云Hadoop私有提供商的成功,并且还能够连接到Tableau服务器,MicroStrategy服务器并在那里索引仪表板,以及与数据科学图表工具(例如Plotly)的集成。

因此,我们连接到所有这些系统,将这些系统与客户连接,引入了技术元数据,引入了使用数据,并自动对数据目录进行了初始化,但是通过这种方式,我们集中知识,但仅将事情集中到数据目录中,本身并不能提供我们在eBay,Square和市场份额中谈到的那些真正令人赞叹的生产力提升。 为了做到这一点,我们实际上需要改变我们向分析师提供知识的方式。 他们为此准备的问题之一是“目录实际上如何影响分析师的工作流程?”

这就是我们一整天都在思考的问题,为了谈论这种推力与拉动模式之间的思想变化,我想快速地比喻一下在Kindle上阅读前后的世界。 因此,这只是您中的一些人的一种体验,当您阅读一本物理书时,您会遇到一个单词,您不确定自己是否知道单词的定义非常好,您可能可以根据上下文进行猜测,而不是您认为要从沙发上站起来,走到书架上,找到字典,将它除尘,然后转到按字母顺序排列的单词列表中的正确位置,以确保是的,您的定义正确无误,并且您知道它的细微差别。 因此,这实际上并没有发生。 因此,您购买了Kindle应用程序,然后开始在那儿读书,然后看到一个词,您不太确定,然后触摸该词。 就在同一屏幕上,突然之间出现了单词的字典定义,包括所有细微差别,示例用法不同,您稍加滑动即可获得有关该主题的维基百科文章,然后再次滑动,您获得了可以将其翻译为其他语言或其他语言的翻译工具,突然之间,您对该语言的了解变得更加丰富,与您不得不去的时候相比,它发生了惊人的次数。为自己拉资源。

因此,我要说的是,分析人员的工作流程以及分析人员处理数据文档的方式实际上与读者如何与字典进行交互(无论是物理字典还是通过字典进行交互)非常相似。 Kindle,因此,我们真正看到这种生产力提高的方式,并不是在浪费目录,而是将其连接到分析师的工作流程,因此,他们要求我在此处进行演示,我想使其成为本演示文稿的重点。 但是我只想为演示设置上下文。 当我们考虑在需要时将数据知识推给用户时,我们认为合适的位置,他们花费时间和进行分析的地方是SQL查询工具。 编写和运行SQL查询的地方。 因此,我们构建了一个,并且构建了它,与其他查询工具真正不同的是它与数据目录的深度集成。

因此,我们的查询工具称为Alation Compose。 这是一个基于Web的查询工具,稍后我将向您展示。 一个基于Web的查询工具,可处理您在上一张幻灯片中看到的所有这些数据库徽标。 我将特别尝试演示的是目录信息提供给用户的方式。 它通过三种不同的方式来实现。 它是通过干预来实现的,在那个地方,数据管理员,数据管理员,某种方式的管理员或经理可以说:“我想在其中插入注释或警告工作流,并确保在正确的时间将其交付给用户。”所以这是一项干预,我们将向您展示。

智能建议是一种工具,在您编写该工具时,该工具会利用其对目录的所有汇总知识来建议查询的对象和部分。 要知道的最重要的事情是,它确实利用了查询日志来做到这一点,根据使用情况提出建议,甚至还可以找到之前编写的查询的一部分。 我们会证明这一点。

然后预览。 在您输入对象名称的同时,预览是向您显示目录所知道的一切,或者至少显示目录所知与该对象最相关的东西。 因此,在您编写数据时,无需亲自索要就可以找到您以前使用过的数据样本,该对象的逻辑名称和描述。

因此,无需再讨论,我将继续进行演示,而我将等待它的出现。 我将在这里向您展示的是查询工具。 这是专用的SQL编写界面。 从某种意义上说,它是与目录分开的接口。 Dez和Robin谈到了目录,我在目录界面上略过了一下,直接介绍了如何直接将其引入以服务于工作流程。

我在这里仅显示一个可以键入SQL的位置,在底部,您会看到我们有点儿出现了一些有关所引用对象的信息。 因此,我将开始输入查询,当我涉及其中一种干预时,我将停止。 因此,我将输入“ select”,然后输入年份。 我要这个名字。 我将查找一些薪水数据。 这是一个教育数据集。 它具有有关高等教育机构的信息,我正在查看这些表之一中的教师平均工资。

因此,我实际上已经键入了“薪水”一词。 我们同时使用逻辑元数据和物理元数据来提出建议。 我想在这里指出的是出现在这里的黄色框。 它说此列上有警告。 我没有去寻找它,我没有上过如何正确使用这些数据的课程。 来到我这里,恰好是关于与此数据有关的保密协议的警告。 因此,有一些披露规则。 如果我要查询此数据,则要从该表中取出数据,我应该小心如何公开它。 因此,您在这里有一个治理策略。 当我在查看数据时了解该法规时,存在一些合规性挑战,因此遵守该策略变得非常容易。

所以我想到了这个,然后我还要去看看学费。 在这里,我们看到了预览。 在此“学费”列上,我看到–机构表上有一个“学费”列,并且正在查看其个人资料。 Alation从表中提取了样本数据,在这种情况下,它向我展示了一些非常有趣的东西。 它向我展示了这些值的分布,并且向我展示了零值在样本中显示了45倍,并且比其他任何值都多。 所以我有一种感觉,我们可能会丢失一些数据。

如果我是高级分析师,那么这可能已经成为我工作流程的一部分。 特别是如果我是一个特别细致的人,我会提前做一堆分析查询。 每当我要处理新数据时,我总是会思考我们的数据覆盖范围是什么。 但是,如果我不熟悉数据分析,或者不熟悉此数据集,我可能会假设如果有一个列,那么它总是被填充。 或者我可能会假设,如果未填写,则它不为零,它为null或类似的东西。 但是在这种情况下,我们有很多零,如果我做一个平均值,如果我只是假设那些零实际上是零而不是丢失数据,那么它们可能是错误的。

但是Alation通过将此预览带入您的工作流程中,是一种要求您查看此信息的方法,甚至可以使新手分析师有机会看到有关此数据的某些信息。 因此,我们有了该预览。

接下来要做的就是尝试找出从哪些表中获取此信息的信息。 因此,在这里我们看到了明智的建议。 它一直在运行,但是特别是在这里,我什至没有输入任何内容,但是它会向我建议我可能要用于该查询的表。 最重要的是要了解使用情况统计信息。 因此,例如在eBay这样的环境中,您在一个数据库中拥有成千上万个表,拥有一种可以从谷壳中击中小麦并使用这些使用情况统计信息的工具,对于使这些变得非常重要值得的建议。

因此,它将建议该表。 当我查看预览时,我们实际上会突出显示查询中已经提到的三列。 因此,我知道它有3个,但没有名称。 我需要输入名称,所以我要加入。 当我进行联接时,现在又有了这些预览,可以帮助我查找带有名称的表在哪里。 因此,我看到这是一个格式正确,大小写正确的名称。 似乎每个机构都有一行名称,所以我要抓住它,现在我需要加入条件。

因此,在这里Alation所做的是再次查看查询日志,查看以前两次将这两个表连接在一起的情况,并提出了不同的连接方式。 再一次,有一些干预。 如果我查看其中之一,则会收到一条警告,告诉我这仅应用于聚集分析。 如果您尝试通过机构来做某事,这可能会产生错误的结果。 如果您想要大学级别的数据,则将带有OPE ID的该表视为连接这两个表的正确方法。 所以我这样做了,这是一个简短的查询,但是我编写查询时并没有真正了解数据是什么。 我从未真正查看过此数据集的ER图,但由于相关信息正在向我介绍,所以我已经对此数据了解很多。

因此,这是目录可以通过集成查询工具在编写查询时直接影响工作流程的三种方式。 但是,将查询工具与目录集成在一起的另一个好处是,当我完成查询并将其保存后,我可以输入“机构学费和教职工薪水”之类的标题,然后在此处有一个按钮请允许我将其发布到目录中。 对我来说,反馈它变得非常容易。 即使我不发布它,它也被捕获为查询日志的一部分,但是当我发布它时,它实际上成为所有数据知识赖以生存的集中位置的一部分。

因此,如果我单击“搜索Alation中的所有查询”,那么我将被带走-在这里您将看到更多的目录界面-我将进入专用的查询搜索,该查询向我展示了一种在整个查询中查找查询的方法整个组织。 您会看到我的新发布的查询位于顶部。 在这里,也许有人会注意到,当我们捕获查询时,我们也捕获了作者,并且在某种程度上建立了我作为作者与我现在知道的这些数据对象之间的关系。 我正在被确立为该查询和这些数据对象的专家。 当人们需要去学习数据,然后他们可以找到合适的人去学习时,这真的很有帮助。 而且,如果我实际上是数据新手,那么我是否是高级分析师–作为高级分析师,我可能会看一下并看到许多示例,这些示例将使我开始使用新数据集。 作为对SQL不太熟悉的人,我可以找到预制查询,这些报表是可以利用的报表。

这是菲尔·马萨内特(Phil Mazanett)撰写的有关SAT分数中位数的文章。 单击此按钮,我将获得查询本身的目录页面。 它谈论的是一篇引用该查询的文章,因此,如果我想学习如何使用它,可以阅读一些文档。 我可以通过单击“撰写”按钮在查询工具中打开它,而无需编辑即可直接在此处运行它。 实际上,您会看到一些我们的轻量级报表功能,在编写查询时,您可以在其中放入这样的模板变量,它创建了一种简单的方式来创建表单以执行基于查询的查询。在几个参数上。

这就是演示的内容。 我将切换回幻灯片。 简要回顾一下,我们展示了管理员(数据管理者)如何通过在查询工具中显示的对象上放置警告来进行干预,Alation如何利用其对数据对象的用法的知识来提出明智的建议,它如何带来分析和其他技巧,以改善分析人员接触特定对象时的工作流程,以及在编写新查询时如何将所有此类反馈回目录中。

显然,我是公司的代言人。 我将对数据目录说些好话。 如果您想直接听取我们一位客户的声音,Safeway的克里斯蒂·艾伦(Kristie Allen)运营着一个分析师团队,并讲述了一个非常酷的故事,讲述她需要花时间来进行营销实验以及她的整个经历团队使用Alation进行协作,并很快完成了该项目。 因此,您可以单击此bit.ly链接查看该故事,或者如果您想稍微了解一下Alation如何将数据目录引入您的组织,我们很乐意设置个性化演示。 非常感谢。

丽贝卡·乔兹维克(Rebecca Jozwiak):非常感谢,大卫。 我可以肯定Dez和Robin会问一些问题,然后再向观众提问。 Dez,你想先走吗?

Dez Blanchfield:好的 。 我喜欢这种发布查询的概念,并将其链接回创作源。 我一直是内部应用程序商店这一想法的长期拥护者,我认为这是在此基础上建立的非常好的基础。

我逐渐了解了您正在看到的一些组织,以及他们在利用工具和平台来发现数据的整个过程中可能获得的一些成功案例。然后也改变他们的内部文化和行为特征。 现在有了您可以下载的这种内部应用程序商店,他们不仅可以找到它,而且他们实际上可以利用这些知识的人开始建立小的社区。

David Crawford:是的,我认为我们感到惊讶。 我们相信共享查询的价值,无论是我过去在Adtech担任产品经理时,还是在与我们交谈过的所有客户中,都令我感到惊讶,但我仍然感到惊讶的是,它经常成为客户最重要的事情之一谈论他们从Alation中获得的价值。

我在一个名为Invoice2go的客户中对查询工具进行了用户测试,他们有一个相对较新的产品经理,他们说–他实际上告诉我,在用户测试过程中没有提示,“我实际上不会除了可以通过Alation简化SQL之外,完全可以编写SQL。”当然,作为PM,我会说:“你是什么意思,我们是怎么做到的?”他说,“好吧,实际上这只是从SQL的空白开始,这是一件非常困难的事情,但是在修改现有查询后,您可以在其中看到输出的结果,并且可以说, “哦,我只需要这个额外的列,”或“我需要将其过滤到特定的日期范围”,这是一件容易得多的事情。

我们已经看到了这类辅助角色,例如产品经理,也许是销售业务人员,他们开始使用SQL,并且一直想学习SQL并开始使用此目录来学习SQL。 我们还看到许多公司都试图做某种开源。 我试图在内部构建这类东西,它们在其中跟踪查询并使其可用,并且要使它们有用,确实存在一些棘手的设计挑战。 Facebook有一个内部工具,他们称为HiPal,它捕获了在Hive上编写的所有查询,但是您发现,如果您没有以正确的方式推动用户,您最终会得到一个选择语句列表非常长。 作为试图找出查询对我有用还是对用户有用的用户,如果我仔细查看一长串的select语句,从那里得到一些有价值的东西要比花更长的时间。从头开始。 我们非常仔细地考虑过如何创建一个查询目录,该目录将正确的内容放在首位并以有用的方式提供。

Dez Blanchfield:我认为我们从很年轻到成年都经历了许多旅程。 一堆技术。 我个人,我经历了同样的事情,例如学习削减代码。 我会先阅读杂志,然后再阅读书本,然后研究一定水平的书,然后再去实际接受一些培训和教育。

但是我无意间发现,即使我从教自己,看杂志,看书,砍别人的程序,去上那些课程开始,我仍然从与其他人交谈的过程中学到了很多东西有经验的人 我认为这是一个有趣的发现,既然您将其带入数据分析,我们基本上就看到了同样的相似之处,即人类总是非常聪明。

我真的很想了解的另一件事是,在很高的层次上,许多组织都会问:“到那个点要花多长时间?”当人们得到时,临界点是什么?您的平台已安装,他们开始发现工具的类型? 人们以多快的速度看到这个东西变成了一个真正的“ a-ha”时刻,他们意识到他们已经不再担心ROI,因为它在那里,但是现在他们实际上正在改变他们的业务方式? 他们发现了一种失落的艺术品,并期望他们可以做一些真正非常有趣的事情。

David Crawford:是的,我可以谈一点。 我认为,当我们安装后,其中一件美好的事情,就是人们喜欢直接连接到数据系统的目录的一件事情,就是您不必在必须填写的地方空白。一页一页。 这对于以前的数据解决方案来说是正确的,在该解决方案中,您将从一个空工具开始,并且必须开始为要记录的所有内容创建一个页面。

由于我们通过提取元数据自动记录了很多事情,基本上是在安装软件后的几天内,因此您可以在工具中至少看到80%的数据环境。 然后,我认为人们开始使用该工具编写查询后,它们就会自动保存回目录中,因此它们也将开始显示。

我不想过分渴望。 我认为两周到一个月是一个很好的保守估计。 在两个星期到一个月的时间里,保守估计会发生真正的转变,并觉得您正在从中获得价值,就像您开始分享一些知识并能够去那里查找有关数据的事情一样。

Dez Blanchfield:当您考虑时,这确实非常令人惊讶。 您实际上需要对某些大型数据平台进行有效索引和分类的事实有时可能需要一年的时间才能正确实施,部署和维护。

在我转交给Robin Bloor之前,我要问的最后一个问题是连接器。 立即跳到我头上的一件事是,您显然已经解决了整个挑战。 因此,很快就会有几个问题。 一,连接器的实施速度有多快? 显然,您是从最大的平台开始的,例如Oracle,Teradatas等以及DB2。 但是,您如何经常看到新的连接器通过,它们需要多少周转时间? 我想您有一个针对他们的标准框架。 您对此有多深? 例如,世界上的Oracle和IBM,甚至Tereadata,然后是一些较流行的后期开放源代码平台。 他们直接与您合作吗? 您是自己发现的吗? 您是否需要在那些平台上有内在知识?

开发连接器看起来是什么样子?您如何参与这些合作伙伴关系以确保这些连接器发现您可能发现的一切?

大卫·克劳福德(David Crawford):是的,这是一个很好的问题。 我认为在大多数情况下,我们可以开发连接器。 当然,当我们还是一家年轻的初创公司且没有客户时就做了。 我们当然可以开发连接,而​​无需任何内部访问。 我们永远不会获得对不公开的数据系统的任何特殊访问,并且通常不需要任何内部信息。 我们利用了数据系统本身可用的元数据服务。 通常,这些操作可能非常复杂且难以使用。 我特别知道SQL Server,他们管理查询日志的方式,有几种不同的配置,这是您真正需要做的事情。 您必须了解细微差别和旋钮,然后拨动它才能正确设置,而这是我们与客户合作的原因,因为我们已经做过几次了。

但是在某种程度上,它是可用的公共API或我们利用的可用公共接口。 我们确实与其中的几家公司建立了合作伙伴关系,这主要是获得认证的基础,因此他们可以放心地说我们在工作,并且可以为我们提供测试资源,有时可以尽早使用即将出现的平台来确保我们致力于新版本。

为了扭转新的联系,我会再说一遍,尝试保持保守,比如说六个星期到两个月。 这取决于它有多相似。 因此,某些Postgre作品看起来与Redshift非常相似。 Redshift和Vertica分享了许多细节。 这样我们就可以利用这些东西。 但是,是的,六个星期到两个月就可以了。

我们也有API,因此–我们也将Alation视为元数据平台,因此,如果没有任何东西可供我们伸出并自动抓取,则可以使用多种方法自己编写连接器并将其推入我们的系统,以便一切仍然集中在一个搜索引擎中。

Dez Blanchfield:太棒了。 我很感激。 因此,我们将把它交给罗宾,因为我确信他也有很多问题。 罗宾?

丽贝卡·乔兹维克(Rebecca Jozwiak):罗宾可能处于静音状态。

Dez Blanchfield:您必须保持沉默。

罗宾·布卢尔(Robin Bloor):是的,是的。 对不起,我静音了。 当您执行此操作时,过程是什么? 我很好奇,因为在许多地方可能有很多数据。 那如何运作?

David Crawford:是的,当然。 我们进入,首先是一种IT流程,以确保已配置服务器,确保网络连接可用,端口是开放的,以便我们可以实际访问系统。 他们都经常知道他们想从哪个系统开始。 了解数据系统内部的内容,有时甚至是我们实际上会为他们提供帮助。 我们将帮助他们去初步了解他们的查询日志,以了解谁在使用什么以及他们在系统上拥有多少用户。 因此,我们将帮助找出他们的位置–通常,如果他们有成百上千的人可能正在登录数据库,他们实际上不知道他们要登录的位置,因此我们可以从查询日志记录一个月内您实际登录并执行查询的唯一用户帐户数量。

因此,我们可以利用这一点,但通常只能利用最重要的那些。 我们设置好它们,然后有一个过程说,“让我们优先考虑”。 有许多活动可以并行进行。 我将重点介绍使用查询工具的培训。 一旦人们开始使用查询工具,首先,很多人会喜欢一个事实,那就是它只是所有不同系统的单一界面。 他们还喜欢基于Web的事实,如果他们不愿意的话,它不会涉及任何安装。 从安全的角度来看,从网络的角度来看,他们喜欢在某种企业IT网络和生产数据源所在的数据中心之间建立一个单一的入口点。 因此,他们将Alation设置为查询工具,并开始使用Compose作为所有这些系统的访问点。

因此,一旦发生这种情况,我们将重点放在培训上,即了解基于Web的或基于服务器的查询工具与您在桌面上使用的查询工具之间的一些区别,以及使用时的一些细微差别那。 同时,我们将尝试确定最有价值的数据,再次利用查询日志信息,然后说:“嘿,您可能想走进去帮助人们理解这些信息。 让我们开始在这些表上发布具有代表性的查询。”有时,这是最快速地使人们兴奋的最有效方法。 让我们看看您自己的查询历史记录,发布这些内容,以便它们显示为第一个查询。 人们在查看表格页面时,可以看到涉及该表格的所有查询,并且可以从那里开始。 然后,我们开始为这些对象添加标题和描述,以便更轻松地查找和搜索它们,以便您了解如何使用它们的一些细微差别。

我们确保对查询日志有透彻的了解,以便我们生成沿袭。 我们要做的一件事是,当数据从一张表移动到另一张表时,我们遍历查询日志,这使我们可以提出关于一张数据表的最常见问题之一,它是从哪里来的? 我如何信任它? 因此,我们不仅可以看到它来自其他哪些表,还可以显示它是如何转换的。 同样,这由查询日志提供支持。

因此,我们确保已设置好这些东西,并确保将其沿用到系统中,并且将目标对准了可以在表页面上建立的最有价值和最充分利用的元数据片段,以便搜索时,您会发现有用的东西。

罗宾·布卢尔(Robin Bloor):好的。 另一个问题–观众提出了很多问题,所以我不想在这里花费太多时间–另一个想到的问题就是痛苦点。 购买许多软件是因为人们以某种​​方式遇到某种困难。 那么,导致人们走向Alation的常见痛点是什么?

David Crawford:是的。 我认为有一些人,但是我认为我们经常听到的其中之一是分析师入职。 “短期内我将需要雇用10、20、30人,他们将不得不从这些数据中获得新的见解,他们将如何跟上发展速度?”因此,分析师入职无疑是我们的职责解决。 这也使高级分析师不必花所有时间来回答其他人有关数据的问题。 这也是非常频繁的一种。 这两个本质上都是教育问题。

然后我要说的是,人们采用Alation的另一个地方是他们想为工作人员建立一个全新的数据环境。他们想在内部做广告和营销以供人们利用。 然后使Alation成为该新分析环境的前端非常吸引人。 它提供了文档,对它进行了单点介绍–对系统的单点访问,因此这是人们来找我们的另一个地方。

罗宾·布卢尔(Robin Bloor):好的,我会把您传递给丽贝卡,因为听众正在设法找到您。

丽贝卡·乔兹维克(Rebecca Jozwiak):是的,我们在这里确实有很多非常好的听众问题。 大卫,这个是专门给你摆的。 显然,这是来自某人对某种滥用查询的经验,他说,我们赋予用户的权限越多,则负责管理计算资源的使用就越困难。 那么,您可以防止误导但常见的查询短语的传播吗?

David Crawford:是的,我看到了这个问题。 这是一个很大的问题-我们经常收到这个问题。 我曾经在以前的公司中看到过自己的痛苦,在那儿您需要培训用户。 例如,“这是一个日志表,其中的日志可以追溯多年。 因此,例如,这是我在获得数据库访问权限之前在上一家公司所接受的培训。

我们有几种方法可以尝试解决此问题。 我想说,我认为查询日志数据对于解决它确实具有独特的价值。 它提供了另一种见解,与数据库使用其查询计划程序在内部做什么相比。 我们要做的就是这些干预措施之一–我们有我展示的手动干预措施,这很有用,对吗? 因此,例如,在特定的联接上,您可以说“让我们弃用”。 当它以聪明的建议显示时,它会有一个大的红旗。 因此,这是尝试吸引人们的一种方式。

我们要做的另一件事是在执行时进行干预。 实际上,在运行查询之前,它将使用查询的解析树,它是否包含某个过滤器或我们在此所做的其他几件事。 但是,最有价值和最简单的解释之一是,它是否包含过滤器? 因此,就像我刚才给出的示例一样,如果要查询该日志表,则必须具有日期范围,您可以在表格页面中指定要强制应用该日期范围过滤器的日期范围。 如果有人尝试运行一个不包含该过滤器的查询,它实际上会以一个大警告将其阻止,并显示“您可能应该在查询中添加一些类似于此的SQL。”他们要。 我们实际上并不会完全禁止他们使用它-它也是一个查询,最终必须运行查询。 但是我们在他们面前摆了一个很大的障碍,并给了他们一个建议,一个具体的可应用建议,用于修改查询以提高其性能。

实际上,在某些情况下,我们还会通过再次查看查询日志来自动执行此操作。 如果我们看到该表上很大一部分查询都利用了特定的过滤器或特定的join子句,那么我们实际上会将其弹出。 我们会将其推广为干预措施。 实际上,这发生在我的内部数据集上。 我们有客户数据,也有用户ID,但是设置了用户ID,因为这是–每个客户都有用户ID。 它不是唯一的,因此必须将其与客户端ID配对才能获得唯一的连接密钥。 我正在写一个查询,然后尝试分析一些内容,然后弹出一个查询,并说:“嘿,其他所有人似乎都将这些表与客户ID和用户ID结合在一起。 您确定不想这样做吗?”这实际上阻止了我进行一些不正确的分析。 因此,它既适用于分析的准确性,又适用于性能。 因此,这就是我们应对该问题的方式。

丽贝卡·乔兹维克(Rebecca Jozwiak):在我看来,这很有效。 您说过,您不一定会阻止人们浪费资源,而是要教他们如何做可能不是最好的,对吧?

大卫·克劳福德(David Crawford):我们始终认为用户不是恶意的-给予他们最佳的意图-并且我们尝试以这种方式保持开放。

丽贝卡·乔兹维克(Rebecca Jozwiak):好的。 这是另一个问题:“像您的解决方案一样,目录管理器与MDM工具之间有什么区别? 还是通过扩展查询表的选择实际上依赖于不同的主体,而MDM会自动执行它,但是具有收集元数据的相同基础主体。”

David Crawford:是的,我认为当我看传统的MDM解决方案时,主要的区别是哲学上的区别。 这与用户的身份有关。 就像我在演讲开始时所说的,Alation,我想我们成立之初就是为了让分析师产生更多的见解,更快地产生见解,更准确地了解他们的见解而建立的。生产。 我认为这不是传统MDM解决方案的目标。 这些解决方案通常针对需要向SCC或内部出于其他某种审计目的生成报告的数据报告的人员。 它有时可以使分析人员受益,但更常见的是,如果要使从业人员能够从事其工作,则更有可能使数据架构师(如DBA)受益。

当您从分析师的角度考虑问题时,即开始构建MDM工具永远无法做到的查询工具。 从那时起,您开始考虑性能和准确性,以及了解哪些数据与我的业务需求有关。 设计工具时,所有这些事情在我们脑海中都会流行。 它涉及我们的搜索算法,涉及目录页面的布局以及提供来自组织各个部门的知识的能力。 事实是,我们构建了查询工具,并直接在其中构建了目录,因此我认为它确实来自于此。 您首先要考虑的是哪个用户?

丽贝卡·乔兹维克(Rebecca Jozwiak):好的,很好。 这确实有助于解释它。 他因不得不离开而渴望获得档案,但他确实希望他的问题得到回答。 他说开始时提到有多种语言,但是SQL是Compose组件中唯一利用的语言吗?

David Crawford:是的,是的。 当我亲眼目睹各种类型的数据库,文档数据库,图形数据库,键值存储的爆炸式增长时,我注意到的一件事就是它们对于应用程序开发确实非常强大。 它们可以以比关系数据库更好的方式很好地满足特定需求。

但是,当您将其带回数据分析时,又将其带回去–当您想要将信息提供给将要进行临时报告或临时挖掘数据的人员时,他们总是会回到关系,至少是人机界面。 部分原因是因为SQL是数据分析的通用语言,所以对于人类而言,这也意味着集成的工具。 我认为这是Hadoop上的SQL如此流行并且解决它的尝试很多的原因,这是因为归根结底,这就是人们所知道的。 可能有数百万知道如何编写SQL的人,而我不会冒险冒数百万知道如何编写Mongo聚合管道框架查询的人。 而且这是一种用于跨各种平台集成的标准语言。 就是说,很少有人要求我们超出它,因为这是大多数分析人员使用的接口,并且在这里我们专注于编写SQL,尤其是在Compose中。

我想说数据科学是他们最不喜欢冒险的地方,因此我们确实偶尔会遇到有关使用Pig或SAS的问题。 这些是我们绝对不会在Compose中处理的,我们希望在目录中捕获。 我也看到了R和Python。 我们已经通过多种方式创建了接口,您可以在R和Python脚本中使用以Alation编写的查询,因此,由于经常当您是数据科学家并且使用脚本语言工作时,源数据在关系数据库中。 您从SQL查询开始,然后进一步处理它并在R和Python中创建图。 我们已经制作了软件包,您可以将其导入到从Alation中提取查询或查询结果的脚本中,从而可以在其中拥有混合工作流。

丽贝卡·乔兹维克(Rebecca Jozwiak):好的,太好了。 我知道我们已经花了一点时间,我只想再问一两个问题。 我知道您讨论了可以连接到的所有不同系统,但是就外部托管数据和内部托管数据而言,可以一起在单个视图和一个平台中进行搜索吗?

David Crawford:好的。 有几种方法可以做到这一点。 我的意思是,我想我是在外部托管的情况下,正在尝试仔细考虑这可能意味着什么。 这可能意味着某人正在为您托管在AWS中的数据库。 它可能意味着来自data.gov的公共数据源。 通过使用数据库帐户登录,就像通过另一个应用程序登录一样,我们直接连接到数据库,这就是我们提取元数据的方式。 因此,如果我们有一个帐户并且有一个开放的网络端口,则可以使用它。 然后,当我们没有这些东西时,我们就有一个叫做虚拟数据源的东西,它使您可以本质上推送文档,无论是自动,通过编写自己的连接器还是通过像CSV上传一样进行填充,与内部数据一起记录数据。 一切都放入搜索引擎。 它可以在系统内部的文章和其他文档以及对话中引用。 这就是当我们无法直接连接到系统时的处理方式。

丽贝卡·乔兹维克(Rebecca Jozwiak):好的,这很有道理。 我再向您提出一个问题。 一位与会者是 问:“当更新源数据,修改源数据等时,应如何验证,验证或维护数据目录的内容。”

大卫·克劳福德(David Crawford):是的,这是我们遇到的很多问题,我认为我们的一件事-我们的一种哲学,就像我说的那样,我们不相信用户是恶意的。 我们假设他们正在努力贡献最好的知识。 他们不会进来,故意误导人们有关数据的信息。 如果您的组织遇到问题,也许Alation不是您的正确工具。 但是,如果您假设用户有良好的意愿,那么,我们会将其视为发生更新的地方,通常,我们要做的就是由管理者负责每个数据对象或数据的每个部分。 而且,我们可以在对元数据进行更改时通知那些管理员,他们可以通过这种方式进行处理。 他们看到更新进入,并对其进行验证。 如果不正确,他们可以返回并对其进行修改并告知,甚至希望与提供信息并帮助他们学习的用户联系。

这就是我们考虑的主要方式。 人群的建议和管家的建议,因此我们有一定的能力。

丽贝卡·乔兹维克(Rebecca Jozwiak):好的,很好。 而且,如果您可以让人们知道他们如何才能最好地开始使用Alation,以及他们可以在哪里专门获得更多信息。 我知道你分享了这一点。 那是最好的地方吗?

大卫·克劳福德(David Crawford): Alation.com/learnmore我认为这是一个不错的选择。 要注册进行演示,Alation.com网站上有大量的资源,客户白皮书以及有关我们解决方案的新闻。 因此,我认为这是一个不错的起点。 您也可以发送电子邮件。

丽贝卡·乔兹维克(Rebecca Jozwiak):好的,太好了。 我知道,与会人员,很抱歉,如果我今天没有解决所有问题,那么如果不能解决,他们将被转发给David或他的销售团队或Alation的某人,因此他们一定可以帮助您回答问题并帮助理解Alation做什么或他们最擅长的是什么。

亲爱的,我将继续前进并签署我们。 您总是可以在InsideAnalysis.com上找到档案。 您也可以在Techopedia.com上找到它。 它们往往更新得更快一些,所以一定要检查一下。 非常感谢David Crawford,Dez Blanchfield和Robin Boor。 这是一个很棒的网络广播。 借此,我将告别您。 谢谢,伙计们。 再见。

David Crawford:谢谢。

建议的力量:数据目录如何赋予分析师权力