在新闻里 10大数据必做之事

10大数据必做之事

目录:

Anonim

大数据为所有类型的行业带来了很多希望。 如果有效地利用这些大数据,它将对决策和分析产生重大影响。 但是,只有以结构化方式进行管理,才能实现大数据的优势。 大数据的最佳实践正在逐步建立,但是在实现方面已经存在一些明确的要做与不要做的事情。


以下指南基于从实际项目中收集的实践经验和知识。 这是我要做的和不要做的重要大数据。

确实让所有业务部门参与大数据计划

大数据计划不是孤立而独立的活动,所有业务部门的参与都是获得真正价值和见识的必要条件。 大数据可以帮助组织利用大量数据并深入了解客户的行为,事件,趋势,预测等。数据快照是不可能的,它仅捕获大数据中处理的全部数据的一部分。 结果,公司越来越专注于来自所有可能途径/业务部门的所有类型的数据,以了解正确的模式。

评估所有基础架构模型以实现大数据

数据量及其管理是任何大数据计划的主要关注点。 因为大数据处理的是PB级数据,所以唯一的解决方案是使用数据中心。 同时,在选择和确定任何存储设施之前必须考虑成本因素。 云服务通常是最佳选择,但是必须评估不同云环境的服务以确定合适的服务。 由于存储是任何大数据实现中最重要的组件之一,因此在任何大数据计划中都应该非常仔细地评估这一因素。 (从品种,而不是数量或速度上获取当今大数据挑战的另一种观点。)

在大数据规划中考虑传统数据源

大数据的来源多种多样,而且来源的数量也在逐日增加。 大量数据被用作大数据处理的输入。 结果,一些公司认为传统数据源毫无用处。 这是不正确的,因为这种传统数据是任何大数据故事成功的关键组成部分。 传统数据包含有价值的信息,因此应与其他大数据源结合使用。 只有考虑所有数据源(传统和非传统),才能得出大数据的真正价值。 (了解更多关于大数据的知识!为什么小数据可能带来更大的冲击。)

考虑考虑一致的数据集

在大数据环境中,数据来自各种来源。 数据的格式,结构和类型因一个来源而异。 最重要的部分是,涉及大数据环境时不会清除数据。 因此,在信任传入数据之前,您需要通过重复观察和分析来检查一致性。 一旦确认了数据的一致性,就可以将其视为一致的元数据集。 通过仔细观察模式来找到一致的元数据集是任何大数据规划中必不可少的工作。

分发数据

在考虑处理环境时,数据量是一个主要问题。 由于大数据要处理的数据量很大,因此无法在单个服务器上进行处理。 该解决方案是Hadoop环境,它是在商品硬件上运行的分布式计算环境。 它提供了在多个节点上更快处理的能力。 (了解有关Hadoop的7件事的更多信息。)

永远不要依赖单一的大数据分析方法

市场上有各种技术可用于处理大数据。 所有大数据技术的基础是Apache Hadoop和MapReduce。 因此,为正确的目的评估正确的技术很重要。 一些重要的分析方法是预测分析,规范分析,文本分析,流数据分析等。选择适当的方法/方法对于实现期望的目标很重要。 最好避免依赖单一方法,而要研究各种方法并为您的解决方案选择最佳匹配。

准备好之前,不要启动大数据计划

对于任何大数据计划,始终建议从小步骤入手。 因此,从试点项目开始以获得专业知识,然后再进行实际实施。 大数据的潜力令人印象深刻,但只有减少错误并获得更多专业知识,才能实现真正的价值。

不要孤立地使用数据

大数据源散布在我们周围,并且每天都在增加。 整合所有这些数据以获得正确的分析输出非常重要。 市场上有用于数据集成的各种工具,但是在使用之前应对其进行正确评估。 大数据的集成是一项复杂的任务,因为来自不同来源的数据具有不同的格式,但是获得良好的分析结果非常需要。

不要忽视数据安全性

数据安全性是大数据规划中的主要考虑因素。 最初,(在进行任何处理之前)数据为PB级,因此安全性未得到严格实现。 但是经过一些处理后,您将获得提供一些见解的数据子集。 在这一点上,数据安全性至关重要。 数据处理和微调的次数越多,它对于组织通常就越有价值。 经过微调的输出数据是知识产权,必须加以保护。 数据安全性必须作为大数据生命周期的一部分来实施。

不要忽略大数据分析的性能部分

大数据分析的输出只有在提供良好性能时才有用。 大数据可以更快地处理大量数据,从而提供更多见解。 因此,有效管理它至关重要。 如果不认真管理大数据的性能,将会引起问题,并使整个工作变得毫无意义。


在我们的讨论中,我们专注于大数据计划的有为与无为。 大数据是一个新兴领域,在实施方面,许多公司仍处于计划阶段。 必须了解大数据最佳实践,以最大程度地减少风险和错误。 讨论要点来自现场项目的经验,因此将为成功实施大数据策略提供一些指导。

10大数据必做之事