看看就知道,术语不一定很神秘!


拿来横跨商业界和技术界的一大潮流,加上无数希望大发其财的厂商和顾问,你得到的是什么?一大堆定义不明确的流行语。

在大数据行业,周围的炒作催生出了全新的术语。需要一点阐明?不妨阅读这份小型术语表,它们着重介绍了你应该了解的一些主要的数据类型。

1. 快数据

大数据行业最耀眼的术语就是“快数据”(fast data),这个术语越来越频繁地出现在我们面前。它是指“效用随着时间而下降的数据”,Ovum公司的首席分析师托尼·贝尔(Tony Baer)说,他早在2012年杜撰了这个词。

快数据是指需要实时获取并分析的Twitter消息内容和流数据,能够支持即时决策和响应。资本市场交易公司可能依赖快数据来进行算法交易或高频交易。

企业策略集团的高级分析师尼克·鲁达(Nik Rouda)说:“快数据可能指几个方面:快速摄取、快速流式传输、快速准备、快速分析、用户快速响应。它主要是一种营销宣传,但是从诸多方面表明了需要性能。”

贝尔表示,带宽增加、商用硬件、内存价格下降和实时分析,这些因素共同促成了快数据的兴起。

2. 慢数据

与快数据相对的是“慢数据”(slow data),即以相对缓慢的步伐慢慢渗入的数据,因而需要不太频繁的分析。贝尔以监视海洋潮汐的设备为例――对于大多数用途而言,不需要实时更新。

通常而言,这种数据更适合捕获到数据湖中以及随后的批处理。

3. 小数据

“小数据”(small data)是指“装在一台笔记本电脑上的任何数据”,分析咨询公司KDnuggets的总裁格雷戈里·皮亚泰特斯基-夏皮罗(Gregory Piatetsky-Shapiro)说。

实际上,这个术语承认了这一事实:“许多分析工作仍在笔记本电脑上针对几个数据源中的某一个来未执行,使用轻量级应用程序,有时甚至仅仅是Excel,”鲁达如是说。

4. 中等数据

至于“中等数据”(medium data),它介于两者之间。

贝尔表示,你在谈论数PB的数据时,那是大数据,你可能会使用Hadoop和MapReduce之类的技术来分析它。但是,“大多数分析问题并不涉及PB级数量,”他补充道。如果分析的数据处于中间规模,那它就是中等数据,你可能会使用Apache Spark。

5. 暗数据

“暗数据”(dark data)通常是指被忽视、未充分利用的数据。

鲁达解释:“人们不知道暗数据的存在,不知道如何访问它,不被允许访问,或者利用暗数据的系统还没有建立起来。”他表示,暗数据“往往”出现在数据库、数据仓库和数据湖。

这种受限制或记录不翔实的数据池常常被称为“暗网”(dark web)。贝尔表示,揭示暗数据通常是数据发现服务的范畴,常常要用到机器学习算法。

6. 脏数据

最后但并非最不重要的是,“脏数据”远不如听起来那么有趣。相反,它就是被清理之前的数据集。

贝尔说:“事实上,数据在你清理之前是脏的。除非你对数据执行了一番操作,否则数据不会干净。”

鲁达特别指出,这些操作包括数据准备、数据充实和数据转换。“否则,就有可能出现错误的答案。”

再补充一点……

使用数据来拓展公司业务需要的绝不仅仅是了解术语。

弗雷斯特研究公司的副总裁布赖恩·霍普金斯(Brian Hopkins)说:“已变得随时可用的所有数据与我们能够用来获取洞察力之间存在着差距。”

霍普金斯表示,消除这个差距可能需要使用Hadoop,也可能借助简单的自助式工具来完成。无论哪种方式,需要把数据结合起来,有意义的行动才会随之出现。

他说:“厂商和分析师擅长制造新的流行语。”“我给CIO们的建议是,高度关注将会改变贵公司业务的结果”,而不是深陷术语当中无法自拔。

Have any Question or Comment?

发表评论