6'数据'流行语您需要了解
采取跨越商业和技术世界的一个主要趋势,添加无数的供应商和顾问,希望兑现,以及你得到什么?具有模糊定义的大量流行语。
在大数据的世界中,周围的炒作产生了一个全新的灵遍。需要一点清晰度?阅读有序词汇表,突出显示您应该理解的一些主要数据类型。
1.快速数据
这种术语中的闪亮之星是“快数据”,其随着频率的增加而弹出。它指的是“公用事业随着时间的推移会拒绝的数据”,Ovum的主要分析师Tony Baer表示,他声称他于2012年被誉为术语。
该类别包括需要实时捕获和分析的Twitter Feeds和Streaming数据等的内容,从而实现即时决策和响应。资本市场交易公司可能依赖于进行算法或高频交易。
“快速数据可以参考一些事情:快速摄取,快速流,快速准备,快速分析,快速用户回复,”企业战略集团的高级分析师Nik Rouda表示。它“大多数营销炒作”,但它“以各种方式表明了对性能的需求。”
Baer表示,增加带宽,商品硬件,跌幅下降,内存价格下降和实时分析都有促进快速数据的兴起。
2.缓慢的数据
在光谱的另一端是“慢数据”或可能在比较悠闲的步伐中滴流的数据,保证较少频繁的分析。Baer指向一个监控海潮作为示例的设备 - 对于大多数目的,需要实时更新aren“t所需。
通常,这种数据更适合在数据湖中捕获和随后的批处理。
3.小数据
“小数据”是“任何适合一台笔记本电脑的东西”,“分析咨询克德纳古省委员会总裁Gregory Piatetsky-Shapiro说。
基本上,该术语认识到“许多分析仍然在一个或多个数据源上,在笔记本电脑上使用轻量级应用程序进行分析 - 有时甚至只是Excel,”Rouda说。
4.中等数据
至于“中等数据”,“介于两者之间。
鲍尔说,当你“谈论许多数据的数据,那个大数据,以及你的大数据和你的大数据,而且你可能会使用多样化的技术,例如Hadoop和Mapreduce来分析它。但是,“大多数分析问题都不涉及Petabytes,”他补充说。当分析涉及数据上的数据更高,即“媒体数据,以及您”D可能使用Apache Spark。
5.黑暗数据
“暗数据”通常是被忽视和未使用的数据。
“人们不知道它在那里,不知道如何访问它,不允许访问,或者系统尚未设置才能利用它,”rouda解释说。他说,它在数据库,数据仓库和数据湖泊中弥补“全部经常”。
这种受限制或记录不良的数据池通常被称为“暗网”。BAER说,将它们带到光线之光通常是数据发现服务的领域,通常使用机器学习算法。
6.肮脏的数据
最后但并非最不重要的是,“肮脏的数据”无处可享受乐趣。相反,它只是在清理完成之前的数据集。
“大自然的问题是,事情很脏,直到你清洁它们,”鲍尔说。“除非你对它进行了一些操作,否则数据不会清洁。”
那些行动可以包括制备,富集和转型,罗兜帽指出。“否则有很多错误的答案是可能的。”
还有一件事...
使用数据来增长您的业务是不仅仅是理解Lingo的程度。
福尔特副总统Brian Hopkin说:“在可用的所有数据之间存在差距和我们使用它的洞察力的能力”。
霍普金斯说,桥接差距可能是使用Hadoop的问题,或者可以通过简单的自助服务工具来实现。无论哪种方式,它是必须做出的链接,以便有意义地行动。
“供应商和分析师在创造新的流行语中非常伟大,”他说。我对CIO的建议而不是陷入困境,而是为了保持激光,侧重于改变您的业务的结果。“