公民数据科学家的兴起
当Mark Pickett是海军陆战队队的队长时,他知道他不能为他的士兵做出决定。
“你可以排练每个场景,并且有时候你可以”沟通“,他解释说明。“你想梳理你的海军陆战队员能够依靠自己及其单位。”
在这一时代的大数据中的商业世界中没有那么不同。
现在,SEARS的在线分析和商业智能高级总监,PICKETT一直是所谓的公民数据科学家运动的早期冠军,通过该组织多个部分的员工赋予分析工具和技能来获得答案的答案需要他们的数据。
“业务比我们所能更深入地了解业务,”他说。“我们试图向这些人提供教练,并为他们提供他们需要制作自己的报告并自行分析所需的数据。”
在西尔斯“案例中,动机特别强劲。虽然整体零售业务虽然,公司在许多方面都是众多垂直企业的集团,每种垂直企业都集中在不同的产品类型上。
“我们有一个非常多的业务,从草坪和花园到设备到床垫到床垫,”Pickett说。“我的团队建立了支持所有这些,但我们”LL永远不会以他们所做的方式了解他们的业务。“
通过策划合适的工具 - 在西尔斯“案例中,Platfora”的Hadoop - Pickett“S集团的大数据分析平台旨在使商人能够为他们自己回答80%的数据问题。该公司的300多名训练有素的公民数据科学家现在正在使用这些工具每周使用数千个数据分析报告,而不提供任何帮助。
“我们禁止触摸一个的原因是如果有人有问题,或者需要补充数据,”Pickett说。
新一代工具
由于其业务的佩戴性,西尔斯可能具有特别紧迫的需求,但各种公司的公司今天感受到今天训练有素的数据科学家的急性短缺。即使对于那些幸运的幸运能够攻击这样的专业,“Janitorial”任务,如数据准备仍然占据这些工人的过度比例。
赋予商人能够做大部分分析自己释放高度训练的数据科学家,专注于需要他们专业知识的事情 - 否则思考就会发生。
一部分“S成为可能的是,当今市场上提供的越来越强大的自助式工具,使得在覆盖范围内的人工智能等能力就可以了解。
“公司拥有越来越多的数据,”数据集中的众多众筹位众众众群,首席执行官和创始人众多。
“你不会有一个部门创建没有人可以修改的电子表格,”biewald添加了。“现代企业需要以同样的方式考虑这些数据工具,他们考虑Excel。”
Gartner预测自助数据准备工具市场将于2019年达到10亿美元。
“大型企业正在搬到数据湖泊,所以所有的数据都在一个地方,”格拉拉总统兼首席执行官Jason Zintak说。
接下来,公司需要帮助他们的员工充分利用它。PLATFORA将其与之关联的平台,以便让任何人在整个组织的数据中运行分析的方式,包括交易,客户交互和机器数据。
“他们可以建立自己的报告”
在许多方面,公民数据科学家代表了传统业务分析师角色的演变。
“当我想到传统的商业分析师时,他们对这件事有很好的理解,但不一定在数据上熟悉数据,”西尔斯“Pickett说。
这些专业人员经常专注于从Excel或其他报告工具的收集洞察力,而不是必然在数据中工作膝盖深入。
在今天的数据丰富的时代,就可以提出的数据讨论的问题而言,挑选的是更好的识字性,反映了从关系数据库和电子表格转移到数据湖泊和更复杂的分析工具。
“我观察的是,对企业有了强烈了解的人现在有一些能力,”他解释说。“他们可以建立自己的报告,他们知道属性一起去,他们知道不仅仅是从商业角度来询问的问题,而是从数据的角度来看。”
然而,不是每个人都在公民数据科学家概念上销售。
“灾难的谱系”
“我不喜欢”公民数据科学家“的学期,”Kdnuggets总裁Gregory Piatetsky-Shapiro说,分析和数据科学咨询。
一方面,“这个术语意味着没有太多培训的人可以做数据科学家的工作,”Piatetsky-Shapiro说。
换句话说,换句话说,换句话说,换句话说,这一切都太容易折扣了教育的重要性,即使大数据在很多方面,它比以往任何时候都更重要。通过统计数据,数据科学往往依赖于对各种统计技术的潜在假设的理解,例如,由于那些对他们而言,那些渴望那些“t的因素”。
“你会相信你的牙齿到”公民牙医“或飞在”公民飞行员“赛车飞机上飞行?”Piatetsky-Shapiro问道。“未经训练的公民数据科学家分析数据可能很容易,但如果他们将在没有适当培训的情况下做出决策并且没有理解业务,它是灾难的一个谱图。”
Platfora的Zintak表示,内置公司治理结构可以通过控制安全性和访问级别来解决该问题。在西尔斯,为公司300+公民数据科学家的两周培训也有所帮助。
“数据是病毒 - 每个人都想要它”
SEARS在2015年将其从DB2关系数据库管理系统中的DB2关系数据库管理系统迁移到了Hadoop数据湖。它已经为一小组专家采用了Platfora,但它不是在更广泛的可用性需要清楚的情况下很久。
“数据是病毒 - 每个人都想要它,”Pickett说。“很明显,很明显,我们必须通过使他们成为自给自足的人来解决人们所要求的数据量。”
专注于300左右的人处理他们的团队的许多报告需求,西尔斯“自己的内部专家进行了培训,使这些用户能够加快速度。例如,涵盖的主题包括命名法和数据设置操作。
今天,那些员工要求数据,而不是报道,他说:“那个时候我们知道这一点开始塑造。”
现在从公司的大部分释放了“S ad Hoc报告需求”,Pickett的团队可以专注于数据策策,模型建设和治理等更高级别的任务。
“开始小而且只是做到这一点”
总体而言,Pickett Touts分散决策是公民数据科学家模型的主要福利之一。
“它不仅仅是为了减少对我们的依赖,”他说。“这是人们能够变得更加能力与自己的数据变得更加能力,并使他们能够以新的方式考虑他们的业务。”
他说,如果Pickett必须再次完成它,他说,他“D迅速过渡到公民数据科学家模型。
“没有简单的方法来使这个范式转变,所以而不是试图计划一切,开始小而且只是这样做,”他建议。“一旦人们了解他们可用的东西,采用变得病毒。他们“LL有很多问题,那太棒了。”