执行面试:Gideon Mann,Data Science,Bloomberg
数据科学是CTO办公室在金融新闻和数据公司彭博办公室的四个焦点区域之一,数据科学负责人是Gideon Mann。
曼恩认为他对数据科学的定义是非传统的。“人们以很多不同的方式定义了数据科学,”他说。“彭博数据科学是非传统的,侧重于三个技术领域 - 自然语言处理,信息检索和搜索和核心机器学习。”
可以说,信息检索和搜索是最接近传统数据科学的拟合。曼恩说:“记住20世纪90年代的样子,你没有谷歌,冰或雅虎,你找不到互联网上的所有东西。生活是完全不同的。“
然而,尽管互联网搜索引擎的进步,但是曼恩说,他们有他们的极限。“您通常可以找到所需的文档,但您可能不一定找到您想要的信息。如果该信息在许多文件中生活,那么就没有任何东西可以帮助你。“
在研究一个主题时,人们曾经花费大量时间去图书馆,阅读指数,寻找书籍,编译 - 并多次进行这一。“现在你可以很快组装所有文件,但除非已经在一个地方预付了一部分,否则仍然存在一步的评估,”他说。
曼恩认为,尽管搜索引擎中的技术突破,但在搜索引擎中,没有人设法派生真正的理解有关水龙头的信息质量内的意义。“所有这些争用的影响,在决定真实的情况下,做了一些事情,或者是另一个替代事实意味着从组装文件到提取意义有很大的一步,”他说。
Bloomberg的自然语言处理涉及从书面文本中提取信息。例如,Mann表示,可以使用自然语言处理来确定特定公司周围的情绪。“文中有很多信息,”他说。“例如,牛皮纸制造了许多产品。这些是什么?传统上,该方法已经进行了结构化数据分析。现在,前沿正在寻找从多个库中提取此信息。“
可以说,与编程计算机相比,机器学习采取了一个非常不同的方法来解决问题,以基于给定数据集来计算正确的结果。这意味着人们可能不会自然地转向机器学习以解决特定问题,即使它适合这种方法也是合适的。
但正如曼恩所指出的那样:“如果他们在跟我说话,他们已经喝了kool援助。”
有时说,人们的期望可能是不现实的,或者他们不确定机器学习算法的约束。“我认为你不得不带领人们浇水。相反,你必须用思维方式装备它们,“他说。
Bloomberg二手机器学习中的第一次是2008 - 2009年的情绪分析。“作为一家公司,我们一直在做分析,”曼恩说。“如何做机器学习绝对是文化转变。”
他说,参考情绪分析项目:“他们尝试了传统的方法,这些方法不起作用。它们很脆,需要很多手动努力。但机器学习刚刚工作。“
从那时起,看着情绪分析项目的机器学习的小组现已发展起来,正在制造彭博内的新区,现在是机器学习现在是核心竞争力。“我们现在雇用这种工作的所有人都来自这个背景。这是在心态,“曼恩说。
“我希望尽可能多的人在公司学习,这需要教授很多不同的人意味着”Gideon Mann,Bloomberg
曼恩说,谈到他在彭博的角色:“我希望尽可能多的人在公司学习,这需要教授很多不同的人意味着什么。有些是程序员。我们向他们展示了与机器学习解决方案一起使用的问题,或者向他们展示开发周期以及它们可能存在问题以及如何解决它们的问题。“
他说,他们的申请可能会遇到绩效问题,克服这些涉及收集更多数据和再培训人工智能(AI)。
传统上,当测试开发的应用程序并且它产生错误的结果时,编码器需要返回到源代码和发生错误的跟踪。但在机器学习中,错误的结果是培训的一部分,曼恩说。
“这几乎像一套不同的测试。您必须测试算法的正确性,并且必须测试算法的准确性。往往很难解开这两件事。“
程序员的挑战是确定AI是否获得了错误的答案,因为算法缺陷或者它被摄取的数据是否缺少了一些关键信息,然后影响AI的能力准确地匹配模式。
Mann说,超越编程,机器学习的大挑战包括确定项目是否会成功。“如果你没有成功的机会,你就不会做这个项目,你可能想要一段很高的成功机会,但没有任何保证,”他说。“以你不期望的方式可能更复杂。”
曼数说,在启动一个新项目时,必须开始减少失败的风险,并评估机器中简单地无法使用的内容。机器学习项目可能或可能不起作用,项目领导者需要在出示商业案例时能够解决这种风险。
鉴于高级商业主管可使机器学习宠物项目,他说,管理他们的期望非常重要。“总有风险。你做好充分准备,做小实验,概念的渐进证明,小型的参与和小部署,并获得洞察力,以减少风险。“
人们经常通过建立最小的可行产品(MVP)来接近高风险项目,并为机器学习算法进行了最小的可行性产品(MVP),机器学习产品的MVP可能只是算法的一个方面。“你认为这是一种风险,那么你最小化风险,”他说。