机器学习在商业领域大有作为，但还需要跨过数据和政策的难关-白红宇

基于数据分析的机器学习（ML）正在重写企业处理数据的规则。机器学习和分析的研究已经在数据科学家的帮助下将大量数据形式转化成分析规则。现在，机器学习已经进入商业世界。但是，大多数公司并没有真正了解机器学习如何给他们的商业方式带来变化——或者如何改变组织在这个过程中的形态。公司希望通过机器学习进行流程自动化或完成数据驱动的任务来提高人的能力。而且，通过机器学习，企业也有可能变成供应商——从他们自己庞大的数据存储库中吸取经验教训，并将其授权给软件和服务提供商。

但是，实现这一目标将取决于未来5年机器学习能力的发展，以及这一进化对今天的长期招聘策略的影响。在无人监督的机器学习中，系统得到了大量的数据集，并且希望在没有人类的帮助下弄清楚自己需要寻找什么。

宝洁公司商业智能和分析服务总监 David Dittman 解释说，自己与其他大型美国公司面临的分析难题是“他们正在被‘机器学习和分析’技术所吸引，而不了解他们必须‘为它’建立基础，因为很艰难，很昂贵，而且需要远见。“ 相反， Dittman 说，公司错误地认为机器学习能够满足他们的愿景：“我不能让人工智能告诉我答案吗？”问题在于“人工智能”并没有真正发挥他们想要的作用。

机器学习目前分为两大类：监督和无监督。如果没有坚实的数据基础，这两种方式都不可行。

打破训练

（Yisong Yue是加州理工学院计算和数学的助理教授，他认为无人监督的机器学习在放射影像中诊断癌症等领域具有巨大的应用前景）

有监督的机器学习要求人类创建训练数据集，并验证训练的结果。加州理工学院的计算机和数学助理教授Yisong Yue解释说，语音识别是这方面的一个主要例子。“语音识别是在高度监督的方式下进行的，”Yue说。“你要从庞大的数据开始，先让人们说出某些特定的句子。”

但 Yue 说，收集并将足够的数据进行分类以此来监督训练是很有挑战性的。“想象一下，用各种各样的方式说出这些句子是多么的昂贵。数据科学家们需要对这些东西进行注释，这对于你想要解决的每一个任务来说都是无法扩展的。有监督的机器学习有一个基本的限制。”

无监督的机器学习减少了这种相互作用的影响。数据科学家选择一个大概的数据集，并且告诉软件找到其中的模式，不需要人首先弄明白软件需要寻找什么。由于需要的人工任务非常少，所以没有监督的机器学习(特别是在人工工作负载方面)的可伸缩性要高得多。但是，“无监督”一词可能会产生误导，其实数据科学家还是需要选择数据来进行检查。

Forrester Research 副总裁兼高级分析和机器学习首席分析师 Mike Gualtieri 说：“无人监督的机器学习软件被要求发现可能有用的数据集群，而人类则分析这些数据，并决定下一步做什么。”人们仍然需要对软件创建的数据分组进行分析。

但无人监督的机器学习的收益可能会更广泛。例如， Yue 说，无监督学习可能会在诸如癌症诊断等医疗任务中得到应用。他解释说，标准的诊断工作包括进行活体检查并将其送到实验室。问题在于，活组织检查本身就是人力密集型的分析工作，耗时且昂贵。当医生和患者需要立即知道是否是癌症时，等待活检结果可能会有医疗风险。今天，一位放射科医生通常会观察组织，他解释说，“放射科医师会做出一个预测——包含癌变组织的可能性。”

“有了足够大的训练数据，这可能是一种监督机器学习的应用，”Yue说。“假设我们取了这个数据表——组织的图像和活检结果——然后进行了监督的ML分析。“这将是一种劳动密集型的工作，但它可以检测到活检呈阳性的图像的相似性。

但是，Yue问道，如果把这个过程当做一个没有监督的学习努力，又该怎么办呢?

“假设我们有一个图像数据集，但我们没有活检结果，我们可以用它来确定我们可以用集群来预测什么。”假设样本数为1,000。软件会对图像进行分组，并寻找所有的相似点和不同点，这是基本的模式识别。“假设它找到了10个这样的簇，假设我只能承受10次活组织检查。”我们可以选择从每一个集群中测试一个，”Yue说。“这只是一系列步骤中的第一步，当然，这是对多种癌症的研究。”

导师与决策者

雷锋网了解到，无人监督的学习仍然需要人为其发现的数据集群或模式进行评价，它目前更适合通过突出显示可能感兴趣的数据模式来提高人类的表现。但是，有些地方可能很快就会由数据的质量和数量来改变。

Dittman 说:“我认为，现在人们正在大步跨入自动化，但是人们应该把注意力集中在扩大现有的决策过程上，”“5年后，我们将拥有合适的数据资产，然后你将需要更多的自动化和更少的扩充。”但现在还不是时候。今天，机器学习缺乏可用的数据。它不够细分，宽度上也不够。”

即使机器学习的数据分析变得更加复杂，但我们还不清楚它会怎么改变公司 IT 组织的架构。 Forrester 的 Gualtieri 预计，从现在起五年后，数据科学家的需求就会减少，这种情况就和网页开发人员类似。1995年对网页的Web开发人员的需求远远超过2000年，因为许多网页功能都是自动化并作为模块化脚本出售。他表示，机器学习也可能出现类似的转变，因为软件和服务提供商开始向商业机器学习平台提供应用程序编程接口。

据雷锋网了解，Gualtieri 预计，企业的“构建或购买”模式将会发生一个简单的变化。他解释说:“今天，你将会做出一个决定，雇佣更多的数据科学家。”随着这些api进入市场，它将转向“购买”，而不是“构建”。他补充说，“我们现在看到了这种情况的开始。”其中有几个例子是“Clarifai”，它是一家位于纽约的初创公司，可以通过视频搜索特定的时刻，比如观看数千个婚礼视频，学习交换戒指的仪式，或者“你可以亲吻新娘”，从图像中确定某人的情绪。

Dittman 同意 Gualtieri 的观点，公司可能会创建许多专门的脚本来进行机器学习任务的自动化。但他不同意这将导致五年内计算机科学工作的减少。

Dittman 解释说：“如果你看一下实践数据科学家的数量，那将会大幅增加，但它将会比技术的数字化要慢得多，因为机器学习会进入越来越多的空白领域。“考虑开放源代码趋势，数据科学家工具从代码生成到代码重用，从而开始变得更加容易和易用。

加州理工学院的 Yue 认为，数据科学家的需求将继续上升，因为机器学习的成功将会有更多的机器学习尝试。随着技术的进步，他解释说，越来越多的企业单位将能够利用机器学习，这意味着需要更多的数据科学家来编写这些程序。

从消费者到提供者

推动数据科学家持续需求的部分原因是对数据的渴求，使其更有效。 Gualtieri 看到了一些企业——大约5年之后，也将扮演供应商的角色。他说:“波音可能会成为特定领域机器学习的供应商，并将这些模块卖给那些可能成为客户的供应商。”

宝洁公司的 Dittman 认为，分析数据的两端都是数据，而代码则是高销售的，这可能是企业的一个新的主要收入来源。他解释说:“公司将开始从数据中获利。”“数据行业将会爆炸。数据绝对是爆炸式增长，但缺乏数据策略。获得业务案例所需的正确数据，这往往是一个挑战。”

但 Yue 有不同的顾虑。他说：“五年后，机器学习自然会与法律问题相冲突，我们对歧视，受保护的阶级有很严格的法律。“如果你使用数据算法来决定向谁贷款，你怎么知道这不是歧视性的？这是政策制定者的一个问题。”

Yue 提供了一个软件的例子，该软件发现了消费者贷款拖欠和那些白人消费者之间的相关性。该软件可以扫描每个客户的眼睛颜色，并使用这些信息来决定是否批准贷款。“如果一个人做出了这个决定，就会被认为是歧视性的，” Yue 说。

这个法律问题说明了数据分析师在无监督机器学习中的核心作用。该软件的工作是找到链接，但它表面上是人来决定如何处理这些链接。不管怎样，人力资源部门需要在相当长的一段时间内招募更多的数据科学家。

本文作者：李雨晨

本文转自雷锋网禁止二次转载，