如果编写算法的数据科学家离开了组织,会发生什么 | 智能技术

发布日期:2019-12-11 10:00
数据科学家:展示你的机器学习成果。编制软件开发文档是标准实践——算法设计也应该如此。



在过去的两年中,美国食品和药物管理局已经批准了几个人工智能机器学习模型来完成任务,比如对皮肤癌进行分类和检测肺栓塞。但是对于建立这些模型的公司来说,如果编写算法的数据科学家离开了组织,会发生什么呢?

在许多企业中,一个人或一小群数据科学家负责构建基本的机器学习模型。历史上,他们在自己的笔记本电脑上通过反复试验开发出这些模型,并将其用于生产。但是在这种转移中,数据科学家可能不会考虑传递关于模型开发的所有信息。如果数据科学家离开,这些信息就永远丢失了。

这种潜在的信息丢失就是为什么数据科学的专家们正在呼吁将机器学习变成一个正式的、文档化的过程,由组织内更多的人来监督。
公司需要考虑的是,如果他们的数据科学家接受了新的工作,或者政府机构或重要客户要求对算法进行审计以确保其公平和准确,会发生什么情况。如果不知道用于训练模型的数据是什么,不知道如何对数据进行加权,可能会导致业务损失、负面报道,甚至可能导致监管审查(如果模型被证明是有偏见的)。

微软Azure的开源机器学习策略主管大卫•阿隆奇克(David Aronchick)说,企业已经意识到,它们必须像运行软件开发实践一样运行机器学习。这意味着尽可能多地鼓励文档和协作开发。

微软对于文档流程应该是什么样子有一些想法。这个过程从研究人员构造和组织原始数据并适当地注释它开始。在此阶段没有文档化的流程可能会导致注释不良的数据,这些数据带有与it相关的偏差,或者与业务想要解决的问题无关。

接下来,在训练过程中,研究人员将数据输入到神经网络中,调整各种因素的权重,以获得预期的结果。通常,研究人员在这一点上仍然是单独工作的,但是其他人应该参与进来,看看模型是如何开发的——只是为了防止在随后的法规遵循审查甚至诉讼中出现问题。

神经网络在理解如何做决策时是一个黑盒子,但是数据、层数以及网络如何对不同的参数进行加权并不神秘。研究人员应该能够一眼看出数据的结构和权重。

在这一点上,拥有良好的文档可以帮助使模型在未来的使用中更加灵活。例如,一个购物网站专门处理圣诞节消费模式数据的模型,不能将同样的模型应用于情人节的消费。如果没有良好的文档,数据科学家将不得不重新构建模型,而不是回去调整几个参数以适应新的假期。

流程的最后一步实际上是部署模型。从历史上看,只有在这种情况下,其他人才会参与进来,了解数据科学家的辛勤工作。如果没有良好的文档,他们在理解它时肯定会遇到麻烦。但是现在,这些数据对于许多企业来说是如此重要——更不用说快速适应的需要了——是时候让企业构建能够与软件开发过程的质量相匹敌的机器学习过程了。