想要一个真正困难的机器学习问题吗?试试农业 | 智能技术

发布日期:2019-10-24 10:00
想要一个真正困难的机器学习问题吗?试试农业,约翰迪尔实验室说。
拥有近200年历史的拖拉机制造商约翰迪尔(John Deere)现在认为自己是一家软件公司。



约翰迪尔(John Deere)数字创新主管亚历克谢罗斯塔普肖夫(Alexey Rostapshov)和精准农业主管朱利安桑切斯(Julian Sanchez)在公司旧金山实验室内合影。

机器在世界上最难学习问题是什么?自动驾驶汽车?会走路的机器人?癌症检测?

不,朱利安桑切斯说。是农业。

桑切斯可能有点偏见。他是约翰迪尔(john deere)的精准农业主管,负责为传统农用车添加智能。但他确实有一点远见,他花时间研究医疗设备和空中交通管制系统的软件。

上个月,我在该组织旧金山办事处会见了桑切斯和约翰迪尔实验室(John Deere labs)数字创新主管亚历克谢罗斯塔普肖夫(Alexey Rostapshov)。实验室于2017年成立,目的是利用该地区的技术专长,既将机器学习应用于内部农业问题,又与合作伙伴合作,建立与迪尔大型绿色机器配合良好的技术。迪尔在旧金山科技密集的市场南部的邻居是LinkedIn、Salesforce和Planet Labs,这使得它在招聘方面处于有利地位。

“我们确实是有人敲门说,‘你们这里是干什么?罗斯塔普肖夫说,还有一些人返回投递简历。

这就是为什么桑切斯认为农业对人工智能来说是一个巨大的挑战。

“这不仅仅是驾驶拖拉机,”他说,尽管自主驾驶技术是混合动力的一部分。(例如,约翰迪尔(john deere)正在使用精密gps进行大量工作,以提高自动驾驶能力,并允许拖拉机在田地周围规划自己的路线。)

但桑切斯说,分类问题比驾驶问题更复杂。

玉米:一个经典的分类问题。


图片:Tekla Perry

桑切斯说,其中一项关键工作是人工智能系统,“它能让我判断收割的粮食是优质还是劣质,不断为收割机自动调整系统。”该公司已经在销售这种图像分析技术的早期版本。但是谷物类型和在不同条件下生长的谷物之间的许多差异,使得这项任务对于机器学习来说是一项艰巨的任务。

“吃玉米,”桑切斯说。“假设我们正在构建一个深度学习算法来检测这种玉米。我们拍了很多果仁的照片。假设我们在伊利诺伊州中部采摘这些果仁。但是,在一英里多的地方,农民种植了一种稍有不同的杂交种,这种杂交种的黄色颜色稍有不同。同时,另一个农场三天后在五英里外的田地里收获;它是同一个杂交种,但看起来也不一样。

“这是一个势不可挡的分类挑战,而这只针对玉米。但你这样做不仅是为了玉米,还得在混合料中添加20多种谷物;有些品种,如油菜,几乎是微乎其微的。”

桑切斯指出,即使是地面条件的变化也远远大于道路条件。

“假设我们正在构建一个深度学习算法,以检测收获后土壤中残留了多少残留物,包括麦茬和一些谷壳。让我们开车去中西部2000英亩的田地看看残留物。那太好了,但我保证如果你明年去开那些车,它看起来会大不相同。

“深度学习很擅长在熟知算法内的插值;它不擅长在它没有看到的情况下进行推算。而在农业领域,你总是觉得有一系列条件尚未归类。”

大量的大数据
罗斯塔普肖夫指出,数据规模也令人望而生畏。“我们是世界上最大的云计算服务用户之一,”他说。“我们正在收集全球13万台联网机器每秒500万到1500万次的测量数据。我们的数据库有超过1.5亿英亩,使用的是PB和PB的存储空间。我们处理的数据比推特(Twitter)多。”

这些信息大多是所谓的脏数据,也就是说,它的格式或结构并不相同,因为它不仅来自各种各样的约翰迪尔机器,而且还包括有权访问该平台的大约100家其他公司的数据,包括天气信息、航空图像和土壤分析。

因此,桑切斯说,迪尔不得不“在终端数据清理方面进行巨大的投资”。

他说:“我们在这个问题上越来越熟练了。”“我们一开始只是清理自己的数据。你会觉得它很漂亮,很整洁,因为它来自我们自己的机器,却是有很多不同的型号和不同的年份组成。然后,我们开始对农艺数据进行地理空间标记,从我们的车辆上获取有关您在哪里施用除草剂和肥料等的信息。当我们开始从无人机上获取其他数据时,可以说,我们已经很擅长清理这些数据了。”

对于一家希望雇佣机器学习工程师的公司来说,遇到难题可能是件好事。

桑切斯说:“我们对有潜力的新人们的开场白是‘这件事很重要’,然后,如果我们有机会和他们多谈谈,我们会跟进‘不仅这件事很重要,但这些问题真的很难解决,也很有趣。“当我们解释农业的可变性,以及我们如何将所有最新的工具应用于这些问题时,我们得到了他们的关注。”

罗斯塔普霍夫说,软件工程师“知道养活日益增长的人口是一个巨大的问题,他们对改变现状的前景感到兴奋。

目前只有20名工程师在旧金山实验室工作,而这一天正是忙碌的一天,一些研究人员将部分时间花在蓝河科技(Blue River Technology)上,蓝河科技是一家总部位于桑尼维尔(Sunnyvale)的初创公司,2017年被迪尔收购。大约一半的研究人员关注人工智能。实验室正在将办公空间扩大一倍(目前还没有关于人员配置计划的消息)。

桑切斯报告称,在整个公司范围内,约翰迪尔(Deere)拥有数千名软件工程师,其中许多人在工作中使用人工智能和机器学习工具,机械和电气工程师的数量也差不多。“如果你看看我们10年前的招聘情况,”他说,“这对机械工程师来说是沉重的负担。但如果你现在看看这些数字,绝大多数是在软件领域工作的工程师。我们仍然需要机械工程师,我们确实制造绿色机器,但如果你走我们的技术人才足迹,这是相当安全的,称约翰迪尔为软件公司。如果你关注公司目前正在进行的关键对话,95%的对话都与软件有关。”

桑切斯说,目前,这些软件工程师专注于开发技术,让农民“少花钱多办事”。意思是,用更少的燃料、更少的种子、更少的肥料、更少的农药和更少的工人来获得更多更好的农作物,并把这些积木组合起来,他说,最终可能会导致完全自主的农用车。迪尔今天收集的数据,在很大程度上停留在筒仓里(虚拟的那种),人工智能算法分析特定的数据集,为农民个体提供指导。然而,在某种程度上,利用匿名化数据和从农民那里购买的工具,聚合数据可以提供一些强有力的见解。

桑切斯说:“我们还没有向农民提出要求。“我们做聚合并不是为了寻找模式。我们专注于提供技术,让农民个人少用,定位自己在一个中立的位置。我们不是要卖给你更多的种子或肥料。所以我们正在建立一个良好的信任水平。从长远来看,我们可以通过深入学习进行更多的交流。”