大量3D数据集帮助智能机器人了解事物的本质 | 广东省智能创新协会

发布日期:2019-07-04 10:00
PartNet是一个新的常见对象语义数据库,为智能机器人带来了全新的现实理解。PartNet数据集包含超过26,671个3D模型,涵盖24个对象类别,每个对象都使用细粒度的3D零件信息进行注释。




使人类适应我们周围世界的一件事使我们能够同时理解所有类别的事物,然后利用这种一般性理解来理解我们以前从未见过的具体事物。例如,考虑像灯一样的东西。我们都看过一些灯。没有人见过每一盏灯。但在大多数情况下,我们可以第一次走进某人的房子,轻松识别他们所有的灯具以及它们的工作方式。当然,每隔一段时间,就会有一些非常奇怪的东西会导致你不得不问,“呃,那是一盏灯吗?我如何开启?“但大多数时候,我们广泛的灯具心理模型让我们摆脱困境。 

灯和其他类别的物体具有许多彼此共同的碎片。灯通常有灯泡。他们经常有阴影。可能还有一个基础可以防止它掉下来,一个可以让它脱离地面的机身和一根电源线。如果你看到具有所有这些特征的东西,它可能是一盏灯,一旦你知道,你就可以做出有关如何有效地与之互动的有根据的猜测。

这种程度的理解是机器人往往特别糟糕的事情,这是一个真正的耻辱,因为它是多么有用。您甚至可能会争辩说,如果我们要相信它们在非结构化环境中自主运行,那么机器人将必须理解与此接近的对象。在本周举行的2019年计算机视觉和模式识别会议(CVPR)上,来自斯坦福大学,加州大学圣地亚哥分校,SFU和英特尔的一组研究人员宣布推出PartNet,这是一个庞大的常见3D对象数据库,按照要求进行分解和注释。他们希望,教一个机器人正是一盏灯。


PartNet数据集中24个对象类别的细粒度部件注释示例形状。

PartNet的一个子集ShapeNet,超过50,000常见对象的甚至更加庞大的3D数据库。PartNet在其数据库中有24,671个对象,分为24个类别(如门,桌子,椅子,灯,微波和时钟),每个对象都被分解为标记的组成部分。这是两个看起来完全不同的灯的样子:



PartNet为每个类别提供专家定义的分层模板,如灯(中)。该模板包括不同的对象类型,如台灯(左)和吸顶灯(右)。该模板设计为深度和全面,涵盖结构上不同类型的灯具,相同的部件概念,如灯泡和灯罩,在不同类型的共享。

所有语义标记的细节都是使PartNet与众不同的原因。像ShapeNet这样的数据库基本上只是说“这里有一堆灯具,”它的用处有限。相比之下,PartNet是一种更基本地了解灯具的方式:它们由哪些部件组成,控制器往往在哪里,等等。除了帮助更广泛地识别以前看不见的灯之外,它还使得自主系统(通过适当的培训)能够以有效的方式推断出如何与那些看不见的灯相互作用。

正如您所料,创建PartNet是一项巨大的工作量。将近70个“专业注释器”平均花费8分钟为26,671个3D形状中的每一个注释,总共573,585个零件,然后每个注释至少由另一个注释器验证一次。为了保持一致,为每个对象类创建了模板,目标是以一种仍然全面覆盖描述整个对象类所需的所有内容的方式最小化部件集。这些部分也是按层次结构组织的,小部分是较大部分的一部分。

为了使其在PartNet本身之外有用,机器人必须能够自己进行3D分割步骤,获取对象的3D模型(机器人创建的对象),然后将它们分解成可以识别的碎片并与现有的对象模型相关联。出于多种原因,这是一项棘手的事情:例如,您需要能够识别点云中的单个部件,这些部件可能很小但也很重要(如抽屉拉门和门把手),以及许多看起来像视觉的部件类似的可能在语义上完全不同。

研究人员已在此方面取得了一些进展,但它仍然是一个需要更多工作的领域。这也是PartNet的用途 - 提供可用于开发更好算法的数据集。在某些时候,PartNet可能是系统基础的一部分,甚至可以完全独立地注释类似的3D模型,就像我们看到自动驾驶数据集从人类注释过渡到人工监督的自动注释一样。将这种语义理解水平带到不熟悉和非结构化的环境中对于那些看似即将到来的真实世界的自适应机器人来说至关重要。