人工智能可实现零经验自主编辑照片 | 智能技术

发布日期:2019-07-27 10:00
一项名为Double-DIP的人工智能技术在没有事先培训的情况下,使用深度学习来优化图像处理功能。



想象一下,通过店面窗口拍摄的照片给以前从未睁开眼睛的人,并要求她指出反射中的内容以及商店中的内容。对她而言,照片中的所有内容都只是一片混乱。计算机可以执行图像分离,但要做得好,它们通常需要手工制作的规则或许多明确的演示:这是一个图像,这是它的组成部分。

新研究发现,仅给出一个图像的机器学习算法可以发现允许它将您想要的部分与您不需要的部分分开的模式。多用途方法可能有一天会受益于使用计算机视觉的任何领域,包括取证,野生动物观察和艺术照片增强。

机器学习中的许多任务需要大量的训练数据,而这些数据并不总是可用的。一组以色列研究人员正在探索他们所谓的“深度内部学习”,即软件从头开始计算单个图像的内部结构。他们的新工作建立在另一个名为DIP或Deep Image Prior的团队的最新进展之上。(Spoiler:新方法称为Double-DIP。)

Deep Image Prior使用深度学习,这是一种涉及多层神经网络的技术。概括地说,训练DIP以再现特定的给定图像。首先,您向网络提供随机输入,然后输出一组像素。它将其输出与给定图像进行比较,并调整其内部参数,以便在下次生成更接近该图像的内容。对于相同的目标图像,该过程重复数百次。

至关重要的是,DIP使用一种神经网络来反映大脑处理视觉信息的方式,寻求重复特征的层次结构,从边缘和角落到四肢和动物。这种结构充当了一种先前的期望,即世界将在多个尺度上具有模式。因此,如果给定的图像存在问题--例如灰尘或空白点--网络会加入自己的期望,修改目标的缺陷,并在适当的条件下产生更真实的东西。您最终得到了一个更好看的图像版本,删除了斑点,并填充了空白点。

Double-DIP并行组合了两个DIP。它们每个都将随机输入转换为图像,并叠加两个图像。将组合图像与目标图像进行比较,并且DIP独立地调整它们的参数,使得它们的输出加起来更接近。最终发生的事情是每个DIP都集中在一组内部相似的视觉特征或补丁上,并且还与其他DIP的视觉特征或补丁相辅相成。你会得到两个有凝聚力的图像,虽然彼此不同,但它们组合起来形成目标。

“我很惊讶两个网络之间容易分裂补丁。” 以色列魏茨曼科学研究所的计算机科学家Michal Irani和该论文的高级作者说。“这就像奥卡姆的剃刀一样。”她说。“指的是哲学中的原则,即两种解释中较简单的说法更可能是真的。网络学习最简单的解释。”

算法上有一些旋钮可以精确指导它如何分割图像。例如,它可以将前景与背景分开:在草地上显示斑马,它会产生一条孤独的斑马线,另外还会产生一个空场。在不同的设置下,它将通过玻璃拍摄的图像分成反射和玻璃后面的内容。

转动另一个旋钮,它需要一个模糊的图像,将阴霾与城市天际线分开。它除了在许多图像上训练的最先进的系统之外。它还可以在没有经过培训的情况下再次从照片中删除水印。研究人员上个月在加利福尼亚州长滩举行的计算机视觉和模式识别会议上报告了他们的工作。

莫斯科Skolkovo科学与技术研究所的计算机科学家Dmitry Ulyanov是原始DIP论文的主要作者,他说他和他的合作者设计了DIP来研究网络架构(与数据相比)的重要性 - 而不是创造实际应用。但是“在Double-DIP中,他们提出了四到五个应用程序,”他补充说,“实验也很神奇,他们正在工作,所以这是一个非常好的扩展。”

Irani表示,她的团队现在正在将这个想法应用于鸡尾酒派对问题,使用Double-DIP将多个混合声音分成两个或多个录音。她看到“零射击”和“少射击”学习--将任务与之前的训练样例归零或减少-作为人工智能的重要组成部分。