行业动态 | Midjourney:如何在AI绘图市场中脱颖而出?

发布日期:2023-05-04 15:08
随着人工智能技术的快速发展,基于AIGC(人工智能内容生成)技术的产品不断涌向市场,其中AI绘图模型成为了最为普遍的一种。而在这个领域里,Midjourney 和 Stable Diffusion 是业内的两大龙头。尤其是 Midjourney,最近推出了一个针对二次元、动漫风格的绘图模型 Niji-journey V5,其造型张力和色彩运用等方面早已不输给高级原画师了。

图片
(图源:网络)

Niji V5 取得如此质变的主要原因在于支持了风格化参数设置,用户只需使用简单的风格化命令就能够引用不同艺术家设计风格产出图片。这项技术非常先进,即便是普通的使用者也能轻松地生成“大师级”的作品。Niji V5 产出的图片优秀,几乎涵盖了市场上所有的常见风格,并且只需要进行微调,便可以达到大部分优秀高级原画的工作需求。

与 Stable Diffusion 的明星公司 Stability AI 相比,Midjourney 的运营状况十分良好。Midjourney 采用付费订阅的商业模式,在 Discord 上积累了超过1000万的用户,每年的营收也已经达到了1亿美元。在绘画 AI 这个领域,Midjourney 是如何取得今天的成就的呢?

人类想象力延伸
Midjourney是一家由大卫·霍尔茨创建的公司,他认为AI是人类想象力的延伸,而非现实世界的复制品。大卫曾在大学期间涉猎激光雷达、大气科学和火星任务等领域,并在2010年创立了Leap Motion公司,但由于VR/AR技术不成熟,该公司未能开发出具有实际应用场景的产品。

2019年,大卫将其出售给竞争对手Ultrahaptics,并创立了一个工作室,探索新的机会。借助Transformer架构的突破性进展,Midjourney应运而生,以图像合成为主要业务。其11名团队成员中,8名是研发人员,另外还有1名法务和1名财务。80%的人员都是研发人员,其中4名是尚未毕业的本科生。虽然这些本科生具有实际操作和创业经历,但缺乏经验,也不是毕业于顶尖名校。除此之外,Midjourney的研发团队都有着较为丰富的职业经历。

大卫将公司的Logo设计成一艘帆船,在波浪中航行,意为水是危险的同时也是文明的驱动力。他认为,懂得如何与水同行的人们,将能够更好地生活,因此,AI是人类想象力的引擎。Midjourney在众多竞争对手中并非唯一一家“雄心壮志”的公司,例如Stability.AI的母公司Stable Diffusion也宣称要成为世界领先的开源AI公司,共享AI于全世界。然而,口号不能当饭吃,大卫必须解决融资和盈利等问题。

开源VS闭源
Midjourney是一家AI机器人公司,目前采用的盈利模式是付费订阅服务,用户可以选择3种不同套餐,分别为10/30/60美元/月。然而,要使这种商业模式成功,Midjourney必须解决两大关键问题:如何激发用户的付费意愿,以及如何处理大规模模型训练所需的高成本。

图片
(图源:网络)

在激发用户付费意愿方面,当初 AI 图像生成技术开始流行时,很多开发者并没有对此产生付费的想法,因为Stable Diffusion等头部企业采用了开源的方式,完全免费、限制次数,任何人都可以使用,吸引了大量的开发者。虽然需要具备一定的硬件条件,但可以在几秒钟内生成高清图像。然而,开源代码迭代速度快,效率高,但商业化效应有限。相比之下,Midjourney的模型采用闭源系统,通过积累庞大的用户数量并建立独特的数据集,可根据用户需求进行持续有针对性地模型训练,长期来看更有利于建立竞争壁垒,更符合闭源系统的优点。Midjourney采用边测试、边改进的方法,探索用户需求并不断优化模型。例如,团队推出了一个速度更快但质量较低的版本,经过多轮测试后,团队发现用户对于选择的侧重点不同,Midjourney也相应地提供了多个版本以满足不同用户的需求。此外,Midjourney使用流程简便,无需本地部署,对硬件性能要求也极低,因此使用难易度非常友好,给用户带来良好的使用体验和高度的访问粘性。

综上所述,Midjourney在满足用户需求、提高使用流畅度等方面取得了成功,聚集了大量的用户,进而实现了付费订阅服务。

算力难题
Midjourney是一个无需高端硬件的AI图像生成平台。这要归功于他们的独特技术,即所有的图片都是在云上生成并训练的,因此对用户几乎没有硬件要求。

但是,这种庞大的云计算量显然需要高昂的成本。那么,在没有融资的情况下,如何解决在云上进行大模型训练所需的高昂成本呢?

实际上,Midjourney创始人大卫解决这一问题的方式很简单,也很惊人。他直接向云供应商发了一封电子邮件,请求借用10000个GPU资源,而供应商则根据大卫之前的成就和声誉,直接提供了这些资源,并没有要求任何风险投资。

当然,这并不是偶然的。大卫之前的创业已经获得了良好声望,而且他一直认为技术的最大限制不是规模、成本或速度,而是人们如何与之互动。这一理念吸引了很多人的关注,也获得了云供应商的支持。

然而,即使得到了供应商的支持,Midjourney仍然需要面对算力不足的问题。因此,他们在世界各地设立了自己的服务器,比如韩国、日本或荷兰等,在每个时区的夜间,当地没有人使用GPU,Midjourney就可以充分利用这些算力,实现GPU负载平衡。这种依靠云端服务器来降低成本、加快模型训练的做法,与目前腾讯训练大模型的策略十分相似。

图片
(图源:网络)

在如今大模型训练中,算力已经成为瓶颈,因此如果直接调用云上的大模型和AI算力资源来完成训练,然后一键分发到用户终端,将会极大地降低成本、减少工作量。这也反映了互联网的演进方向,无论是To B还是To C行业,都在追求越来越集约精简的终端硬件、越来越低门槛的交互入口、越来越轻盈的软件应用。因此,大模型从云端入手,是模型服务商实现商业化的必争之地。

总结
在当前AIGC时代的浪潮中,企业要想脱颖而出,并不一定需要拥有财力雄厚的头部大企业的资本实力。由于生成式人工智能和云计算等技术的不断进步,日益抹平了大企业和中小企业之间的技术和成本差距。因此,企业真正竞争的关键只剩下人才、创意和执行力。

Midjourney这样的小团队凭借其极度灵活的性格、创新的实践和勇于尝试的精神,在市场竞争中获得了成功。这种小团队只需要少数精英人才,就可以完成大企业难以完成的任务。

但是,想要在市场竞争中立足,小团队的产品必须满足多样化、个性化的用户需求。这是因为AIGC技术是一种“泛用性”的技术,它并非针对某行业、人群或某类企业的专属技术。

只有在满足多样化需求的过程中,尽可能地满足不同层次用户的特殊需求,才能让产品真正具有生命力,并获得长远的发展机会。因此,成功的产品必须能够服务所有人,同时也不能忽视每一个特殊的人。这也是Midjourney成功的另一个重要原因。