
2022年10月17日,AI生成内容领域的知名项目Stable Diffusion宣布获得了来自Coatue、光速资本以及O’Shaughnessy的种子轮投资,总计1.01亿美元。这一消息来自Stability AI公司,他们将利用这笔资金在图像、语言、音频、视频以及3D领域的AI模型开发上投入,并且其投后估值达到10亿美元。
作者:Tim Jiang
编辑:Tim Jiang
今年以来,AI领域的创作工具层出不穷,从概念词”AI”,到普及词”AI绘画”,再到技术词”txt2img”,它们都在探讨一种功能逻辑——将文字描述转化为计算机生成的图像。
以下是几个重要项目及时间节点供参考:
- 2021年10月,Somnai在Github上创建了Disco Diffusion项目,这是一个在Google Colab上运行的AI程序。今年2月,发布了5.0版本,用户可以根据场景关键词渲染相应图像,该项目迅速在网络上走红。然而,该工具在分辨率和算力方面相对受限。
- 2022年4月,OpenAI发布了DALL·E 2代模型,这是DALL·E的继任者,能够生成高度逼真且风格各异的原创图像。得到微软、Khosla Ventures等支持,但在内容创作边界上更显受限。
- 2022年5月,Google推出了Imagen,一种文本到图像的扩散模型,生成的图片较为真实,质量优于DALL·E 2,但目前主要用于学术研究,并在人物创作上有更多限制。
- 2022年7月,Midjourney项目进入公测阶段,是该模型的第3版,创始人是前Leap Motion联合创始人David Holz,先前负责Disco Diffusion项目的Somnai也加入了Midjourney。
Stability AI是由慕尼黑大学机器视觉学习组和AI视频剪辑技术创业公司Runway合作开发的Stable Diffusion项目,获得了来自黑客组织EleutherAI和德国非营利组织LAION的支持。CEO Mostaque是其联合创始人,公司目前拥有约75名员工。他们希望通过这个项目为大众带来新的AI应用,尤其是在照片写实、视频和动画方面开展更多可能性。
Stability AI的创始人Mostaque并非研发人员或艺术家,而是一名在伦敦从事13年对冲基金工作的金融从业者。他毕业于牛津大学数学和计算机专业。最初,Stability AI由名为Eros Investment的天使投资公司投资。Eros Investment认为Stability AI具备3D建模的能力,未来或将应用于AR/VR游戏中。预计随着模型的不断提升,公司将添加音频、3D和视频功能,并将其整合到Canva和WordPress等平台中。
由于Stable Diffusion项目的底层技术是免费开源的,在商业模式上一开始并不明确。CEO Mostaque表示,公司已与一些政府和领先机构建立了合作伙伴关系来销售技术,从而在盈利上领先于其他起步阶段的技术公司。
至于Stable Diffusion的创新,通过该项目,您可以在几秒钟内创作出梵高绘制的碧昂斯肖像画或葛饰北斋创作的赛博朋克城市景观。该项目的主要革新之处在于将模型的计算空间从原先的像素透过技术手段,降低至一个更低的维度空间,即潜空间(Latent Space),以保留丰富的信息和细节状态。这使得潜空间相较于其他模型,极大降低了内存和计算需求,例如,从512 x 512的图像一下子减少至64 x 64,内存需求减少了98%。dio 是 Stability AI 为普通用户推出的产品,类似于融合了 Stable Diffusion 模型的在线 Photoshop。新用户注册后需使用积分,不同参数条件下生成的图像消耗的积分也不同。例如,我将李白的《早发白帝城》的英文诗句输入到 DreamStudio 中,效果还是不错的。
在 AI 技术发展中,如果说 Stable Diffusion 的技术归纳为“text2img”,主要针对 2D 平面内容,那么项目的新方向则是通过“img2img”实现 3D 内容的生成。img2img 技术是 Stable Diffusion 的新功能,可以进一步将 text2img 生成的图片实现真人化,从2D变为3D。这种技术降低了用户将创意付诸实践的门槛,激发了大众的创造力。对于依靠创意谋生的艺术工作者来说,他们通过这项技术表达创意的能力也将得到提升,就如同上世纪80和90年代CAD技术的过渡一样。稳定性AI的CEO Mostaque 指出,随着GPU和算力的提升,Stable Diffusion 可能在一年内就能在智能手机上运行。他表示,新的技术将在更多价格低廉的设备上得以应用,这将引发AI推动的创意呈现指数级增长。目前,Stable Diffusion 和其他模型已经开始探索生成动态视频,可能首先应用于创作成本更低的短视频领域,而他希望这一创作过程是多模态的,就像《星际迷航》中的全息甲板(Holodeck)。
文章中提到的AI工具

新推出的 Gen-3 Alpha 是一个高速、高保真、可控的视频生成工具

前所未有的文本生成图像技术

致力于创造对全人类有益的安全 AGI

Stability AI旗下,引领生成式人工智能创新发展

开启 AI 绘画的奇幻之旅