随着人工智能技术的快速发展,AI写真生成工具成为了近年来备受关注的热门话题之一。在GitHub上,一款名为InstantID的开源AI写真生成工具近期引起了广泛的关注和讨论。开源一周这款工具已经获得了5.4千颗星星,表明了开发者和社区的高度认可。
InstantID是什么?
InstantID 是一种新的、最先进的、免调整的方法,只需一张图像即可生成 ID 保留的生成。身份保留生成是指生成的图像和数据保留原始人或主体的身份(ID)。简单来说,例如在生成人脸时,它是一种确保生成的人脸看起来与原始人相同的技术。这使得可以在不丢失人的特征和个性的情况下生成新的图像和数据。所有这一切只需一张图像即可实现
InstantID的设计旨在解决现有个性化图像合成方法在实际应用中的一些限制,例如高存储需求、漫长的微调过程以及需要多张参考图像。InstantID不需要训练任何额外的模型,也不需要测试时的微调,只需要一次前向推理,就能与社区中的流行的预训练文本到图像的扩散模型无缝集成,作为一个灵活的插件。
InstantID是一个来自中国的开源项目,由InstantX团队开发。主要的成员是小红书的员工。
InstantID是如何做到的?
InstantID 仅提供一张参考 ID 图像,旨在从单个参考 ID 图像生成具有各种姿势或样式的自定义图像,同时确保高保真度。 它包含三个关键组件:
- 捕获强大的语义人脸信息的ID嵌入;
- 具有解耦交叉注意力的轻量级适配模块,便于使用图像作为视觉提示;
- 一个 IdentityNet,它通过额外的空间控制对参考面部图像中的详细特征进行编码。
几个方面与以往不同:
- 不训练UNet,因此可以保留原始文本到图像模型的生成能力,并与社区中现有的预训练模型和ControlNets兼容;
- 不需要测试时调优,所以对于一个特定的角色,不需要收集多张图片进行微调,只需要对一张图片进行一次推断;
- 实现了更好的人脸保真度,并保留了文本的可编辑性。
InstantID的效果非常惊艳,它能够在各种风格中生成高保真的个性化图像,例如卡通、油画、素描、动漫、游戏等。用户只需要输入一张面部图像和一段文本描述,就能得到满意的结果。InstantID不仅能够生成各种风格的个性化图像,还能够保持文本的可编辑性,即用户可以随时修改文本描述,来改变图像的生成效果。
InstantID 的创新之处
- 人脸特征提取:InstantID 利用预训练的人脸编码器,比如 InsightFace 的 antelopev 模型,来提取强语义的人脸特征,以增强图像生成的语义准确性。这样,扩散模型就能更好地识别和保留人脸的细节,比如眼睛、鼻子、嘴巴等。
- Cross-Attention 机制:InstantID 通过解耦的交叉注意力机制,将人脸特征作为 Image Prompt 嵌入,增强文本提示的效果,同时保持对生成图像的精细控制。这样,扩散模型就能更好地根据文本的要求,来调整图像的风格,比如颜色、光照、背景等。
- IdentityNet:InstantID 引入 IdentityNet 对人脸图像进行编码,通过强语义和弱空间的条件控制,进一步提升 ID 的保真度。IdentityNet 是一个可插拔的模块,它可以和任何预训练的文本到图像扩散模型兼容,而无需重新训练。