InstantID：开源AI写真生成工具的新星

随着人工智能技术的快速发展，AI写真生成工具成为了近年来备受关注的热门话题之一。在GitHub上，一款名为InstantID的开源AI写真生成工具近期引起了广泛的关注和讨论。开源一周这款工具已经获得了5.4千颗星星，表明了开发者和社区的高度认可。

InstantID是什么？

InstantID 是一种新的、最先进的、免调整的方法，只需一张图像即可生成 ID 保留的生成。身份保留生成是指生成的图像和数据保留原始人或主体的身份（ID）。简单来说，例如在生成人脸时，它是一种确保生成的人脸看起来与原始人相同的技术。这使得可以在不丢失人的特征和个性的情况下生成新的图像和数据。所有这一切只需一张图像即可实现

applications

InstantID的设计旨在解决现有个性化图像合成方法在实际应用中的一些限制，例如高存储需求、漫长的微调过程以及需要多张参考图像。InstantID不需要训练任何额外的模型，也不需要测试时的微调，只需要一次前向推理，就能与社区中的流行的预训练文本到图像的扩散模型无缝集成，作为一个灵活的插件。

InstantID是一个来自中国的开源项目，由InstantX团队开发。主要的成员是小红书的员工。

Snipaste_2024-02-02_14-38-36

InstantID是如何做到的？

InstantID 仅提供一张参考 ID 图像，旨在从单个参考 ID 图像生成具有各种姿势或样式的自定义图像，同时确保高保真度。它包含三个关键组件：

捕获强大的语义人脸信息的ID嵌入;
具有解耦交叉注意力的轻量级适配模块，便于使用图像作为视觉提示;
一个 IdentityNet，它通过额外的空间控制对参考面部图像中的详细特征进行编码。

pipeline

几个方面与以往不同：

不训练UNet，因此可以保留原始文本到图像模型的生成能力，并与社区中现有的预训练模型和ControlNets兼容;
不需要测试时调优，所以对于一个特定的角色，不需要收集多张图片进行微调，只需要对一张图片进行一次推断;
实现了更好的人脸保真度，并保留了文本的可编辑性。

compare-a

InstantID的效果非常惊艳，它能够在各种风格中生成高保真的个性化图像，例如卡通、油画、素描、动漫、游戏等。用户只需要输入一张面部图像和一段文本描述，就能得到满意的结果。InstantID不仅能够生成各种风格的个性化图像，还能够保持文本的可编辑性，即用户可以随时修改文本描述，来改变图像的生成效果。

editbility

InstantID 的创新之处

人脸特征提取：InstantID 利用预训练的人脸编码器，比如 InsightFace 的 antelopev 模型，来提取强语义的人脸特征，以增强图像生成的语义准确性。这样，扩散模型就能更好地识别和保留人脸的细节，比如眼睛、鼻子、嘴巴等。
Cross-Attention 机制：InstantID 通过解耦的交叉注意力机制，将人脸特征作为 Image Prompt 嵌入，增强文本提示的效果，同时保持对生成图像的精细控制。这样，扩散模型就能更好地根据文本的要求，来调整图像的风格，比如颜色、光照、背景等。
IdentityNet：InstantID 引入 IdentityNet 对人脸图像进行编码，通过强语义和弱空间的条件控制，进一步提升 ID 的保真度。IdentityNet 是一个可插拔的模块，它可以和任何预训练的文本到图像扩散模型兼容，而无需重新训练。

总结

InstantID作为一款开源的AI写真生成工具，受到了广泛的关注和认可。对AI写真生成领域产生了积极的影响，推动了技术的进步、应用的拓展和社会讨论的展开。随着开源社区的不断发展和用户需求的不断增加，我们可以期待InstantID在未来的发展中发挥更大的作用，为用户创造更多的可能性。