2025-02-17
DL论文
00

目录

创新性框架和模型设计
生成能力和细节表现
强大的模型架构
总结

https://arxiv.org/abs/2412.04431

image.png

image.png

"Infinity∞: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis" 之所以效果出色,原因如下:

创新性框架和模型设计

  1. 比特级建模:Infinity 采用比特级建模方法,替代了传统的索引级建模,大大增加了词汇表的容量,理论上可以扩展到无穷大(例如 2642^{64})。这极大地减少了量化误差,使得模型能够更好地重建和生成高分辨率图像的细节。

  2. 比特级自我修正机制:在训练过程中,通过随机翻转一些比特来模拟预测错误,并重新量化残差特征,从而增强了模型的自我修正能力,有效地解决了教师强制训练带来的训练-测试差异。

  3. 无限词汇分类器 (IVC):IVC 可以高效地处理无限大的视觉词汇表,采用并行二值分类器,较传统的索引分类器而言,参数和内存的需求大幅减少,优化更佳。

生成能力和细节表现

  1. 高保真生成:模型能够生成高分辨率、逼真度极高的图像,并且在多种样式和不同宽高比中表现优异,不论是精确的提示跟随、空间推理、文本渲染还是美学效果。

  2. 强大的扩展能力:通过同时扩展图像词汇表和转换器的大小,Infinity 显示出了强大的扩展规律和提高细节重建生成质量的能力。如表1和表2所示,在多个基准测试上均取得了出色的成绩。

  3. 快速推理:在生成1024×1024图像时,Infinity在0.8秒内生成完毕,比起目前最快的扩散模型SD3-Medium快了2.6倍,成为目前最快的文本到图像生成模型。

强大的模型架构

  1. 视觉自回归建模 (VAR):Infinity 在视觉自回归模型的基础上进行变革,重新定义了图像的自回归学习,将其表示为一种逐步加细“下一层级预测”的框架。

  2. 动态宽高比和位置编码:Infinity 支持多种宽高比的图像生成,通过预定义的多个比例尺规模表和位置编码方法,有效增强了模型处理不同尺度和宽高比特征的能力。

  3. 多阶段训练策略:在训练阶段,Infinity采用逐步增加分辨率和高质量数据集的多阶段训练策略,显著提升了模型的生成能力和逼真程度。

总结

Infinity 通过比特级建模和无限词汇分类器的创新,引入了自我修正机制和视觉新型自回归框架,大幅提升了图像生成质量和细节复现能力,且在多个基准测试中表现优异,树立了新的自回归模型标杆。这些技术改进不仅提升了模型生成效果,还显著加快了推理速度,为未来更快速、更真实的生成模型提供了强大支持。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!