在我们项目中,选择 RAG 而不是直接微调 LLM,主要基于以下几个核心考量:
Information :表示该损失函数与信息论有关,用于最大化两个相关样本之间的互信息(mutual information)。
Noise-Contrastive Estimation (NCE) :最初由 Gutmann 和 Hyvärinen 提出的一种方法,用于通过区分真实数据和噪声样本来估计概率分布。InfoNCE 是 NCE 的一个变体,专门用于对比学习。
m-RoPE是传统RoPE(旋转位置编码)在多模态场景下的扩展。传统RoPE处理的是一维序列,而m-RoPE专门设计用来处理包含图像和视频等视觉内容的多模态输入。
如代码中注释所述:
多模态3D旋转位置编码是1D旋转位置编码的扩展。输入嵌入序列包含视觉(图像/视频)嵌入和文本嵌入,或者仅包含文本嵌入。对于视觉嵌入部分,我们分别在时间、高度和宽度维度上应用旋转位置编码。这里我们将通道维度分为3个块,用于时间、高度和宽度旋转位置编码。对于文本嵌入部分,我们只应用1D旋转位置编码。
展开代码docker run -it --entrypoint bash vllm/vllm-openai:latest
执行这个看到库的路径:
展开代码root@4832fc8eb0e1:/app# python3 -c "import transformers; print(transformers.__file__)" /usr/local/lib/python3.12/dist-packages/transformers/__init__.py
我要改的是在:
展开代码/usr/local/lib/python3.12/dist-packages/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py
在Ubuntu系统中,NVIDIA显卡驱动在内核升级后失效是一个常见问题,主要由以下原因引起:
.run
文件手动安装的驱动不会随内核更新自动重建模块;本文将提供4种专业级解决方案,涵盖从长期稳定方案到临时应急措施,并附带故障排查与预防建议。
bash展开代码mkdir -p wheels
cd wheels
# 下载包及其所有依赖
pip download swanlab==0.5.7 -d wheels --no-cache-dir
✅ 示例包:
swanlab==0.5.7
💡 替换为你需要的包名和版本
SharegptDatasetConverter
是LLaMA-Factory中的一个核心数据处理组件,专门用于处理ShareGPT格式的对话数据(包括OpenAI格式)。这个转换器将各种形式的对话数据转换为统一的内部格式,方便后续处理。下面几个方面可以帮助你理解它的工作原理:
代码开始定义了一个tag_mapping
字典,将数据中的角色标签(例如"user"、"assistant")映射到内部使用的枚举值。例如,对于OpenAI格式,它会将"user"映射到Role.USER.value,将"assistant"映射到Role.ASSISTANT.value等。这保证了不同数据集之间角色表示的一致性。
对三个不同文件夹中的图像进行相似度匹配,并将匹配成功的三张图像(每个文件夹各一张)拼接成一张横向长图保存。以下是详细的功能解析:
核心功能
图像匹配:
• 从三个文件夹(yuantu
原图、Effect_ox1
效果图1、Effect_pf
效果图2)中读取图片。
• 通过计算图像的均方误差(MSE)衡量相似度,找到每个原图对应的最相似的两张效果图(分别来自两个效果图文件夹)。
• 使用全局优化算法(迭代移除已匹配的图片)确保匹配的唯一性和最优性。
图像拼接: • 将匹配成功的三张图片(原图 + 效果图1 + 效果图2)横向拼接成一张长图。
• 拼接时保持所有图片高度一致,宽度按原始比例缩放。
结果保存:
• 将拼接后的图像保存到save_mse
文件夹中,文件名按序号命名(如001.jpg
)。
在掌握了算法面试中最常见的几大类题型(如动态规划、DFS/BFS、贪心、字符串、树)之后,还有一些非常重要的补充知识点也常常出现在高频面试题中。以下是五大进阶方向及对应的必刷题目推荐。
树(Tree) 是算法面试中非常核心的数据结构,广泛涉及遍历、递归、DFS/BFS、二叉搜索树(BST)、平衡树、字典树(Trie)等知识点。本文将对树类常见题型进行系统分类与经典题目解析,帮助你快速掌握解题思路。