https://github.com/NVIDIA/apex
为了可以离线安装,现编译出whl文件:
bash展开代码#!/bin/bash
# 构建 apex whl 文件的脚本
# 创建输出目录
mkdir -p /workspace/wheels
# 配置 pip 源(避免代理问题,使用国内镜像)
export PIP_INDEX=${PIP_INDEX:-https://mirrors.aliyun.com/pypi/simple/}
export PIP_TRUSTED_HOST=${PIP_TRUSTED_HOST:-mirrors.aliyun.com}
# 先安装构建依赖(避免构建时下载失败)
pip install --no-cache-dir -i ${PIP_INDEX} --trusted-host ${PIP_TRUSTED_HOST} \
packaging wheel setuptools pyproject-metadata
# 克隆 apex 仓库
git clone https://github.com/NVIDIA/apex.git /workspace/apex
# 进入 apex 目录
cd /workspace/apex
# 设置环境变量(与 Dockerfile 中保持一致)
export TORCH_CUDA_ARCH_LIST="7.0;7.5;8.0;8.6;8.9;9.0"
export CUDA_HOME=/usr/local/cuda
export MAX_JOBS=${MAX_JOBS:-16}
# 使用 pip wheel 构建 whl 文件(不安装)
# -w 指定输出目录
# --no-build-isolation: 使用已安装的构建依赖,不创建隔离环境
# --no-deps: 不安装运行时依赖(只构建 wheel)
NVCC_APPEND_FLAGS="--threads 4" APEX_PARALLEL_BUILD=8 APEX_CPP_EXT=1 APEX_CUDA_EXT=1 \
pip wheel -v --no-build-isolation --no-deps -i ${PIP_INDEX} --trusted-host ${PIP_TRUSTED_HOST} \
-w /workspace/wheels .
echo "apex whl 文件已构建完成,保存在 /workspace/wheels 目录"
ls -lh /workspace/wheels/*.whl
重新安装:
bash展开代码pip uninstall -y apex || true && APEX_CPP_EXT=1 APEX_CUDA_EXT=1 pip install -v --no-build-isolation /workspace/apex-0.1-cp312-cp312-linux_x86_64.whl
https://docs.nvidia.com/deeplearning/frameworks/pytorch-release-notes/rel-25-11.html
nvcr.io/nvidia/pytorch:25.08-py3
https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
我们推出了 MiMo-V2-Flash 模型。这是一个混合专家(MoE)模型,总参数量 309B,实际运行参数量 15B,兼顾推理能力强、响应速度快,适合智能体任务。
模型采用了混合注意力结构,结合了滑动窗口注意力(SWA)和全局注意力,滑动窗口长度 128 token,混合比例为 5:1。我们通过多 token 预测(MTP)进行了 27 万亿 token 的预训练,上下文长度初始为 32K,后续扩展至 256K。
为了高效开展训练后优化,我们引入了创新的“多教师策略蒸馏”(MOPD)方法。这种方法让多个领域专家模型(例如通过大规模强化学习训练得到)提供密集的 token 级奖励信号,使学生模型能完整掌握教师模型的能力。
尽管总参数量分别仅为 DeepSeek-V3.2 和 Kimi-K2 的 1/2 和 1/3,MiMo-V2-Flash 的性能仍可媲美这些顶尖开源模型。在推理阶段,我们将 MTP 模块用作推测解码的草稿模型,配合三层 MTP 结构,实现了平均 3.6 的接受长度和 2.6 倍的解码加速。
我们将完整模型权重及三层 MTP 权重全部开源,以促进开放研究和社区协作。
mask_history 参数详解54:57:src/llamafactory/hparams/data_args.py展开代码mask_history: bool = field( default=False, metadata={"help": "Whether or not to mask the history and train on the last turn only."}, )
要让Cursor(VSCode)在Windows任务栏显示工程名称而不是文件名,需要修改VSCode
tools工作流: