2024-10-09
Linux运维
00

目录

AutoGPTQ 安装教程与问题解决
参考教程:
错误问题描述与解决方案
我的系统信息:
错误日志:
问题分析:
解决方案:

AutoGPTQ 安装教程与问题解决

参考教程:

官方教程地址:[AutoGPTQ 教程](https://github.com/AutoGPTQ/AutoGPTQ/blob/main/README_zh.md

教程中提到的基本安装步骤如下:

  1. 克隆源码:

    bash
    git clone https://github.com/PanQiWei/AutoGPTQ.git && cd AutoGPTQ
  2. 从项目目录进行安装:

    bash
    pip install .
  3. 如果不需要构建 CUDA 拓展,可以使用以下命令取消构建:

    bash
    BUILD_CUDA_EXT=0 pip install .
  4. 对于支持的系统,可以通过以下命令启用 triton 加速:

    bash
    pip install .[triton]
  5. 针对 AMD GPU 用户,若需要从源码安装支持 RoCm,请先设置 ROCM_VERSION 环境变量,并通过设置 PYTORCH_ROCM_ARCH 来加快编译速度。例如,对于 MI200 系列设备,设置该变量为 gfx90a

    bash
    ROCM_VERSION=5.6 pip install .
  6. 在使用 RoCm 系统时,还需要预先安装以下依赖包:rocsparse-dev, hipsparse-dev, rocthrust-dev, rocblas-dev, hipblas-dev


错误问题描述与解决方案

我的系统信息:

bash
nvcc --version

显示为:

Cuda compilation tools, release 12.3, V12.3.107

错误日志:

bash
pip install .

报错如下:

... ValueError: Trying to compile AutoGPTQ for CUDA compute capabilities 5.2;6.0;6.1;7.0;7.2;7.5;8.0;8.6;8.7;9.0+PTX, but AutoGPTQ does not support the compute capabilities {'5.2'}...

问题分析:

从错误日志可以看出,当前环境中的 TORCH_CUDA_ARCH_LIST 包含了不支持的 CUDA 计算能力 5.2。而 NVIDIA A100 显卡支持的计算能力是 8.0 及以上。

解决方案:

  1. 更新 TORCH_CUDA_ARCH_LIST 环境变量: 为解决该问题,你需要去除不支持的 5.2 计算能力,并保留 A100 显卡支持的 8.0 及以上版本。可以通过以下步骤进行操作:

    bash
    export TORCH_CUDA_ARCH_LIST="8.0;8.6;8.7"
  2. 持久化设置: 如果希望每次启动环境时自动应用该设置,可以将其添加到 .bashrc 文件中:

    bash
    echo 'export TORCH_CUDA_ARCH_LIST="7.2;7.5;8.0;8.6;8.7;9.0+PTX"' >> ~/.bashrc source ~/.bashrc
  3. 重新安装 AutoGPTQ: 完成上述设置后,重新执行安装命令,确保环境变量正确生效并避免不兼容的计算能力导致的问题。


通过以上步骤,你可以顺利解决由于不兼容 CUDA 计算能力导致的安装报错问题,并确保 AutoGPTQ 正常运行于 NVIDIA A100 显卡上。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!