本项目旨在构建一个基于InternVL2-40B
模型的多模态API服务。该服务使用Docker环境,利用lmdeploy
库进行模型部署,并通过API接口接收图像和文本输入,生成描述性文本输出。
首先,使用以下命令启动 Docker 镜像,并挂载指定目录到容器中:
bashdocker run --gpus all -it --shm-size 16G --rm -v /root/xiedong/Qwen2-VL-7B-Instruct:/Qwen2-VL-7B-Instruct --net host qwenllm/qwenvl:2-cu121 bash
接下来,在容器内安装必要的依赖包:
bashpip install git+https://github.com/huggingface/transformers@21fac7abba2a37fae86106f87fcf9974fd1e3830
pip install accelerate
pip install -U qwen-vl-utils
# 根据你的 CUDA 版本安装 vllm
CUDA_VERSION=cu121
pip install 'vllm==0.6.1' --extra-index-url https://download.pytorch.org/whl/${CUDA_VERSION}