2025-07-15
深度学习
00

错误信息显示 /root/.cache/huggingface/datasets/ 目录空间不够,无法创建临时文件。让我帮你查看相关代码并提供解决方案。

可以通过指定 --cache_dir 参数来将缓存路径设置到你的挂载存储上。根据代码分析,LlamaFactory 支持通过 cache_dir 参数来指定 Hugging Face 数据集和模型的缓存目录。

2025-07-14
深度学习
00

根据查看 Dockerfile 和 setup.py 文件,我可以为你解释 EXTRAS 参数的作用:

EXTRAS 参数的作用

在 Docker 构建镜像时,EXTRAS 参数用于指定安装 LLaMA Factory 时需要包含的额外依赖项。它在 Dockerfile 的第 35 行被使用:

dockerfile
展开代码
RUN pip install --no-cache-dir -e ".[${EXTRAS}]" --no-build-isolation

这相当于执行:

bash
展开代码
pip install -e ".[metrics]"
2025-07-11
深度学习
00

最近用 LLaMA-Factory 训练大模型,数据都放在 AWS S3 上,发现其实不用自己写 boto3,直接用 S3 路径就能搞定。这里把我的踩坑和经验都写下来,帮你少走弯路。

1. S3 数据集怎么用?

LLaMA-Factory 支持直接从 S3 读取数据集,不用你自己写 boto3 脚本,也不用提前把数据下载到本地。你只要在配置里写上 S3 路径,比如 s3://my-bucket/data.jsonl,剩下的都交给 LLaMA-Factory。

2025-07-11
Git
00

先执行git lfs install是否可以,Ubuntu22 安装 git lfs 支持:

bash
展开代码
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash sudo apt-get install git-lfs

比如我想clone这个数据集:https://huggingface.co/datasets/BAAI/SVIT

我应该huggingface登录后同意协议。

然后访问 https://huggingface.co/settings/tokens 创建 token 。

得到token hf_QtMqvBcwjKiYBQbHxCAbgazrSdCmPbf

我的用户名是 hugxd

那我在本地可以直接这样clone这个数据集仓库:

bash
展开代码
git clone https://hugxd:hf_QtMqvBcwjKiYBQbHxCAbgazrSdCmPbf@huggingface.co/datasets/BAAI/SVIT
2025-07-10
Git
00

要抛弃本地所有更改,使本地仓库与云端完全一致,可以按照以下步骤操作:

  1. 首先获取云端最新状态:
bash
展开代码
git fetch --all
  1. 然后重置本地分支到与云端完全一致的状态(以main分支为例):
bash
展开代码
git reset --hard origin/main
  1. 如果你有未跟踪的文件也需要清理(慎用,这会删除所有未跟踪的文件和目录):
bash
展开代码
git clean -fd

完整命令序列:

bash
展开代码
git fetch --all git reset --hard origin/main git clean -fd
2025-07-10
Linux运维
00

1. JuiceFS 和 boto3 的本质区别

名称类型主要用途典型场景
boto3Python SDK直接操作 S3/OSS 对象存储代码里直接读写 s3:// 文件
JuiceFS文件系统/存储方案把 S3/OSS 挂载成本地目录K8s/服务器挂载云存储
2025-07-10
见闻录
00
  • 感想

时间,滴答,滴答,就过去了。

  • 旁观者下的爱情

近两天好朋友分手了,问起来,唏嘘不

2025-07-09
Linux运维
00

下载:

bash
展开代码
wget http://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh

安装:

bash
展开代码
bash Miniconda3-latest-Linux-x86_64.sh

初始化:

bash
展开代码
/root/miniconda3/bin/conda init

重启终端即可。

2025-07-08
工具使用
00

下载:

https://repo.continuum.io/miniconda/Miniconda3-latest-Windows-x86_64.exe

安装填写路径:

bash
展开代码
D:\ProgramData\miniconda3

环境变量给入:

bash
展开代码
D:\ProgramData\miniconda3\condabin D:\ProgramData\miniconda3\Scripts

Python环境举例:

bash
展开代码
conda create -n py310 python=3.10 -y conda install scipy -y
2025-07-04
Linux运维
00
显卡型号架构显存/类型显存带宽CUDA核心/张量核心/RT核心单精度算力(FP32)张量算力(FP16/FP8)功耗(TDP)主要用途/备注
H200Hopper141GB HBM3e4,800 GB/s16,896 / 528 / 2467 TFLOPS(SXM)3,958 TFLOPS(FP8)700W(SXM)H100升级,超大模型训练
H100Hopper80GB HBM32,000 GB/s14,592 / 456 / 2451 TFLOPS(PCIe)3,026 TFLOPS(FP8)350W(PCIe)旗舰AI训练/推理
H800Hopper80GB HBM32,000 GB/s14,592 / 456 / 2451 TFLOPS(PCIe)3,026 TFLOPS(FP8)350WH100中国特供
L40SAda Lovelace48GB GDDR6 ECC864 GB/s18,176 / 568 / 14291.6 TFLOPS1,466 TFLOPS(FP8)350W数据中心AI/渲染
H20Hopper96GB HBM32,000 GB/s14,592 / 456 / 2447 TFLOPS1,400+ TFLOPS300WH100/H800进一步阉割版
RTX 4090 24GB/48GB*Ada Lovelace24GB GDDR6X
(部分云定制48GB)
1,008 GB/s16,384 / 512 / 12882.6 TFLOPS660.6 TFLOPS(FP16)450W消费级旗舰,AI推理/渲染
L4Ada Lovelace24GB GDDR6300 GB/s7,424 / 232 / 5830.3 TFLOPS485 TFLOPS(FP8)72W云推理/视频AI
A800Ampere80GB HBM2e2,039 GB/s6,912 / 432 / 10819.5 TFLOPS312 TFLOPS(FP16)300W中国特供,AI训练/推理
BI-V150(国产)国产AI芯片32GB/64GB HBM2******国产AI推理/训练
2025-07-04
工具使用
00

进行2个设置,才能让硬件在Win11发挥最大性能。

1. 设置1

搜索电源和睡眠设置 ,在电源模式(根据电源使用情况和性能来优化你的设备)选择最佳性能

2. 设置2

右键此电脑,打开“属性”。

打开其中的“高级系统设置”。

进入“高级”,点击性能下的“设置”。

勾选开启“调整为最佳性能”。

进入“高级”,勾选“程序”最后“确定”保存即可调整为最佳性能。

2025-07-02
Linux运维
00

由 conda-forge 社区维护,默认使用 conda-forge 源,避免 Anaconda 的商业许可风险,且预装 Mamba 加速依赖解析。

2025-06-16
建站教程
00

前置知识

什么是Docker?

Docker是一个容器化平台,它允许你将应用程序及其依赖项打包到轻量级、可移植的容器中。容器类似于虚拟机,但更加高效。

核心概念:

  • 镜像(Image):应用程序的只读模板
  • 容器(Container):镜像的运行实例
  • 仓库(Registry):存储镜像的地方,如Docker Hub
2025-06-16
建站教程
00

我针对VanBlog进行了二次开发,以下是一些关键文档,有助于你理解VanBlog的设计。

项目地址:https://github.com/xxddccaa/vanblog

  1. 快速部署VanBlog
2025-06-15
建站教程
00

VanBlog自动备份

前言

在博客系统的运维中,数据备份是至关重要的环节。VanBlog作为一个现代化的博客系统,提供了完善的自动备份功能,不仅支持本地JSON数据备份,还集成了阿里云盘云端备份。本文将深入分析这个功能的实现原理、架构设计和优化过程。

功能概览

VanBlog的自动备份功能位于 /admin/site/setting?tab=autoBackup,主要包含以下特性:

核心功能

  • JSON数据备份:完整导出博客所有数据(文章、草稿、分类、标签、用户设置等)
  • 定时自动执行:用户可自定义备份时间,系统精确执行
  • 文件管理:自动清理过期备份,保留指定数量的最新备份
  • 阿里云盘集成:支持将静态文件自动同步到阿里云盘备份盘

技术特性

  • 零轮询设计:直接在指定时间执行,无需周期性检查
  • 动态任务调度:设置变更立即生效,无需重启服务
  • 增量上传:阿里云盘备份使用--skip参数避免重复传输
  • 容错机制:备份失败不影响系统正常运行
2025-06-13
建站教程
00

文章操作自动同步标签数据功能实现

功能说明

在文章的增删改操作后,系统现在会自动触发标签同步功能,无需手动点击"同步标签数据"按钮。这个功能通过异步方式实现,不会影响用户体验。

2025-06-13
建站教程
00

VanBlog 标签性能优化方案

背景问题

原系统存在以下性能瓶颈:

  • 博客数量:2k篇
  • 标签数量:4w个
  • 前端获取标签时一次性加载所有数据,导致卡顿
  • 标签查询通过遍历所有文章实现,复杂度O(n*m)
  • 后台标签管理页面性能差
2025-06-12
建站教程
00

🎯 什么是渲染?为什么很重要?

渲染 = 把动态数据转换成静态HTML文件的过程

VanBlog使用Next.js的 ISR(Incremental Static Regeneration 增量静态再生成) 技术:

2025-06-12
建站教程
00

这个博客的方法是我看数据库数据的,不懂的不要轻易使用,直接用博客系统带的备份方案,直接导出json 和 图片。

数据库表结构分析

VanBlog的数据主要存储在MongoDB中,包含以下重要数据:

需要保留的数据(文章数据):

  • articles - 文章内容
  • drafts - 草稿
  • categories - 分类
  • tags - 标签(如果有的话)
  • customPages - 自定义页面
  • moments - 动态
  • viewers - 浏览量统计
  • visits - 访问记录

需要重新配置的数据(系统配置):

  • metas - 站点信息(包含域名配置)
  • users - 用户信息
  • settings - 系统设置
  • tokens - API令牌
2025-06-10
工具使用
00

UV 是一个由 Astral 团队开发的高性能 Python 环境管理工具,它集成了包管理、虚拟环境管理和 Python 版本管理等功能。以下是使用 UV 管理 Python 环境的主要步骤和方法:

1. 安装 UV

UV 可以通过多种方式安装:

  • 通过 pip 安装(不推荐,功能可能不全):
    bash
    展开代码
    pip install uv
  • 通过脚本安装(推荐):
    • Linux/macOS
      bash
      展开代码
      curl -LsSf https://astral.sh/uv/install.sh | sh
    • Windows(PowerShell):
      powershell
      展开代码
      irm https://astral.sh/uv/install.ps1 | iex
    安装完成后,可以通过 uv --version 验证安装。