深度学习

219 文章 × 1055354 字

深度学习--

219 篇文章

1

大模型安全研究1-abliteration

14:55

2

显卡性能测试方法vllm吞吐量测试延迟测试

10:30

3

sudo pkill -9 -f launcher.py

21:24

4

llamafactory-cli train 快速训练测试

20:24

5

gguf这种文件如何启动为openai式的接口?

11:02

6

大模型的涌现能力

14:19

7

神经语言模型缩放定律:核心观点解读

14:13

8

72B蒸馏到3B,在3B上再微调?

16:55

9

大型语言模型尚无法实现推理自纠错!CoT为什么提升准确率?

16:48

10

基于大模型的外卖词槽提取完整方案

14:19

11

vivo BlueLM-2.5-3B

11:34

12

超长上下文的大模型训练

16:07

13

美团LongCat-Flash-Thinking

10:18

14

做agent的坑的记录

11:27

15

AgentCPM-GUI

16:30

16

transformer加普通token

21:18

17

占用显卡显存代码

12:44

18

claude web 转 openai api 接口

13:38

19

ms-swift 多机多卡训练

23:18

20

LLama-Factory数据预处理

08:58

21

BLEU和ROUGE评估指标详解

18:11

22

NCCL 官方文档手册位置

16:16

23

LLaMA-Factory 多机多卡训练配置

10:11

24

Linux系统支持中文字符处理

15:10

25

rlaunch vllm Qwen2.5-VL-7B-Instruct

09:48

26

stepfun api

16:55

27

new_special_tokens

16:51

28

如何向 Transformers 模型词表中添加新 token

15:13

29

tokenizer_config.json

10:07

30

LLaMA-Factory EXTRAS

22:29

31

LLaMA-Factory AWS S3 文件读写

11:32

32

【知识点】5种Agent模式

11:41

33

【深度学习】Fooocus Outpaint 原理

11:34

34

【知识点】​​匈牙利算法的计算过程示例

09:00

35

【知识点】OpenPose姿态检测

22:31

36

【知识点】CDP人脸聚类,共识驱动传播人脸聚类方法

17:11

37

InsightFace人脸检测方法分析

16:16

38

【知识点】U-Net/HRNet 区别

15:54

39

【知识点】Mask R-CNN

15:43

40

AstrBot NapCat 消息机器人实战教程教学

16:34

41

sglang 部署 Qwen/Qwen3-32B

15:05

42

sglang 部署Qwen/Qwen2.5-VL-7B-Instruct

10:50

43

【知识点】YOLO编年史,YOLO全系列解析

15:50

44

【知识点】GAN的常用的损失函数有哪些 ?

12:27

45

【知识点】SVM支持向量机,松弛变量,核技巧

11:27

46

【知识点】VLLM 自动前缀缓存,推理加速

13:45

47

【知识点】强化学习关键术语

23:59

48

RoPE 旋转位置编码详解与计算示例

12:24

49

【知识点】深度学习面试题汇总(持续更新)

10:12

50

【训练】Qwen2.5VL 多机多卡 Grounding Box定位(2)

16:25

51

【知识点】Transformer中计算最复杂的模块是什么

16:04

52

【知识点】训练模型时遇到out of memory怎么解决

15:37

53

【知识点】训练过程出现NaN如何解决

15:30

54

【知识点】DPO、PPO reference 模型和 actor 模型是否可以为同一个模型

23:14

55

【知识点】PPO、DPO、KTO

23:02

56

【知识点】DPO强化学习

22:28

57

【知识点】PPO强化学习

21:33

58

【知识点】sft如何避免灾难性遗忘

14:52

59

【知识点】为何进行Query改写,Query改写的核心价值

14:34

60

【知识点】微调模型 VS RAG,为何选RAG?

14:29

61

【损失函数】InfoNCE损失,多模态模型的对比学习代码

21:23

62

【知识点】m-RoPE(多模态旋转位置编码)

15:36

63

如何给transformers库打Python补丁

15:10

64

【代码解读】LLama-Factory SharegptDatasetConverter

14:31

65

【API】将SigClip部署为API

20:50

66

【训练】Qwen2.5VL 多机多卡 Grounding Box定位(1)

17:39

67

vLLM 如何使用配置 tokenizer_config.json

14:55

68

Qwen/Qwen3如何支持长的上下文

13:13

69

Qwen/Qwen3-30B-A3B vllm部署和访问

09:53

70

Qwen/Qwen3-32B vllm部署和访问

14:58

71

AMEX vivo UI agents 数据集介绍

11:49

72

上传模型到huggingface

10:53

73

【训练】InternVL2_8B full sft 多机多卡训练

16:02

74

LLaMA-Factory 训练参数解读

11:03

75

【训练】LLaMA-Factory InternVL3-8B 多机多卡训练

10:59

76

InternVL 1技术深度分析

19:39

77

InternVL 3的技术深度分析,代码与原理

18:52

78

InternVL <box>

18:18

79

ValueError: Image features and image tokens do not match: tokens: 2305, features 2304

10:14

80

CycleGAN 的原理与代码

12:07

81

Stable Diffusion:文本提示如何作用于Stable Diffusion的图像生成过程

11:46

82

Stable Diffusion:CFG Scale 是如何控制文生图的

11:43

83

Stable Diffusion:噪声采样的调度器的原理

11:38

84

Stable Diffusion:采样器的数学原理

11:33

85

Stable Diffusion:文生图的代码执行原理

11:28

86

Stable Diffusion:使用ControlNet为黑白照片上色

18:49

87

图像质量评估所使用的一些指标计算方法

17:31

88

【训练】Qwen 2.5 VL 图片转公式,微调实战教学

15:02

89

LLaMA-Factory多机多卡训练Qwen2.5VL

14:31

90

使用 device_map 优化 Transformers 模型的多 GPU 显存分配

19:34

91

vllm部署Qwen2.5-VL-7B-Instruct

18:05

92

vllm 部署QwQ-32B ,访问代码

11:08

93

AIGC降重提示词

10:41

94

【训练】LLaMA-Factory多机多卡微调训练实战

15:40

95

onnx gpu在docker里支持

16:20

96

sdwebui docker打包

15:34

97

ControlNet Reference模型:reference_adain、reference_adain+attn与reference_only的区别与应用场景解析

10:47

98

【训练】LLaMA-Factory微调sft Qwen2.5-VL-7B-Instruct

13:59

99

Qwen2.5-VL 技术报告总结

16:35

100

使用mergekit合并大型语言模型

10:34

101

LiteLLM 做大模型API接口Proxy转发

16:06

102

跑ZhipuAI/CogView4-6B的效果

17:55

103

阶跃星辰 Step-Vedio-T2V Docker 推理

17:13

104

llama.cpp 跑 qwen2.5 量化模型

17:42

105

ktransformers 部署Deepseek-R1

09:54

106

sglang 启动 Qwen2.5-32B-Instruct-GPTQ-Int4 API

17:00

107

sglang 启动 DeepSeek-R1-Distill-Qwen-32B API

15:07

108

旋转位置编码(RoPE)的代码片段

17:12

109

OpenWebUI使用DeepSeek R1满血版,DeepSeek R1 API调用

17:59

110

FlashAttention 透彻理解

16:12

111

DDColor 效果实战教程

15:26

112

pix2pix pytorch 图片上色,模型训练实战,Docker【3】

18:18

113

pix2pix mmgeneration 线稿上色,模型训练实战,Docker【2】

16:50

114

pix2pix mmgeneration通用场景黑白图片上色模型训练,Docker 【1】

12:37

115

文生图 排行榜

15:48

116

Open WebUI + Ollama

08:52

117

OpenWebUI 使用 Azure OpenAI

08:13

118

Azure OpenAI 转 openai proxy接口

07:25

119

部署siglip-so400m-patch14-384为API

17:52

120

flux diffuser 分卡切分运行

11:41

121

llama-factory 量化数据要求 c4_demo.json

16:29

122

量化方法的辨析-动态离线量化方法、静态离线量化方法和量化训练方法是什么区别?

15:48

123

Milvus使用教程(五)总结

13:51

124

Dify流式请求示例

17:36

125

mini-omni2 语音对话模型 论文

16:47

126

Moshi 论文解析

15:21

127

LLM的不同角色system、user

14:12

128

Conan-embedding模型使用

11:11

129

Conan-embedding模型论文解析

10:33

130

embedding模型排行榜

10:25

131

TensorRT-LLM,Qwen2.5 加速量化部署

15:15

132

RoPE 旋转位置编码 解析

14:09

133

大模型量化方法解析:WO、AWQ、GPTQ 与 SQ 的对比

17:00

134

开源LLM大模型排行榜

15:54

135

sglang 部署Qwen2VL7B,大模型部署,速度测试,深度学习

13:55

136

seeAct 论文解析

15:58

137

ollama Docker部署qwen2.5:72b-instruct

14:37

138

ollama Docker部署 Qwen2.5-Coder-32B-Instruct

11:38

139

Dify,编排应用,随心所欲使用大模型

11:04

140

Ovis,多模态大模型微调

18:00

141

pixart Docker部署推理

16:21

142

vllm 部署 Qwen/Qwen2.5 ,访问代码

15:51

143

vllm 部署 Qwen/Qwen2.5-Coder-7B-Instruct openai接口

10:23

144

Docker 官网vLLM镜像 快速部署 Qwen2.5

21:59

145

测试NanoFlow:比 vLLM 和 TensorRT-LLM 更快

16:15

146

requests openai api 接口访问

14:55

147

数据准备详解:打造高质量的语言模型训练数据集

17:02

148

ChatGPT openai接口,图片对话程序

10:45

149

ChatGPT openai接口多轮对话程序

10:44

150

构建最新的LLaMA-Factory镜像

11:30

151

相机里面的视觉算法(4)

17:42

152

相机里面的视觉算法(3)

17:25

153

相机里面的视觉算法(2)

16:55

154

相机里面的视觉算法(1)

14:40

155

安装vllm并部署Qwen2VL API

11:11

156

如何构建自己的vllm镜像,cuda12.1

10:12

157

使用vllm部署Qwen2VL API

12:31

158

自监督学习-基础知识分享

10:11

159

三元损失(triplet loss)

09:45

160

Qwen2-VL API 快速部署服务教程

17:37

161

使用LLaMA-Factory微调sft Qwen2-VL-7B-Instruct

16:27

162

A Cookbook of Self-Supervised Learning 中文翻译

09:52

163

词汇分割方法:WordPiece Model 和 Byte Pair Encoding 的详细解读

12:12

164

Transformer的并行化提现在哪个地方?Decoder 端可以做并行化吗?

12:10

165

Transformer中的前馈神经网络?使用了什么激活函数?相关优缺点?

12:07

166

Transformer模型中的LayerNorm与BatchNorm:为什么选择LayerNorm?

12:02

167

为什么在获取输入词向量之后需要对矩阵乘以embedding size的开方?

11:58

168

为什么在多头注意力中需要对每个 Head 进行降维?

11:49

169

如何在计算 Attention Score 时对 Padding 做 Mask 操作

11:46

170

Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?

11:37

171

【深度学习】Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?

11:32

172

【知识点】transformer为什么使用多头注意力机制?为什么不使用一个头

11:26

173

如何理解多模态模型Qwen2-VL中的MIN_PIXELS和MAX_PIXELS

17:36

174

使用LMDeploy部署InternVL2,速度测试

15:09

175

【深度学习】Qwen2-VL API速度测试与部署

13:41

176

【深度学习】LLaMA-Factory部署Qwen2-VL-72B-Instruct-GPTQ-Int4,容器即服务启动

12:40

177

【深度学习】LLaMA-Factory部署Qwen2-VL-72B-Instruct-GPTQ-Int4

11:37

178

【深度学习】FLUX.1,文生图,推理部署实战教程

15:29

179

stable-diffusion-3-medium部署体验实战教学

10:45

180

fooocus-api,得到一些训练图片的过程

12:51

181

fooocus-api访问API得到图,Docker部署

13:54

182

【深度学习】LLaMA-Factory部署Qwen2-VL

14:57

183

使用Python和Pydub调整音频音量

17:13

184

深度学习,TTS AB测试代码

11:28

185

【深度学习】语音TTS,微调训练 StableTTS V1.1

15:52

186

【深度学习】语音TTS,微调训练 fishaudio / fish-speech-1.4

11:15

187

【深度学习】强化学习介绍

16:25

188

音频格式:OGG、RAW、WAV与AAC的区别

10:19

189

如何测试 ONNX Runtime 是否使用了 GPU 进行推理

17:51

190

Python使用 Gradio 实现多张图片上传WebUI

10:02

191

【深度学习】GOT-OCR2.0:一款端到端的 OCR 模型,镜像

08:43

192

使用Kubernetes(K8s)进行多机多卡分布式训练

08:42

193

【深度学习】torch.distributed.launch、torchrun、accelerate 和 deepspeed 对比解析

20:40

194

多机多卡训练中的极速数据互联:NVLink、RDMA与NCCL配置详解

16:50

195

【深度学习】如何评估大语言模型(LLM)性能

10:00

196

【深度学习】探索大模型训练中的关键标签:system、user、role、content、assistant、observation、function

17:33

197

【深度学习】什么是PPO训练?

15:59

198

【深度学习】LLaMA-Factory,Why is LoRA much slower than Freeze?

15:49

199

【深度学习】使用ms-swift微调训练Qwen2-VL做印章识别

21:25

200

【深度学习】Python,印章数据集制作,印章制作

13:35

201

机器视觉的一些题目

08:49

202

【深度学习】LLaMA-Factory微调sft Qwen2-VL进行印章识别

17:32

203

【深度学习】如何安装xformer?flash-attn?

16:44

204

【深度学习】Qwen2-VL最强开源OCR模型,手写字体识别、印章识别

16:26

205

【深度学习】Python,金融欺诈行为检测

15:14

206

【深度学习】安全帽检测,目标检测,Faster RCNN训练

10:12

207

【深度学习】安全帽检测,目标检测,yolov10算法,yolov10训练

10:03

208

【推理框架】MNN框架 C++、Python、Java使用例子 Demo

19:15

209

【深度学习】深度学习推理框架 TensorRT MNN OpenVINO ONNXRuntime

19:14

210

insightface 人脸识别模型训练 RecordIO数据格式

18:29

211

【深度学习】人脸聚类算法的评估指标程序,精准率、召回率、F1分数

18:28

212

深度学习 人脸识别 优秀开源项目 state-of-the-art SOTA deepface 项目 使用过程 教程

18:28

213

【深度学习】表情识别A Dual-Direction Attention Mixed Feature Network for Facial Expression Recognition 训练

18:11

214

【深度学习】miniCPM2.6,微调sft训练用于印章识别

12:14

215

【深度学习】【语音TTS】GPT-SoVITS v2 实战,训练一个人的音色,Docker镜像

11:00

216

【知识点】决策树算法详解:ID3、C4.5 和 CART 的原理与实现

10:40

217

【深度学习】【机器学习】用神经网络进行入侵检测,NSL-KDD数据集,基于机器学习(深度学习)判断网络入侵,网络攻击,流量异常【3】

10:38

218

【深度学习】【机器学习】用神经网络进行入侵检测,NSL-KDD数据集,基于机器学习(深度学习)判断网络入侵,网络攻击,流量异常

10:38

219

【深度学习】【机器学习】用神经网络进行入侵检测,NSL-KDD数据集,基于机器学习(深度学习)判断网络入侵

10:38