2024-10-21
深度学习
00

为了让镜像在cuda12.1.0编译,只能自己build一个镜像了。官方的现在的cuda12.4镜像。如果自己显卡的驱动不高,是无法支持cuda12.4的。

2024-10-18
深度学习
00

使用 vllm 部署 Qwen2VL API

参考资料:

官方文档:vllm 部署指南

2024-10-18
课程学习
00

image.png

page_1 前言 1998年,国家教育部在其颁布的《普通高等学校本科专业目录和专业介绍》中,在每个学科专业的毕业生应获得的几个方面的知识和能力的陈述中,都明确提出了这样一项要求:掌握文献检索、资料查询的基本方法,具有初步的科学研究能力和一定的实际工作能力。本教材即是针对我校各个学科的专业设置及学生研究能力的培养,结合我校图书馆的馆藏文献资源及因特网信息资源情况,为选修文献检索课的本科生或研究生而编写。本教材除了第三章2节,第四章2节和第五章3节由林葆编写,第三章4节“二、搜索引擎检索”由韩春华编写,第六章1节由庞蓓编写外,其余章节均由黄日昆编写,全书也由黄日昆统稿。 限于水平,本教材定有误漏,敬请使用者批评指正,以便今后修改完善。 编者 2014年3月

2024-10-18
课程学习
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-17
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-17
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-16
DL论文
00

https://arxiv.org/abs/1910.01108

深度解析 DistilBERT:更小、更快、更便宜的 BERT 模型

近年来,预训练的大规模语言模型在自然语言处理(NLP)领域掀起了一场革命。尤其是 BERT(Bidirectional Encoder Representations from Transformers)模型,通过在多种下游任务中实现卓越的性能,成为了 NLP 领域的基石。然而,BERT 的庞大体量和高昂的计算成本使得在资源受限的环境中部署变得困难。为了解决这一问题,Hugging Face 的研究团队提出了 DistilBERT,这是一种经过蒸馏的 BERT 模型,具有更小的体积和更快的推理速度,同时在性能上几乎没有损失。

本文将深入探讨 DistilBERT 的核心思想、实现方法以及在实际应用中的表现。

2024-10-16
DL论文
00

https://arxiv.org/abs/1909.11942

深入解析ALBERT:轻量级的BERT模型

近年来,预训练语言模型在自然语言处理(NLP)领域取得了巨大的成功,其中BERT(Bidirectional Encoder Representations from Transformers)模型尤为突出。然而,随着模型规模的扩大,训练和部署大型模型面临着计算资源和效率的挑战。为了解决这些问题,谷歌研究团队提出了ALBERT(A Lite BERT),一种更高效的BERT变体。本文将深入解析ALBERT的核心思想、技术创新和实验结果。

2024-10-16
DL论文
00

https://aclanthology.org/2021.ccl-1.108.pdf

自然语言处理(NLP)领域近年来取得了飞速的发展,预训练语言模型(Pre-trained Language Models, PLMs)如BERT、GPT等在多项任务中表现出色。RoBERTa(Robustly optimized BERT approach)作为BERT的优化版本,进一步提升了模型性能。本文将详细介绍RoBERTa的创新点、训练过程及其在NLP任务中的表现。

2024-10-16
DL论文
00

创新点

DINOv1 创新点

  1. 图像语义分割能力:DINOv1 自监督训练得到的视觉Transformer在最后一层中自然地包含了图像中对象边界的语义信息,这种特性在之前的卷积网络和有监督学习中并不明显。
  2. 无需微调的分类性能:DINOv1 的特征在不经过微调的情况下可以通过简单的k-NN分类器在ImageNet上获得78.3%的top-1精度,表明其特征表现力非常强大。
  3. 动量教师机制:DINOv1采用了一种称为“动量教师”的方法,该方法通过指数移动平均(EMA)更新教师网络参数,帮助避免模式崩塌问题,提高模型的稳定性。
  4. 多裁剪训练(Multi-crop training):该技术通过将图像裁剪成不同大小的片段并进行多样化数据增强,让学生网络学习局部与全局特征的关系,从而进一步提升模型的表征能力。
  5. Centering和Sharpening防止模式崩塌:DINOv1 采用了Centering和Sharpening方法,分别通过减去平均值和加入temperature参数,确保模型生成的特征具有多样性,从而有效避免模式崩塌。