2024-10-16
深度学习
00

三元损失(Triplet Loss)是一种常用于深度学习的损失函数,特别是在计算机视觉领域,用于学习

2024-10-15
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-14
深度学习
00

上次测试了一些模型:

https://www.dong-blog.fun/post/1741

使用别人的API代码,显存占用总是让人很难受,目前Qwen2-VL也没有tensorRT部署方式,所以我要在这个博客直接用transformers 直接部署起服务。

2024-10-14
深度学习
00

更详细的教程: https://www.dong-blog.fun/post/1661

定义数据集

写 zizhi.json 文件:

json
展开代码
[ { "messages": [ { "content": "你是一个图像文字信息提取专家,可以识别图像中的文字,提取关键信息并输出为JSON格式。", "role": "system" }, { "content": "<image> 识别图像中的文字,提取关键信息并输出为JSON格式。\n\n## Goals\n1. 识别图像中的文字。\n2. 提取并输出图像中关键信息,以JSON格式返回。\n3. \"文字材料类别\"是必须输出的字段。\n4. 每种文字材料的图片需要提取的字段不一样。\n5. 多个材料返回多个字典,所有字典给入list里返回,形式类似:[dict,dict]。\n\n## Rules\n1. 需要识别图片是什么文字材料图片,并需要识别图像中的文字内容。\n2. 需要提取关键信息,并明确输出格式为JSON。\n3. 确保输出信息的准确性。\n\n## Workflows\n1. 分析图像中的文字内容。\n2. 识别并提取与用户需求相关的关键信息。\n3. 以JSON格式组织信息并输出。\n\n## 输出示范\n[{\"名称\": \"浙江告科科技有限公司\", \"有效期至\": \"2016年06月14日\", \"文字材料类别\": \"营业性演出许可证\"}]\n\n## 现在请你提取图片里的信息", "role": "user" }, { "content": "[{\"机构名称\": \"北京抠脚大汉科技有限公司\", \"有效期至\": \"2025年05月21日\", \"文字材料类别\": \"广播电视节目制作经营许可证\"}]", "role": "assistant" } ], "images": [ "/xiedong/yinzhang/save_dst/010155.jpg" ] } ]
2024-10-14
Python
00

如何使用Python转义包含中文字符的URL

在开发过程中,有时会遇到包含中文字符的URL,这种URL在请求或处理时可能会导致错误。因此,了解如何转义URL中的中文字符是非常重要的。在Python中,我们可以使用urllib.parse模块来处理这种情况。本文将介绍如何编写代码,将包含中文字符的URL进行转义。

2024-10-14
深度学习
00

https://arxiv.org/abs/2304.12210

1 什么是自监督学习以及为什么要关注它?

自监督学习(Self-supervised Learning),被称为“智能的暗物质”[^1],是推进机器学习发展的有前景的路径。与受限于标注数据的监督学习不同,自监督学习方法可以从大量未标注数据中学习 [Chen et al., 2020b; Misra and Maaten, 2020]。自监督学习(SSL)推动了深度学习在自然语言处理领域的成功,促成了从自动翻译到基于网络规模未标注文本语料库的大型语言模型的进步 [Brown et al., 2020; Popel et al., 2020]。在计算机视觉领域,自监督学习通过诸如SEER等模型在10亿图像上的训练,突破了数据规模的新界限 [Goyal et al., 2021]。计算机视觉中的SSL方法在一些情况下,甚至可以与监督学习模型相媲美,甚至超越它们,即便是在ImageNet这样竞争激烈的基准测试上 [Tomasev et al., 2022; He et al., 2020a; Deng et al., 2009]。此外,自监督学习还成功应用于视频、音频和时间序列等其他数据模态 [Wickstrøm et al., 2022; Liu et al., 2022a; Schiappa et al., 2022a]。

2024-10-13
深度学习
00

词汇分割方法:WordPiece Model 和 Byte Pair Encoding 的详细解读

在自然语言处理(NLP)领域,词汇分割方法是文本预处理的重要步骤,尤其对于诸如词嵌入和语言模型这类任务来说至关重要。两种常见的词汇分割方法是 WordPiece ModelByte Pair Encoding (BPE)。本文将详细讲解这两种方法的原理、公式,并提供相应的 Python 实现。

2024-10-13
深度学习
00

Transformer模型的并行化特点及其在Decoder端的应用分析

Transformer模型凭借其高效并行化的特性在自然语言处理任务中取得了巨大的成功。并行化计算不仅加速了训练过程,也使得Transformer在处理长序列数据时更具优势。本文将深入探讨Transformer模型的并行化体现,分析其并行化的具体机制,并讨论Decoder端是否能够进行并行化计算。

2024-10-13
深度学习
00

Transformer中的前馈神经网络详解:结构、激活函数与优缺点

Transformer模型凭借其高效并行计算的特性,已经在自然语言处理领域取得了显著成果。Transformer的核心由多层自注意力机制和前馈神经网络(Feed-Forward Neural Network, FFN)组成。前馈神经网络在Transformer块中负责对每个位置的特征进行非线性转换,本文将详细描述Transformer中的前馈神经网络的结构、所用激活函数及其优缺点。

2024-10-13
深度学习
00

Transformer模型中的LayerNorm与BatchNorm:为什么选择LayerNorm?

Transformer模型作为自然语言处理和机器翻译任务中的重要架构,其每个模块中使用的正则化方法对模型性能有着显著影响。通常,Transformer选择使用Layer Normalization(LayerNorm)而非Batch Normalization(BatchNorm)。本文将深入分析LayerNorm与BatchNorm的差异、LayerNorm在Transformer中的位置以及为何LayerNorm更适合Transformer模型。