2024-10-16
DL论文
00

论文导读总结

这篇论文提出了一种名为SimCLR的简化对比学习框架,用于学习视觉表征。SimCLR简化了现有的对比自监督学习算法,使其无需特定架构或记忆库,并在ImageNet数据集上显著超越了自监督和半监督学习方法的性能。

主要贡献和发现

  1. 数据增强的关键作用:SimCLR通过数据增强来定义对比学习任务。特别是,随机裁剪和颜色失真的组合对于提升表征学习质量至关重要。
  2. 非线性投影头的引入:在表征和对比损失之间加入一个非线性变换,可以显著提高表征质量。
  3. 大批量训练的优势:SimCLR从更大的批量大小和更多的训练步数中获益,远超过传统的监督学习。SimCLR在批量大小为8192的情况下进行训练,从而有效利用了更多的负样本。
2024-10-16
深度学习
00

三元损失(Triplet Loss)是一种常用于深度学习的损失函数,特别是在计算机视觉领域,用于学习

2024-10-15
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2024-10-14
深度学习
00

上次测试了一些模型:

https://www.dong-blog.fun/post/1741

使用别人的API代码,显存占用总是让人很难受,目前Qwen2-VL也没有tensorRT部署方式,所以我要在这个博客直接用transformers 直接部署起服务。

2024-10-14
深度学习
00

更详细的教程: https://www.dong-blog.fun/post/1661

定义数据集

写 zizhi.json 文件:

json
[ { "messages": [ { "content": "你是一个图像文字信息提取专家,可以识别图像中的文字,提取关键信息并输出为JSON格式。", "role": "system" }, { "content": "<image> 识别图像中的文字,提取关键信息并输出为JSON格式。\n\n## Goals\n1. 识别图像中的文字。\n2. 提取并输出图像中关键信息,以JSON格式返回。\n3. \"文字材料类别\"是必须输出的字段。\n4. 每种文字材料的图片需要提取的字段不一样。\n5. 多个材料返回多个字典,所有字典给入list里返回,形式类似:[dict,dict]。\n\n## Rules\n1. 需要识别图片是什么文字材料图片,并需要识别图像中的文字内容。\n2. 需要提取关键信息,并明确输出格式为JSON。\n3. 确保输出信息的准确性。\n\n## Workflows\n1. 分析图像中的文字内容。\n2. 识别并提取与用户需求相关的关键信息。\n3. 以JSON格式组织信息并输出。\n\n## 输出示范\n[{\"名称\": \"浙江告科科技有限公司\", \"有效期至\": \"2016年06月14日\", \"文字材料类别\": \"营业性演出许可证\"}]\n\n## 现在请你提取图片里的信息", "role": "user" }, { "content": "[{\"机构名称\": \"北京抠脚大汉科技有限公司\", \"有效期至\": \"2025年05月21日\", \"文字材料类别\": \"广播电视节目制作经营许可证\"}]", "role": "assistant" } ], "images": [ "/xiedong/yinzhang/save_dst/010155.jpg" ] } ]