这篇论文提出了一种名为SimCLR的简化对比学习框架,用于学习视觉表征。SimCLR简化了现有的对比自监督学习算法,使其无需特定架构或记忆库,并在ImageNet数据集上显著超越了自监督和半监督学习方法的性能。
该文章已加密,点击 阅读全文
并输入密码后方可查看。
上次测试了一些模型:
https://www.dong-blog.fun/post/1741
使用别人的API代码,显存占用总是让人很难受,目前Qwen2-VL也没有tensorRT部署方式,所以我要在这个博客直接用transformers 直接部署起服务。
更详细的教程: https://www.dong-blog.fun/post/1661
写 zizhi.json 文件:
json[
{
"messages": [
{
"content": "你是一个图像文字信息提取专家,可以识别图像中的文字,提取关键信息并输出为JSON格式。",
"role": "system"
},
{
"content": "<image> 识别图像中的文字,提取关键信息并输出为JSON格式。\n\n## Goals\n1. 识别图像中的文字。\n2. 提取并输出图像中关键信息,以JSON格式返回。\n3. \"文字材料类别\"是必须输出的字段。\n4. 每种文字材料的图片需要提取的字段不一样。\n5. 多个材料返回多个字典,所有字典给入list里返回,形式类似:[dict,dict]。\n\n## Rules\n1. 需要识别图片是什么文字材料图片,并需要识别图像中的文字内容。\n2. 需要提取关键信息,并明确输出格式为JSON。\n3. 确保输出信息的准确性。\n\n## Workflows\n1. 分析图像中的文字内容。\n2. 识别并提取与用户需求相关的关键信息。\n3. 以JSON格式组织信息并输出。\n\n## 输出示范\n[{\"名称\": \"浙江告科科技有限公司\", \"有效期至\": \"2016年06月14日\", \"文字材料类别\": \"营业性演出许可证\"}]\n\n## 现在请你提取图片里的信息",
"role": "user"
},
{
"content": "[{\"机构名称\": \"北京抠脚大汉科技有限公司\", \"有效期至\": \"2025年05月21日\", \"文字材料类别\": \"广播电视节目制作经营许可证\"}]",
"role": "assistant"
}
],
"images": [
"/xiedong/yinzhang/save_dst/010155.jpg"
]
}
]