2025-09-19
DL论文
00

https://mp.weixin.qq.com/s/3t4PjpZcMVU1wCO0ThUs2A

本文系统阐述了AI Agent开发中新兴的“上下文工程”(Context Engineering)概念及其核心方法论。随着Agent在实际运行中产生海量工具调用和长程推理(long horizon reasoning),管理冗长上下文成为影响性能、成本和模型能力的关键瓶颈。

核心挑战

  • Agent典型任务需约50次甚至上百次工具调用,导致上下文急速膨胀。
  • 过长上下文不仅可能超出模型上下文窗口限制,更会导致“上下文衰减”(Context Decay),即模型注意力分散、推理能力下降。

五大核心策略

  1. 转移(Offload):将工具调用产生的大量上下文(如网页内容、文档)转移到外部存储(如文件系统),仅在模型中保留摘要或标识符,需时再调用。关键在于生成高质量的摘要以避免信息丢失。
  2. 压缩(Reduce):通过总结(Summarization)或剪裁(Pruning)减少上下文内容。需谨慎操作,最好与Offload结合以确保原始信息可回溯,避免不可逆的信息损失。
  3. 检索(Retrieve):从外部知识库、记忆或文档中动态检索相关信息注入上下文。研究表明,简单的生成式检索(如提供文件列表让Agent自行选择调用)常比复杂的多步RAG流程更有效且成本更低。记忆管理可视为一种特定的检索场景。
  4. 隔离(Isolate):将上下文拆分给多个Agent(Multi-Agent)处理,避免单一Agent过载。此法适用于易并行、只读的任务(如深度研究),但在需要高度协同决策的场景(如编码)中可能引发冲突,需谨慎使用。
  5. 缓存(Cache):利用键值缓存(KV Cache)复用计算过的前缀token,可大幅降低延迟和成本(如Claude Sonnet缓存成本可降10倍)。但缓存仅优化计算效率,无法解决长上下文本身的模型衰减问题。

核心启示与未来方向: 文章引用Hyung Won Chung的“The Bitter Lesson”指出,AI进步的根本驱动力是计算规模(Scaling Law)而非人工设计的复杂结构(归纳偏置)。随着模型能力持续指数级提升(如Claude 3.5的发布),最佳策略是构建灵活、通用、少结构化的系统,而非嵌入过多当前有效的假设,以便更好地适应未来模型的能力。企业应用应倾向于采用透明、可组合的底层编排框架(如Shopify Roast),而非黑箱化的Agent抽象,从而在模型能力追上时释放最大价值。AI Native产品(如Cursor、Windsurf)从零构建的优势正于此显现。

2025-09-19
DL论文
00

https://arxiv.org/pdf/2509.14786

这篇论文《无限算力下的预训练》(Pre-training under infinite compute)由斯坦福大学的研究者撰写,核心探讨了在高质量训练数据有限但计算资源无限的未来场景下,如何通过算法改进来极大提升语言模型预训练的数据效率。以下是全文的核心总结:


1. 问题背景

  • 算力增长(每年约4倍)远快于高质量网络文本数据的增长(每年约1.03倍)。
  • 传统方法在数据受限时(如固定200M tokens),单纯增加训练轮次(epoch)或模型参数(parameters)会导致过拟合,性能下降。

2. 核心方法 & 发现

a) 正则化(Regularization)是关键

  • 发现权重衰减(Weight Decay) 的最佳值比常规实践(如0.1)大30倍,能有效防止过拟合。
  • 优化后的正则化方法使损失随参数增加遵循幂律下降,可外推其渐近线(asymptote)以估计无限算力下的最佳性能。

b) 集成学习(Ensembling)优于单一模型

  • 训练多个独立模型并集成(平均输出),比单一大型模型达到更低的损失渐近线
  • 集成模型能更好地学习数据中的多种特征(“多视图”结构),避免单一模型的偏差。

c) 联合扩展配方(Joint Scaling Recipe)

  • 结合轮次调整、正则化、参数扩展和集成扩展,在200M tokens上达到最佳渐近线。
  • 相比基线方法,数据效率提升5.17倍(即用更少数据达到相同效果)。

d) 知识蒸馏(Distillation)压缩模型

  • 将集成模型蒸馏为单个小模型(如参数量减少8倍),仍保留83%的集成收益
  • 自蒸馏(Self-Distillation):用同一架构的教师模型训练学生模型,性能反而提升,无需增加参数量。
2025-09-17
工具使用
00

Ctrl+Shift+P

输入

bash
展开代码
Word Wrap

image.png

快捷键

Alt+Z

2025-09-15
Linux运维
00

在win上安装这个:docker desktop

注册账号:

image.png

2025-09-15
Linux运维
00

检查是否联网,没有联网就自动重连wifi Guest。

bash
展开代码
mkdir/root/autowifi/ && vim /root/autowifi/wifi-watchdog.sh

写入:

bash
展开代码
#!/bin/bash interface="wlan0" # 请根据你的实际接口名修改,如 wlp3s0 while true; do if ! ping -c 1 www.baidu.com &> /dev/null; then echo "WiFi disconnected. Attempting to reconnect..." sudo systemctl restart NetworkManager sleep 5 sudo nmcli device wifi connect "Guest" password "Guest" fi sleep 300 # 每300秒检查一次网络状态 done
2025-09-12
Android/Java
00

设置屏幕dpi

bash
展开代码
adb shell wm density 270

强制杀死某个包:

bash
展开代码
adb shell am force-stop com.xx.xx
2025-09-10
工具使用
00

我在win的cmd里一打python3,就跳转到windows的应用商店了,我安装了miniconda3,也指定path了,为啥不用我的miniconda3呢?

这个问题很常见,主要是因为Windows 10/11有一个默认的Python应用别名会拦截python3命令。即使你安装了miniconda3并设置了PATH,Windows的应用执行别名优先级更高。

2025-09-05
深度学习
00
  • 训练数据问题。实际跑的手机和训练数据采集的数据不一致。
2025-08-29
工具使用
00

https://blog.csdn.net/cd80988864/article/details/141758054

打开powershell执行这三句:

js
展开代码
reg add "HKLM\SOFTWARE\CorpLinkConfig" /v CheckUninstallPassword /t REG_SZ /d 0 /f reg add "HKLM\SOFTWARE\CorpLinkConfig" /v CompanyId /t REG_SZ /d 0 /f reg add "HKLM\SOFTWARE\CorpLinkConfig" /v UserLoginState /t REG_DWORD /d 0 /f

然后卸载即可。

2025-08-28
工具使用
00

使用微PE与M.2硬盘盒为新电脑安装Windows 10终极指南

本文旨在为你提供一份清晰、无废话的教程,帮助你利用M.2硬盘盒(RTL9210B芯片)和微PE工具,为新电脑安装Windows 10系统。我们将避开繁琐的理论,直接聚焦于关键概念和操作步骤。

一、核心概念解析:理解你的工具

在开始之前,理解以下几个关键概念至关重要,它们决定了安装过程的成败。

关键概念是什么?为什么重要?
微PE (WinPE)一个精简版的Windows操作系统,可以运行在U盘上。它提供了一个临时的操作环境,让你能在电脑没装系统或系统崩溃时,进行分区、备份、系统安装等操作。
M.2硬盘盒 (RTL9210B)一个搭载了RTL9210B芯片的盒子,能将你的M.2 SSD转换成USB移动硬盘。双协议意味着它支持NVMe和SATA两种协议的M.2 SSD。你将用它来制作一个高速的微PE启动盘,相比普通U盘,加载PE系统和安装文件的速度快得多。
UEFI/GPT现代电脑的启动方式(UEFI)硬盘分区格式(GPT)新电脑默认都是UEFI启动。你必须使用GPT分区格式才能在此模式下安装并启动Windows 10。
ESP分区EFI系统分区,格式通常为FAT32。这是UEFI启动模式的核心。Windows安装程序会把系统启动文件放在这个分区里。没有它,电脑无法引导。
CSM兼容性支持模块,允许UEFI主板模拟传统的Legacy BIOS。对于新电脑,我们必须关闭CSM以确保纯净的UEFI环境,避免不必要的兼容性问题,这是成功安装的关键一步。