（3）缓解梯度消失的方法包括：使用如 ReLU 及其变体等非饱和激活函数；采用合适的参数初始化方法如 He 初始化 或 Xavier 初始化，保证信号传播的稳定性；引入 Batch Normalization 层来标准化每层输出；利用 残差连接（Residual Connection） 使梯度更容易回传；以及在必要时使用 梯度裁剪（Gradient Clipping） 防止梯度过小或过大带来的训练不稳定问题。

阅读全文

VBA判断当前Word是否有图片

2025-05-16

工具使用

在当前Word按Alt+F11，然后输入代码：

vba
展开代码
Sub CheckIfDocumentHasPictures()
    Dim hasPictures As Boolean
    hasPictures = False
    
    ' 检查内联图片（InlineShapes）
    If ActiveDocument.InlineShapes.Count > 0 Then
        hasPictures = True
    End If
    
    ' 检查浮动图片（Shapes）
    If Not hasPictures Then
        If ActiveDocument.Shapes.Count > 0 Then
            hasPictures = True
        End If
    End If
    
    ' 显示结果
    If hasPictures Then
        MsgBox "当前文档包含图片！", vbInformation, "检测结果"
    Else
        MsgBox "当前文档没有图片。", vbInformation, "检测结果"
    End If
End Sub

阅读全文

【算法刷题】手写k-means

2025-05-15

算法刷题

py
展开代码
import numpy as np
import random

class KMeans:
    def __init__(self, n_clusters=3, max_iter=300, tol=1e-4):
        self.n_clusters = n_clusters  # 聚类数量
        self.max_iter = max_iter      # 最大迭代次数
        self.tol = tol                # 收敛阈值
        self.centroids = None         # 聚类中心
        self.labels = None            # 样本标签
    
    def fit(self, X):
        # 1. 随机初始化聚类中心
        n_samples = X.shape[0]
        random_indices = random.sample(range(n_samples), self.n_clusters)
        self.centroids = X[random_indices]
        
        for _ in range(self.max_iter):
            # 2. 分配样本到最近的聚类中心
            distances = self._compute_distances(X)
            self.labels = np.argmin(distances, axis=1)
            
            # 3. 保存旧中心用于收敛判断
            old_centroids = self.centroids.copy()
            
            # 4. 更新聚类中心
            for i in range(self.n_clusters):
                # 获取属于当前聚类的所有样本
                cluster_samples = X[self.labels == i]
                if len(cluster_samples) > 0:
                    self.centroids[i] = np.mean(cluster_samples, axis=0)
            
            # 5. 检查是否收敛
            centroid_shift = np.linalg.norm(old_centroids - self.centroids)
            if centroid_shift < self.tol:
                break
    
    def predict(self, X):
        distances = self._compute_distances(X)
        return np.argmin(distances, axis=1)
    
    def _compute_distances(self, X):
        # 计算每个样本到所有聚类中心的距离
        distances = np.zeros((X.shape[0], self.n_clusters))
        for i, centroid in enumerate(self.centroids):
            distances[:, i] = np.linalg.norm(X - centroid, axis=1)
        return distances



# 生成测试数据
np.random.seed(42)
X = np.vstack([
    np.random.normal(loc=[0, 0], scale=1, size=(100, 2)),
    np.random.normal(loc=[5, 5], scale=1, size=(100, 2)),
    np.random.normal(loc=[-5, 5], scale=1, size=(100, 2))
])

# 训练K-Means
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

# 预测
labels = kmeans.predict(X)
print("聚类中心:\n", kmeans.centroids)

阅读全文

【算法刷题】手写Self-Attention

2025-05-15

算法刷题

多头：

py
展开代码
import torch
import torch.nn as nn
import torch.nn.functional as F

class SelfAttention(nn.Module):
    def __init__(self, embed_size, heads):
        super(SelfAttention, self).__init__()
        self.embed_size = embed_size
        self.heads = heads
        self.head_dim = embed_size // heads
        
        assert self.head_dim * heads == embed_size, "Embed size needs to be divisible by heads"
        
        # 线性变换得到 Q, K, V
        self.values = nn.Linear(embed_size, embed_size)
        self.keys = nn.Linear(embed_size, embed_size)
        self.queries = nn.Linear(embed_size, embed_size)
        
        # 输出线性层
        self.fc_out = nn.Linear(embed_size, embed_size)
    
    def forward(self, x):
        # x shape: (N, seq_len, embed_size)
        N = x.shape[0]
        seq_len = x.shape[1]
        
        # 线性变换得到 Q, K, V
        values = self.values(x)  # (N, seq_len, embed_size)
        keys = self.keys(x)      # (N, seq_len, embed_size)
        queries = self.queries(x) # (N, seq_len, embed_size)
        
        # 分割多头
        values = values.reshape(N, seq_len, self.heads, self.head_dim)
        keys = keys.reshape(N, seq_len, self.heads, self.head_dim)
        queries = queries.reshape(N, seq_len, self.heads, self.head_dim)
        
        # 计算注意力分数
        energy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys])
        # queries shape: (N, seq_len, heads, head_dim)
        # keys shape: (N, seq_len, heads, head_dim)
        # energy shape: (N, heads, seq_len, seq_len)
        
        # 缩放点积注意力
        attention = F.softmax(energy / (self.embed_size ** (1/2)), dim=3)
        
        # 应用注意力到values上
        out = torch.einsum("nhql,nlhd->nqhd", [attention, values])
        # attention shape: (N, heads, seq_len, seq_len)
        # values shape: (N, seq_len, heads, head_dim)
        # out shape: (N, seq_len, heads, head_dim)
        
        # 合并多头
        out = out.reshape(N, seq_len, self.embed_size)
        
        # 输出线性变换
        out = self.fc_out(out)
        
        return out

阅读全文

【知识点】大模型面试题汇总（持续更新）

2025-05-15

单片机ban

该文章已加密，点击 阅读全文 并输入密码后方可查看。

阅读全文

【知识点】GPT模型自回归生成Token的详细过程

2025-05-15

深度学习ban

该文章已加密，点击 阅读全文 并输入密码后方可查看。

阅读全文

【知识点】transformer的qkv计算如何建立上下文感知？

2025-05-15

深度学习ban

该文章已加密，点击 阅读全文 并输入密码后方可查看。

阅读全文