Word Embedding
Word2VecWord2Vec有以下几种方式: 1-of-N Encoding:vector中元素的数量=word的数量,对一个单词来说只要vector中对应元素为1,其他元素为0 。但这种表示方式无法建立word之间的联系 Word Class:把具有相同性质的word进行聚类划分成多个class,用word所属的class表示该word。但聚类算法强迫每个样本属于并只属于一个cluster,实际上一个样本会有多个cluster的特征,比如dog的class是动物,flower的class是植物,但它们又同属于生物 Word Embedding:把所有word投影到一个空间,且该空间的维度远低于1-of-N Encoding,这是一个Dimension Reduction的过程。语义相近的word在该投影空间中是比较接近的,且该空间的每一维都有特殊的含义。 Word...
循环神经网络RNN部分原理
RNN什么是RNN?隐藏层的输出会被保留在记忆元中,在处理下一次的输入时,记忆元中的值也会被考虑。它会考虑序列的顺序,输入序列的顺序不同输出也不同。下图为权重为1,偏置为0,激活函数为线性的RNN架构处理输入序列$[1,1]^T,[1,1]^T,[2,2]^T$的情况 其他RNN循环神经网络的架构是可以任意设计的,之前提到的RNN只有一个隐藏层,但RNN也可以是深层的。 Elman 网络 &Jordan 网络Jordan...
Self-Attention
Self-Attention核心公式$$\text{Attention}(Q, K, V) =...
DL基础
激活函数$g’(z)=g(z)(1-g(z))$ tanh:$g(z)=tanh(z)=a=\frac{e^z-e^{-z}}{e^z+e^{-z}}$,$g’(z)=(1-g^2(z))$ ReLU:$g(z)=a=max(0,z)$ leaky ReLU:$a=max(0.01z,z)$ 损失函数常见的损失函数有均方误差和交叉熵误差 均方误差(MSE)公式:$E = \frac{1}{2} \sum_{k}(y_k - t_k)^2$,其中$y_k$表示神经网络的输出,$t_k$表示监督数据,k表示数据的维数。 python实现: 12def mean_squared_error(y, t): return 0.5 * np.sum((y-t)**2) 交叉熵误差公式:$E = -\sum_{k} t_k \log y_k$ python实现: 123def cross_entropy_error(y, t): delta = 1e-7 return...
LLaMAFactory各参数详解
1. 模型与数据配置 参数/选项 详细说明 模型名称或路径 - 作用:指定要微调的基座模型。可以是 Hugging Face 上的模型标识符(如 meta-llama/Llama-2-7b-chat-hf),也可以是本地模型文件夹的路径。 - 注意:需要确保 LLaMA Factory 支持该模型架构,并且你有权限访问该模型。 适配器名称或路径 - 作用:如果之前进行过 LoRA 微调,可以在这里加载已有的 LoRA 适配器权重,用于继续训练或进行推理。 微调方法 - 作用:选择核心的微调策略。 - Full:全参数微调。消耗资源巨大,通常只在资源充足且需要最大程度改变模型时使用。 - Freeze:冻结微调。只训练模型的部分层(如最后几层),其余层参数冻结。是一种轻量级方法。 - LoRA:最常用。在原始模型旁增加低秩适配器,只训练这些小的适配器参数,极大减少显存和计算需求。 - QLoRA:LoRA 的量化版本。将基座模型以 4-bit...




