循环神经网络RNN部分原理
RNN什么是RNN?隐藏层的输出会被保留在记忆元中,在处理下一次的输入时,记忆元中的值也会被考虑。它会考虑序列的顺序,输入序列的顺序不同输出也不同。下图为权重为1,偏置为0,激活函数为线性的RNN架构处理输入序列$[1,1]^T,[1,1]^T,[2,2]^T$的情况 其他RNN循环神经网络的架构是可以任意设计的,之前提到的RNN只有一个隐藏层,但RNN也可以是深层的。 Elman 网络 &Jordan 网络Jordan...
Self-Attention
Self-Attention核心公式$$\text{Attention}(Q, K, V) =...
DL基础
激活函数$g’(z)=g(z)(1-g(z))$ tanh:$g(z)=tanh(z)=a=\frac{e^z-e^{-z}}{e^z+e^{-z}}$,$g’(z)=(1-g^2(z))$ ReLU:$g(z)=a=max(0,z)$ leaky ReLU:$a=max(0.01z,z)$ 损失函数常见的损失函数有均方误差和交叉熵误差 均方误差(MSE)公式:$E = \frac{1}{2} \sum_{k}(y_k - t_k)^2$,其中$y_k$表示神经网络的输出,$t_k$表示监督数据,k表示数据的维数。 python实现: 12def mean_squared_error(y, t): return 0.5 * np.sum((y-t)**2) 交叉熵误差公式:$E = -\sum_{k} t_k \log y_k$ python实现: 123def cross_entropy_error(y, t): delta = 1e-7 return...
LLaMAFactory各参数详解
1. 模型与数据配置 参数/选项 详细说明 模型名称或路径 - 作用:指定要微调的基座模型。可以是 Hugging Face 上的模型标识符(如 meta-llama/Llama-2-7b-chat-hf),也可以是本地模型文件夹的路径。 - 注意:需要确保 LLaMA Factory 支持该模型架构,并且你有权限访问该模型。 适配器名称或路径 - 作用:如果之前进行过 LoRA 微调,可以在这里加载已有的 LoRA 适配器权重,用于继续训练或进行推理。 微调方法 - 作用:选择核心的微调策略。 - Full:全参数微调。消耗资源巨大,通常只在资源充足且需要最大程度改变模型时使用。 - Freeze:冻结微调。只训练模型的部分层(如最后几层),其余层参数冻结。是一种轻量级方法。 - LoRA:最常用。在原始模型旁增加低秩适配器,只训练这些小的适配器参数,极大减少显存和计算需求。 - QLoRA:LoRA 的量化版本。将基座模型以 4-bit...
Jupyter的缩写启动方式
实现方法找到Python Scripts文件夹(jupyter.exe 一般在这里) 1C:\Program Files\Python310\Scripts 或者 1C:\Users\你的用户名\AppData\Local\Programs\Python\Python310\Scripts 需要确保的是,这个文件夹在系统环境变量PATH里 在该目录下创建缩写.bat(下以jnb.bat为例),内容是 12@echo offjupyter notebook %* 随后启动jupyter notebook时直接输入jnb即可。 原理原理也很简单,执行bat里的命令时,默认会把要执行的命令显示到终端上,echo off 是取消命令的回显,@的作用是将echo off这行命令的回显也取消掉,%*是用来接受参数(jnb test.ipynb=jupyter notebook test.ipynb),所以运行时会执行”jupyter notebook %*”的命令,等同于在终端上输入了jupyter notebook。 破案了,直接配vscode+jupyter更简单




