Transformer
...
Word Embedding
Word2Vec Word2Vec有以下几种方式: 1-of-N Encoding:vector中元素的数量=word的数量,对一个单词来说只要vector中对应元素为1,其他元素为0 。但这种表示方式无法建立word之间的联系 Word Class:把具有相同性质的word进行聚类划分成多个class,用word所属的class表示该word。但聚类算法强迫每个样本属于并只属于一个cluster,实际上一个样本会有多个cluster的特征,比如dog的class是动物,flower的class是植物,但它们又同属于生物 Word Embedding:把所有word投影到一个空间,且该空间的维度远低于1-of-N Encoding,这是一个Dimension Reduction的过程。语义相近的word在该投影空间中是比较接近的,且该空间的每一维都有特殊的含义。 Word...
循环神经网络RNN部分原理
RNN 什么是RNN? 隐藏层的输出会被保留在记忆元中,在处理下一次的输入时,记忆元中的值也会被考虑。它会考虑序列的顺序,输入序列的顺序不同输出也不同。下图为权重为1,偏置为0,激活函数为线性的RNN架构处理输入序列[1,1]T,[1,1]T,[2,2]T[1,1]^T,[1,1]^T,[2,2]^T[1,1]T,[1,1]T,[2,2]T的情况 其他RNN 循环神经网络的架构是可以任意设计的,之前提到的RNN只有一个隐藏层,但RNN也可以是深层的。 Elman 网络 &Jordan 网络 Jordan...
Self-Attention
Self-Attention 核心公式 Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) =...
DL基础
激活函数 g′(z)=g(z)(1−g(z))g'(z)=g(z)(1-g(z))g′(z)=g(z)(1−g(z)) tanh:g(z)=tanh(z)=a=ez−e−zez+e−zg(z)=tanh(z)=a=\frac{e^z-e^{-z}}{e^z+e^{-z}}g(z)=tanh(z)=a=ez+e−zez−e−z,g′(z)=(1−g2(z))g'(z)=(1-g^2(z))g′(z)=(1−g2(z)) ReLU:g(z)=a=max(0,z)g(z)=a=max(0,z)g(z)=a=max(0,z) leaky ReLU:a=max(0.01z,z)a=max(0.01z,z)a=max(0.01z,z) 损失函数 常见的损失函数有均方误差和交叉熵误差 均方误差(MSE) 公式:E=12∑k(yk−tk)2E = \frac{1}{2} \sum_{k}(y_k - t_k)^2E=21∑k(yk−tk)2,其中yky_kyk表示神经网络的输出,tkt_ktk表示监督数据,k表示数据的维数。 python实现: 12def...





