add DeepFM knowledge #734

AqourAreA · 2021-10-14T15:18:48Z

add knowledge

add pedestrian detection and tracking

ABClass

w5688414 · 2021-10-14T15:25:26Z

docs/tutorials/recommendation_system/DeepFM.md

+FM模型不单可以建模1阶特征，还可以通过隐向量点积的方法高效的获得2阶特征表示，即使交叉特征在数据集中非常稀疏甚至是从来没出现过。这也是FM的优势所在。
+
+$$
+y_{FM}= <w,x> + \sum_{j_1=1}^{d}\sum_{j_2=j_1+1}^{d}<V_i,V_j>x_{j_1}\cdot x_{j_2}


介绍的比较简单，FM的原理希望通俗易懂，我查了一下资料，可以参考：

https://www.biaodianfu.com/ctr-fm-ffm-deepfm.html

w5688414 · 2021-10-14T15:26:20Z

docs/tutorials/recommendation_system/DeepFM.md

+![](https://ai-studio-static-online.cdn.bcebos.com/bda8da10940b43ada3337c03332fe06ad1cd95f7780243888050023be33fc88c)
+
+### 3）DNN
+


wide&Deep详细说一下，不一定每个人都知道

w5688414 · 2021-10-14T15:27:04Z

docs/tutorials/recommendation_system/DeepFM.md

+
+### 4）Loss及Auc计算
+
+* 预测的结果将FM的一阶项部分，二阶项部分以及dnn部分相加，再通过激活函数sigmoid给出，为了得到每条样本分属于正负样本的概率，我们将预测结果和1-predict合并起来得到predict_2d，以便接下来计算auc。


添加auc和DeepFM的损失函数

w5688414 · 2021-10-14T15:28:07Z

docs/tutorials/recommendation_system/DeepFM.md

+
+### 1）DeepFM模型
+
+为了同时利用low-order和high-order特征，DeepFM包含FM和DNN两部分，两部分共享输入特征。对于特征i，标量wi是其1阶特征的权重，该特征和其他特征的交互影响用隐向量Vi来表示。Vi输入到FM模型获得特征的2阶表示，输入到DNN模型得到high-order高阶特征。


low-order和highe-order解释一下是啥

w5688414 · 2021-10-14T16:08:55Z

docs/tutorials/recommendation_system/DeepFM.md

+DeepFM模型的损失函数选择Binary_Cross_Entropy（二值交叉熵）函数
+$$
+H_p(q)=-\frac{1}{N}\sum_{i=1}^Ny_i\cdot log(p(y_i))+(1-y_i) \cdot log(1-p(y_i))
+$$


添加的公式的每一个字符都需要解释

w5688414 · 2021-10-14T16:09:57Z

docs/tutorials/recommendation_system/DeepFM.md

@@ -2,7 +2,9 @@ DeepFM模型

 ## 模型简介

-CTR预估是目前推荐系统的核心技术，其目标是预估用户点击推荐内容的概率。DeepFM模型包含FM和DNN两部分，FM模型可以抽取low-order特征，DNN可以抽取high-order特征。无需Wide&Deep模型人工特征工程。由于输入仅为原始特征，而且FM和DNN共享输入向量特征，DeepFM模型训练速度很快。
+CTR预估是目前推荐系统的核心技术，其目标是预估用户点击推荐内容的概率。DeepFM模型包含FM和DNN两部分，FM模型可以抽取low-order（低阶）特征，DNN可以抽取high-order（高阶）特征。无需Wide&Deep模型人工特征工程。由于输入仅为原始特征，而且FM和DNN共享输入向量特征，DeepFM模型训练速度很快。
+


低阶特征和高阶特征，描述的比较简单，能够举个例子吗？

w5688414 · 2021-10-14T16:11:15Z

docs/tutorials/recommendation_system/DeepFM.md

+Auc是Area Under Curve的首字母缩写，这里的Curve指的就是ROC曲线，AUC就是ROC曲线下面的面积,作为模型评价指标，他可以用来评价二分类模型。其中，ROC曲线全称为受试者工作特征曲线 （receiver operating characteristic curve），它是根据一系列不同的二分类方式（分界值或决定阈），以真阳性率（敏感性）为纵坐标，假阳性率（1-特异性）为横坐标绘制的曲线。
+
+可使用paddle.metric.Auc()进行调用。具体计算过程如下：
+
 * 预测的结果将FM的一阶项部分，二阶项部分以及dnn部分相加，再通过激活函数sigmoid给出，为了得到每条样本分属于正负样本的概率，我们将预测结果和1-predict合并起来得到predict_2d，以便接下来计算auc。
 * 每条样本的损失为负对数损失值，label的数据类型将转化为float输入。
 * 该batch的损失avg_cost是各条样本的损失之和


讲解理论的时候，理论不需要说具体的实现过程，把原理讲清楚就行。这几句删除

w5688414 · 2021-10-14T16:14:12Z

1.第一句的"DeepFM模型"前面加入#号，变成大标题
2.其他下面的标题变成二级标题，在其前面加入2个##号，另外，标号不需要加括号，比如把2）变成2.就行。标题形成层级结构
3.内容尽量做到图文并茂
4.最后加上参考文献部分

w5688414 · 2021-10-18T13:11:48Z

1.目前各个原理部分FM，DNN，DeepFM部分有了公式，解释不够详细，对初学者不够友好，加上一些示例，比如CTR或者CVR场景，告诉读者怎么用，怎么计算的，这能够让内容更加充实，可读性更强。

w5688414 · 2021-10-18T12:56:33Z

docs/tutorials/recommendation_system/DeepFM.md

@@ -31,7 +31,7 @@ $$

 ![](https://ai-studio-static-online.cdn.bcebos.com/bda8da10940b43ada3337c03332fe06ad1cd95f7780243888050023be33fc88c)


目前FM的部分描述比较简单，考虑补充FM的学习过程，FM的优缺点等等

w5688414 · 2021-10-18T12:57:24Z

docs/tutorials/recommendation_system/DeepFM.md

@@ -63,7 +63,7 @@ Auc是Area Under Curve的首字母缩写，这里的Curve指的就是ROC曲线



在这里加一节DeepFM和其他模型的比较，比如目前在推荐领域中比较流行的深度模型FNN、PNN、Wide&Deep等

w5688414 · 2021-10-18T12:59:17Z

docs/tutorials/recommendation_system/DeepFM.md

@@ -31,7 +31,7 @@ $$

 ![](https://ai-studio-static-online.cdn.bcebos.com/bda8da10940b43ada3337c03332fe06ad1cd95f7780243888050023be33fc88c)

-## 3.DNN
+## 4.DNN



考虑回答一下，为什么选择DNN要跟FM结合，RNN跟FM能够结合吗？分析一下DNN+FM结合的好处

w5688414 · 2021-10-18T13:04:29Z

docs/tutorials/recommendation_system/DeepFM.md

@@ -54,6 +63,8 @@ DNN深度神经网络层结构如下图所示：
 ## 5.Loss及Auc计算

 DeepFM模型的损失函数选择Binary_Cross_Entropy（二值交叉熵）函数
+
+


在AUC部分，加上参考已有的资料：https://paddlepedia.readthedocs.io/en/latest/tutorials/deep_learning/metrics/evaluation_metric.html?highlight=auc#auc

w5688414 · 2021-10-18T13:08:22Z

docs/tutorials/recommendation_system/DeepFM.md

@@ -23,6 +24,8 @@ DeepFM模型结构如下图所示，完成对稀疏特征的嵌入后，由FM层
 FM（Factorization Machines，因子分解机）最早由Steffen Rendle于2010年在ICDM上提出，它是一种通用的预测方法，在即使数据非常稀疏的情况下，依然能估计出可靠的参数进行预测。与传统的简单线性模型不同的是，因子分解机考虑了特征间的交叉，对所有嵌套变量交互进行建模（类似于SVM中的核函数），因此在推荐系统和计算广告领域关注的点击率CTR（click-through rate）和转化率CVR（conversion rate）两项指标上有着良好的表现。

 FM模型不单可以建模1阶特征，还可以通过隐向量点积的方法高效的获得2阶特征表示，即使交叉特征在数据集中非常稀疏甚至是从来没出现过。这也是FM的优势所在。


FM介绍再详细一点，目前就只有一个公式，借鉴一下这个，给一个这一样的应用示例：https://www.biaodianfu.com/ctr-fm-ffm-deepfm.html

ZhangHandi and others added 11 commits September 28, 2021 15:14

add pedestrian_detection_and_tracking case code+readme

d8a7040

update improvements.md

51a0d28

update dataset.md

d82ae39

ABClass

3bf764b

update readme

45586d6

ABClass_Modified

3da5837

update improvements.md

4b78bbd

update reademe+improvements

2a6d4de

Merge pull request PaddlePaddle#728 from ZhangHandi/my_branch

d972a60

add pedestrian detection and tracking

Merge pull request PaddlePaddle#725 from Blang233/Blang_branch

8077d93

ABClass

add knowledge

2c602b7

w5688414 reviewed Oct 14, 2021

View reviewed changes

add DeepFM knowledge

ad3e385

AqourAreA changed the title ~~add knowledge~~ add DeepFM Oct 14, 2021

AqourAreA changed the title ~~add DeepFM~~ add DeepFM knowledge Oct 14, 2021

w5688414 reviewed Oct 14, 2021

View reviewed changes

AqourAreA added 3 commits October 18, 2021 20:30

add knowledge of DeepFM

7fadb2d

add knowledge of DeepFM

7015a3c

add knowledge of DeepFM

50d7ec8

w5688414 reviewed Oct 18, 2021

View reviewed changes

Merge branch 'PaddlePaddle:master' into AqouAreA

ef21ced

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add DeepFM knowledge #734

add DeepFM knowledge #734

AqourAreA commented Oct 14, 2021

w5688414 Oct 14, 2021

w5688414 Oct 14, 2021

w5688414 Oct 14, 2021

w5688414 Oct 14, 2021

w5688414 Oct 14, 2021

w5688414 Oct 14, 2021

w5688414 Oct 14, 2021

w5688414 commented Oct 14, 2021 •

edited

w5688414 commented Oct 18, 2021

w5688414 Oct 18, 2021

w5688414 Oct 18, 2021

w5688414 Oct 18, 2021

w5688414 Oct 18, 2021

w5688414 Oct 18, 2021

		![](https://ai-studio-static-online.cdn.bcebos.com/bda8da10940b43ada3337c03332fe06ad1cd95f7780243888050023be33fc88c)

		### 3）DNN


		### 4）Loss及Auc计算

		* 预测的结果将FM的一阶项部分，二阶项部分以及dnn部分相加，再通过激活函数sigmoid给出，为了得到每条样本分属于正负样本的概率，我们将预测结果和1-predict合并起来得到predict_2d，以便接下来计算auc。


		### 1）DeepFM模型

		为了同时利用low-order和high-order特征，DeepFM包含FM和DNN两部分，两部分共享输入特征。对于特征i，标量wi是其1阶特征的权重，该特征和其他特征的交互影响用隐向量Vi来表示。Vi输入到FM模型获得特征的2阶表示，输入到DNN模型得到high-order高阶特征。

		@@ -31,7 +31,7 @@ $$

		![](https://ai-studio-static-online.cdn.bcebos.com/bda8da10940b43ada3337c03332fe06ad1cd95f7780243888050023be33fc88c)

		@@ -63,7 +63,7 @@ Auc是Area Under Curve的首字母缩写，这里的Curve指的就是ROC曲线

		@@ -54,6 +63,8 @@ DNN深度神经网络层结构如下图所示：
		## 5.Loss及Auc计算

		DeepFM模型的损失函数选择Binary_Cross_Entropy（二值交叉熵）函数

		@@ -23,6 +24,8 @@ DeepFM模型结构如下图所示，完成对稀疏特征的嵌入后，由FM层
		FM（Factorization Machines，因子分解机）最早由Steffen Rendle于2010年在ICDM上提出，它是一种通用的预测方法，在即使数据非常稀疏的情况下，依然能估计出可靠的参数进行预测。与传统的简单线性模型不同的是，因子分解机考虑了特征间的交叉，对所有嵌套变量交互进行建模（类似于SVM中的核函数），因此在推荐系统和计算广告领域关注的点击率CTR（click-through rate）和转化率CVR（conversion rate）两项指标上有着良好的表现。

		FM模型不单可以建模1阶特征，还可以通过隐向量点积的方法高效的获得2阶特征表示，即使交叉特征在数据集中非常稀疏甚至是从来没出现过。这也是FM的优势所在。

add DeepFM knowledge #734

Are you sure you want to change the base?

add DeepFM knowledge #734

Conversation

AqourAreA commented Oct 14, 2021

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

w5688414 commented Oct 14, 2021 • edited

w5688414 commented Oct 18, 2021

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

w5688414 commented Oct 14, 2021 •

edited