XGBoost原理细节详解

发表于 2019-07-01 | 分类于学习笔记 |

| 字数统计: 5.1k | 阅读时长 ≈ 20

原文来自大神级的论文XGBoost: A Scalable Tree Boosting System，论文很全面，框架介绍很完整，但是在某些tricks上面并没有对细节做详细解说，而需要读者亲自去进行一定的推导，这使得阅读起来稍显吃力，当然基础很雄厚的大牛级别的应该不以为然，但我相信还有很多与我一样入行不久的，那么这篇博客就是你的所需。

这里特别感谢作者meihao5的博文，其分享的内容就是我一直想要整理但迟迟未进行的，它的原文可见最后面的参考文章链接里。

1 基础知识

XGBoost的成功可以总结为回归（树回归+线性回归）+提升（boosting）+优化（5个方面）牛顿法、预排序、加权分位数、稀疏矩阵识别以及缓存识别等技术来大大提高了算法的性能。下面开始介绍一些入门必须的基础知识：

阅读全文 »

DeepFM A Factorization-Machine based Neural Network for CTR Prediction (论文解析)

发表于 2019-06-29 | 分类于学习笔记，论文解析 |

| 字数统计: 6.6k | 阅读时长 ≈ 23

原始论文：DeepFM:A Factorization-Machine based Neural Network for CTR Prediction

DeepFM:基于神经网络的因式分解机做点击率预估

摘要

对于推荐系统中的最大化CTR来说，学习那些用户行为背后的复杂而精确的特征交叉项是至关重要的。尽管有很大的提升，但是方法似乎在低阶或者高阶的交差项上带有很强的偏置项，又或者会要求专业性的特征工程。在这篇文章，我们会展示可以构造出一个端到端的学习模型，特别是对于低阶和高阶的交叉项的学习。DeepFM，提出的这个模型联合了因式分解机的推荐能力和一个新的神经网络结构在特征方面的深度学习能力。相比于Google提出的最新的Wide & Deep模型，DeepFM的“wide”和“deep”部分有一个共享输入层，并且除了最原始的特征不需要额外的特征工程。综合性的实验结果证明了DeepFM相比于其他的CTR模型在基础数据及和商业数据集上都有着更好的效果和效率。

阅读全文 »

LTR(Learning to Rank)概述

发表于 2019-06-29 | 分类于学习笔记，算法总结 |

| 字数统计: 4k | 阅读时长 ≈ 15

1 Learning to Rank 简介

Learning to Rank 是采用机器学习算法，通过训练模型来解决排序问题，在Information Retrieval，Natural Language Processing，Data Mining等领域有着很多应用。

1.1 排序问题

如图 Fig.1 所示，在信息检索中，给定一个query，搜索引擎会召回一系列相关的Documents（通过term匹配，keyword匹配，或者semantic匹配的方法），然后便需要对这些召回的Documents进行排序，最后将Top N的Documents输出,一版可以认为是召回后的精排。而排序问题就是使用一个模型 f(q,d)来对该query下的documents进行排序，这个模型可以是人工设定一些参数的模型，也可以是用机器学习算法自动训练出来的模型。现在第二种方法越来越流行，尤其在Web Search领域，因为在Web Search 中，有很多信息可以用来确定query-doc pair的相关性，而另一方面，由于大量的搜索日志的存在，可以将用户的点击行为日志作为training data，使得通过机器学习自动得到排序模型成为可能。

需要注意的是，排序问题最关注的是各个Documents之间的相对顺序关系，而不是各个Documents的预测分最准确。

阅读全文 »

LTR信息检索评价指标

发表于 2019-06-27 | 分类于学习笔记，算法总结 |

| 字数统计: 1.7k | 阅读时长 ≈ 7

1 RP

R（recall）表示召回率、查全率，指查询返回结果中相关文档占所有相关文档的比例；P（precision）表示准确率、精度，指查询返回结果中相关文档占所有查询结果文档的比例。

假设有如下的混淆矩阵：

—-	Predict P	Predict N
Target P	TP	FN
Target N	FP	TN

阅读全文 »

LightGBM A Highly Efficient Gradient Boosting Decision Tree （论文解析）

发表于 2019-06-23 | 分类于学习笔记，论文解析 |

| 字数统计: 7k | 阅读时长 ≈ 25

原始论文：LightGBM-A Highly Efficient Gradient Boosting Decision Tree

LightGBM 一种高效的梯度提升决策树

摘要

Gradient Boosting Decision Tree (GBDT)是一个非常流行的机器学习算法，却只有像XGBoost和pGBRT的一些实现。尽管许多工程上的优化方案已经在这些实现中应用了，但是当特征维度较高和数据量巨大的时候，仍然存在效率和可扩展性的问题。一个主要原因就是对于每一个特征的每一个分裂点，都需要遍历全部数据计算信息增益，这一过程非常耗时。针对这一问题，本文提出两种新方法：Gradient-based One-Side Sampling (GOSS) 和Exclusive Feature Bundling (EFB)（基于梯度的one-side采样和互斥的特征捆绑）。在GOSS中，我们排除了一部分重要的具有小梯度实例数据的比例，只用剩下的来估计信息增益。我们证明，这些梯度大的实例在计算信息增益中扮演重要角色，GOSS可以用更小的数据量对信息增益进行相当准确的估计。对于EFB，我们捆绑互斥的特征（例如，特征间很少同时非零的特征），来降低特征的个数。我们完美地证明了捆绑互斥特征是NP难的，但贪心算法能够实现相当好的逼近率，因此我们能够在不损害分割点准确率许多的情况下，有效减少特征的数量。（牺牲一点分割准确率降低特征数量），这一算法命名为LightGBM。我们在多个公共数据集实验证明，LightGBM加速了传统GBDT训练过程20倍以上，同时达到了几乎相同的精度。

阅读全文 »

Hexo博客提交链接到搜索引擎来收录

发表于 2019-06-15 | 分类于博客搭建 |

| 字数统计: 3.2k | 阅读时长 ≈ 11

写在前面

博客的搭建和个性化可以参考我的其他文章Hexo搭建博客汇总。当你博客搭建完毕后，如果不能被人搜索得到，心里难免会有些失落。所以，接下来我们介绍 Google 和百度收录博客网站的方法。整体来说，Google 实在是太效率了，收录操作不仅简单且迅速，基本一个小时内就可以检索了。相比之下，百度搜索则鸡肋的很，不仅操作繁杂，而且及时操作成功了收录成功与否还去取决于网站质量以及其其他原因。

首先如何检测自己的博客能否被检索呢？
在百度或者Google的搜索框内输入以下内容：

1	site:www.xiemingzhao.com

将site:后面的网址改为你自己的博客地址就行了，如果在搜索结果中能够展示自己博客的页面，那么就说已经被收录且可被搜索到。反之，则没有被收录。

阅读全文 »

Wide and Deep Learning for Recommender Systems (论文解析)

发表于 2019-06-12 | 分类于学习笔记，论文解析 |

| 字数统计: 5k | 阅读时长 ≈ 17

原始论文：Wide & Deep Learning for Recommender Systems

An overview of gradient descent optimization algorithms (论文解析)

发表于 2019-06-11 | 分类于学习笔记，论文解析 |

| 字数统计: 7.4k | 阅读时长 ≈ 27

原始论文：An overview of gradient descent optimization algorithms

梯度下降优化算法综述

摘要

虽然梯度下降优化算法越来越受欢迎，但通常作为黑盒优化器使用，因此很难对其优点和缺点的进行实际的解释。本文旨在让读者对不同的算法有直观的认识，以帮助读者使用这些算法。在本综述中，我们介绍梯度下降的不同变形形式，总结这些算法面临的挑战，介绍最常用的优化算法，回顾并行和分布式架构，以及调研用于优化梯度下降的其他的策略。

1 引言

梯度下降法是最著名的优化算法之一，也是迄今优化神经网络时最常用的方法。同时，在每一个最新的深度学习库中都包含了各种优化的梯度下降法的实现（例如：参见lasagne，caffe和keras的文档）。然而，这些算法通常是作为黑盒优化器使用，因此，很难对其优点和缺点的进行实际的解释。

阅读全文 »

Hexo博客文章链接优化

发表于 2019-06-11 | 分类于博客搭建 |

| 字数统计: 837 | 阅读时长 ≈ 3

文章的URL

文章默认的URL配置是包含年月日以及文章标题的，而且每次文章文章有修改就会引起一些链接的变化，繁琐且不易于检索传播。而URL地址对于SEO来说（Search Engine Optimization：搜索引擎优化）是相当重要的，如何缩短并固定每篇文章的连接，同时又可以在链接后面加上html使其显得更为正式。这就是本篇文章需要讲解的。

效果可参考我的博客，部署环境是Hexo+Next。

插件安装与配置

基于Hexo搭建的博客，可以通过插件hexo-abbrlink来实现自定义文章的连接。首先我们使用如下代码进行优化：

1	npm install hexo-abbrlink --save

阅读全文 »

Hexo+Next博客主题个性化设置全集

发表于 2019-06-10 | 分类于博客搭建 |

| 字数统计: 7.8k | 阅读时长 ≈ 37

想要小白详细版本的Github+Hexo+Next搭建博客教程，可访问我的另一篇博客使用Github+Hexo+Next免费搭建自己的博客（最细攻略）。

注意：以下非特殊说明路径都是基于你本地博客的根目录，效果主要基于hexo+next实现效果，大部分效果均可在我的博客中保留，可先睹为快，再决定是否需要

1.实现展示fork me on github效果

先上效果图：

fork me on github

阅读全文 »

1 基础知识

DeepFM:基于神经网络的因式分解机做点击率预估

摘要

1 Learning to Rank 简介

1.1 排序问题

1 RP

LightGBM 一种高效的梯度提升决策树

摘要

写在前面

推荐系统之Wide & Deep机器学习算法

摘要

梯度下降优化算法综述

摘要

1 引言

文章的URL

插件安装与配置

1.实现展示fork me on github效果