XGBoost A Scalable Tree Boosting System (论文解析)

发表于 2019-06-10 | 分类于学习笔记，论文解析 |

| 字数统计: 4.2k | 阅读时长 ≈ 15

原始论文：XGBoost: A Scalable Tree Boosting System

摘要

Tree boosting 是一个高效的并且广泛应用的机器学习方法。在本文中，我们会介绍一个可扩展的端到端的 tree boosting 系统，它叫 XGBoost，它被数据科学家广泛地应用，并且在许多机器学习挑战取得了最好的结果。对于稀疏数据我们提出了稀疏性感知算法，以及加权分位数梗概用来近似树模型学习。更重要的是，我们提供了对缓存访问模式，数据压缩和分片的见解来建立一个可扩展的提升树系统。通过综合这些看法， XGBoost 只需要使用比现有系统少得多的资源就可以扩展出超过数十亿的实例。

关键词：大规模机器学习

阅读全文 »

Understanding LSTM Networks (论文解析)

发表于 2019-05-29 | 分类于学习笔记，论文解析 |

| 字数统计: 3.3k | 阅读时长 ≈ 11

原始论文：Understanding LSTM Networks

循环神经网络

人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候，你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃，然后用空白的大脑进行思考。我们的思想拥有持久性。

传统的神经网络并不能做到这点，看起来也像是一种巨大的弊端。例如，假设你希望对电影中的每个时间点的时间类型进行分类。传统的神经网络应该很难来处理这个问题——使用电影中先前的事件推断后续的事件。

RNN 解决了这个问题。RNN 是包含循环的网络，允许信息的持久化。

阅读全文 »

Hexo博客多设备管理

发表于 2019-05-27 | 分类于博客搭建 |

| 字数统计: 1.8k | 阅读时长 ≈ 6

想要小白详细版本的Github+Hexo+Next搭建博客教程，可访问我的另一篇博客使用Github+Hexo+Next免费搭建自己的博客（最细攻略）。

多设备管理博客

博客建立好之后，面临的就是维护和更新博客，但是总不能每次都带着自己的电脑吧，如果想在自己的办公电脑上也操作自己的博客呢？于是广大的IT人才们想出了构建github分支来管理自己的博客。

1. github 创建分支

不管你有无看过我的另一篇博客使用Github+Hexo+Next免费搭建自己的博客（最细攻略），相信你自己博客的时候都是在yourname.github.io仓库下的master分支上创建的。既然我们是在本地上管理离线文档的，那我们就领创建一个分值，只用来存储每次更新的离线文件，相当于一个本地了。

阅读全文 »

Hexo博客绑定域名

发表于 2019-05-25 | 分类于博客搭建 |

| 字数统计: 1.5k | 阅读时长 ≈ 5

想要小白详细版本的Github+Hexo+Next搭建博客教程，可访问我的另一篇博客使用Github+Hexo+Next免费搭建自己的博客（最细攻略）。

Hexo博客域名绑定

在我们建好了博客后，我们就可以通过yourname.github.io来访问你的博客，但是这个域名明显看起来不够厉害。这时候我们想的是如何将自己的博客的域名设置成像一般网址一样呢，例如我的原本的链接是xiemingzhao.github.io，但是经过设置绑定后将我得博客的新域名变成了www.xiemingzhao.com，并且打开网之后各个页面显示的连接也是www.xiemingzhao.com作为开头。接下来我们就开始。

1. 域名购买

域名这个东西当然不是免费的啦，毕竟网址这个东西还是需要有管控的。购买域名的地方有很多，本人是在阿里云https://www.aliyun.com/上面购买的，原因就不多说，大品牌值得信奈。打开阿里云官网，你需要做一下两件事情：

阅读全文 »

Github+Hexo+Next博客的编辑方法小记

发表于 2019-05-19 | 分类于博客搭建 |

| 字数统计: 1.1k | 阅读时长 ≈ 3

想要小白详细版本的Github+Hexo+Next搭建博客教程，可访问我的另一篇博客使用Github+Hexo+Next免费搭建自己的博客（最细攻略）。

博客撰写

1. Markdown

Hexo是基于标准的Markdown格式进行解析博客文章的，markdown应该不用多说了，如果你除了office全家桶外不知道全加的编辑器也没关系，学习起来很简单，网上教程比比皆是，看看语法就学会了。然后你就会爱上这类文档编辑器，什么word那些妖艳贱货都是不能比的，你会因此爱上写作。其语法简洁易学，可参考markdown官方中文文档。

当然，它只是一个通用型很高的文档编辑器，而Hexo博客的头部包含一些并不是很通用的格式模块，例如tile,tags以及date等等，这一块在创建博客的文章用已经阐述过，或者去Hexo的官方文档https://hexo.io/zh-cn/一探究竟。还有一个需要提的是，markdown本身的语法在标题上面用#来区分，无其他要求，但是hexo解析的时候要求标题类的#与文字之间要有一个空格，反正养成一个良好的习惯，格式符号与文字之间保留空格。

阅读全文 »

使用Github+Hexo+Next免费搭建自己的博客（最细攻略）

发表于 2019-05-09 | 分类于博客搭建 |

| 字数统计: 6.6k | 阅读时长 ≈ 24

一、开篇

在这个信息爆发的时代，有着各种各样的社交平台和工具，而博客则是宣传和交流个人信息的一种重要方式。无论你是否从事IT行业，都可以通过博客来发布自己的一些学习所得、生活感悟或者喜怒哀乐。而目前主流的方式都是基于新浪微博、CSDN以及简书等，将人群割裂，且缺乏个性化和自主性。由其是对于大部分的互联网从业者，建立一个自己的博客网站是一件有意思的事情，当然偶尔也可以用来装个X。

刚刚转入互联网行业网的时候，一直就想拥有一个自己的博客，奈何一开始对这一类编程不是很熟悉，初次尝试失败后搁置了一些时间（现在才发现都是一些很简单的问题）。所以只要你想完成这个，抽点时间出来你肯定可以完成，又变成底子最好，没有也不要紧，照葫芦画瓢就行了。

话不多说先奉上本人的博客小火箭的博客。本人技术有限，但是以实用为主，本篇博文能够带领想我这样的小白使用Github+Hexo+Next一步一步的完成博客搭建。虽然目前搭建博客的方式有很多，但我们选择是目前最主流且体验下来感觉最舒适的一种。

本文基于Windows 10 x64 专业版搭建，其他环境方法基本通用

阅读全文 »

Slope One Predictors for Online Rating-Based Collaborative Filtering(论文解析)

发表于 2019-04-19 | 分类于学习笔记，论文解析 |

| 字数统计: 5.6k | 阅读时长 ≈ 21

原始论文：Slope One Predictors for Online Rating-Based Collaborative Filtering

Slope One: 基于在线评分的协同过滤算法

摘要

基于评级的协同过滤是预测的程序，即根据用户对其他物品的评分来预测用户会如何评分当前给定的物品。我们提出了三个形式为f（x）= x + b的关于slop one机制的预测模型，预先计算出用户共同评分过的一个物品和另一个物品的评分之间的平均差异。slop one算法是易于实现的，查询效率高，相当准确，同时它们支持在线查询和动态更新，这使它们成为现实系统的良好候选者。建议将基本的SLOPE ONE方案作为协同过滤方案的新参考。通过考虑将用户喜欢和不喜欢的物品从全集中分出来，我们通过较慢的基于记忆的方式实现了结果超过基准EveryMovie和Movielens数据集，同时更好地满足了它对协同过滤应用的需求。

关键词：协同过滤，推荐工具，电子商务，数据挖掘，知识发现

阅读全文 »

Amazon.com Recommendations Item-to-item collaborative filtering (论文解析)

发表于 2019-04-15 | 分类于学习笔记，论文解析 |

| 字数统计: 4.3k | 阅读时长 ≈ 14

原始论文：Amazon.com Recommendations: Item-to-item collaborative filtering

亚马逊推荐：物到物的协同过滤

推荐算法因在电子商务网站的应用而广为人知，它们用客户的兴趣爱好作为输入来生成物品的推荐列表。许多应用仅仅用用户明确购买的物品来代表兴趣爱好，dan但其实它们可以用更多的其他特征，包括看过的物品，人口统计下数据，主题兴趣以及最爱的艺术。

在Amazon.com，我们使用推荐算法为每个客户个性化在线商店。商店根据客户的兴趣从根本上改变，达到给软件工程师显示编程主题和给一位新妈妈展示婴儿玩具。点击率和转化率这两个基于Web和电子邮件的重要测算结果显示了其二者上的广告效果要远远超过横幅广告等非目标内容和畅销书清单。

电子商务推荐算法经常在不断变化的环境中运行。例如：

阅读全文 »

Factorization Machines (论文解析)

发表于 2019-04-15 | 分类于学习笔记，论文解析 |

| 字数统计: 6.7k | 阅读时长 ≈ 26

原始论文：Factorization Machines

因式分解机

摘要：在本文中，我们介绍了一种因式分解机，这是一种新的模型，结合了SVM的优点，利用了因式分解模型。类似SVM，因式分解机是一种通用的预测器，可以适用于任意的实值特征向量。对比SVM，FMs利用因式分解对变量之间的关系进行建模。因此，FMs可以在大量稀疏特征中进行相互关系的估计。我们展示了，模型的表达式可以在线性时间内求解，FMs可以进行直接的优化。所以，不像非线性的SVM，不需要进行对偶变换，模型的参数可以直接的进行估计，不需要用到支持向量。我们展示了和SVM的关系，以及在稀疏的设置下的参数估计的优势。

另外，有许多因式分解模型如矩阵分解，并行因子分析如SVD++，PITF，FPMC。这些方法的缺点是通用性不好，只对特殊的输入数据有用。优化方法对于不同的任务也各不相同。我们展示了，FMs通过制定不同的输入就可以模拟这些模型。这就使得FMs非常的易用，甚至可以不需要分解模型的专业知识都可以。

阅读全文 »

The Learning Behind Gmail Priority Inbox (论文解析)

发表于 2019-03-19 | 分类于学习笔记，论文解析 |

| 字数统计: 3.4k | 阅读时长 ≈ 12

原始论文：The Learning Behind Gmail Priority Inbox

Gmail优先收件箱背后的学习

摘要

Gmail的优先收件箱功能是按用户会对邮件进行操作新行为的概率来对邮件进行排名的。因为“重要性”非常个性化的，我们尝试通过学习每个用户统计模型来预测它，并尽可能的频繁地更新模型。本研究报告描述了在线学习的挑战通过数百万个模型，以及采用的解决方案。

1 Gmail的优先收件箱

许多Gmail用户每天都会收到数十或数百封邮件。优先收件箱试图缓解这种信息过载，主要通过学习每个用户的重要性统计模型和基于用户对该邮件采取行动的可能性对邮件进行排名来做到。这不是一个新问题[3,4]，但为了要规模性的做到这一点，需要每天对数百万个模型进行实时排名和近线在线更新会使问题复杂化。这种挑战包括在明确的用户标签的情况下来推断没有邮件的重要性;找到处理非静止和含有噪声的训练数据;构建减少培训数据要求的模型;存储和处理每个用户太字节的特征数据;最后，以分布式和容错的方式进行预测。

阅读全文 »