Fork me on GitHub
小火箭的博客

愿世界和平!!!


  • 首页

  • 标签

  • 分类

  • 归档

  • 站点地图

  • 公益404

  • 留言板

  • 其他

Bag of Tricks for Efficient Text Classification (论文解析)

发表于 2019-03-17 | 分类于 学习笔记 , 论文解析 |
| 字数统计: 3.2k | 阅读时长 ≈ 11

原始论文:Bag of Tricks for Efficient Text Classification

有效的文本分类技巧

摘要

本文提出了一种简单而有效的文本分类和表示学习方法。 我们的实验表明,我们的快速文本分类器fastText在准确性方面通常与深度学习分类器保持一致,并且在训练和评估中速度快很多。 我们可以在不到10分钟的时间内使用标准的多核CPU对超过10亿个单词进行快速文本训练,并在不到一分钟的时间内对312K类中的50万个句子进行分类。

1 介绍

建立良好的文本分类表示是许多应用程序的重要任务,如Web搜索,信息检索,排序和文档分类。 最近,基于神经网络的模型在计算句子表示方面越来越受欢迎。 虽然这些模型在实践中取得了非常好的表现,但是在训练和测试时间,它们往往相对较慢,限制了它们在非常大的数据集上的使用。

阅读全文 »

推荐系统三十六式--读书笔记(35-38 产品-团队-参考阅读)

发表于 2018-11-12 | 分类于 学习笔记 , 推荐系统三十六式 |
| 字数统计: 10.4k | 阅读时长 ≈ 36

参考原作:推荐系统三十六式-刑无刀

35.【产品篇】推荐系统在互联网产品商业链条中的地位

在商业世界里,就应该带一点“功利”的眼光看待推荐系统,但功利地看待推荐系统之前,要认识到推荐系统在商业链条中到底是个什么样的角色和作用。

推荐系统的作用

商业社会中亘古不变的关系是供求关系,供求关系的背后是交换。无论是实体经济还是虚拟经济,都是基于这个原理。供求关系动态变化,当供给小于需求时,就产生了稀缺,有了稀缺,就有了商业。

推荐系统处理的是信息,它的主要作用是在信息生产方和信息消费方搭建起桥梁。所以推荐系统是信息经济中的一个装置。信息经济中,看上去供求方是信息生产者,需求方是注意力提供者。这里似乎猝不及防地就引出了“注意力”这个词。

所以,无论推荐系统服务的是什么样的产品,这些产品属于资讯,社交,电商,游戏等不同的形式,它们最终得到真金白银的手段不一样,也就是所谓的商业模式各有不同,但是它们都有一个关键步骤就是:获得用户的注意力。用户产生行为就是付出注意力的表现,也因此信息流产品都在看谁家的阅读时间长,那都是白花花的注意力啊。信息经济其实就是注意力经济,而推荐系统就是留住注意力的重要手段。

阅读全文 »

推荐系统三十六式--学习笔记(32-34 效果保证-开源工具)

发表于 2018-11-11 | 分类于 学习笔记 , 推荐系统三十六式 |
| 字数统计: 8.9k | 阅读时长 ≈ 30

参考原作:推荐系统三十六式-刑无刀

32.【效果保证】推荐系统的测试方法及常用指标介绍

为什么要关注指标

面对推荐系统这样一个有诸多复杂因素联动起作用的系统,要时时刻刻知道它好不好,健不健康,你同样需要掌握一些测试方法和检测指标。

推荐系统的测试方法

需要有不确定性思维,但是这绝不是帮你在老板那里开脱的说辞。推荐系统也需要测试,只是它不同于传统的功能测试。传统软件的功能测试,功能的响应是有预期的,点击一个加关注按钮,应该有什么响应,是被产品文档明确规定的;也因此在开发功能的时候,可以同步写出测试用例来。

这非常明白,在功能开发时,你做了任何改动,只要跑一下测试用例,逻辑对不对就一目了然了。反观推荐系统就没那么容易了,你什么都没动,可能两次推荐的结果都有可能不一样,而且很可能这个不一样也是你自己或者你老板要求的。

阅读全文 »

推荐系统三十六式--学习笔记(28-31 关键模块)

发表于 2018-11-10 | 分类于 学习笔记 , 推荐系统三十六式 |
| 字数统计: 12.2k | 阅读时长 ≈ 41

参考原作:推荐系统三十六式-刑无刀

28.【关键模块】巧妇难为无米之炊:数据采集关键要素

日志和数据

数据驱动这个概念也是最近几年才开始流行起来的,在古典互联网时代,设计和开发产品完全侧重于功能易用和设计精巧上,并且整体驱动力受限于产品负责人的个人眼光,这属于是一种感性的把握,也因此对积累数据这件事就不是很重视。

关于数据采集,按照用途分类又有三种:

  • 报表统计
  • 数据分析
  • 机器学习
阅读全文 »

推荐系统三十六式--学习笔记(25-27 常见架构)

发表于 2018-11-09 | 分类于 学习笔记 , 推荐系统三十六式 |
| 字数统计: 7.4k | 阅读时长 ≈ 25

参考原作:推荐系统三十六式-刑无刀

25.【常见架构】典型的信息流架构是什么样的

在工程实践的部分中,我首先介绍的内容是当今最热门的信息流架构。信息流是推荐系统应用中的当红炸子鸡,它表现形式有很多:社交网络的动态信息流、新闻阅读的图文信息流、短视频信息流等等。

究竟。整体框架

信息流,通常也叫作 feed,这个英文词也很有意思,就是“喂”给用户的意思。传统的信息流产品知识简单按照时间排序,而被推荐系统接管后的信息流逐渐成为主流,按照兴趣排序,也叫作“兴趣 feed”。所以我们通常提到信息流,或者兴趣 feed,其实都是在说同一个话题。

温馨提示一下:如果要搜索 feed 相关的技术文章,你应该用“Activity Stream”作为关键词去搜,而不应该只用“feed”搜索,Activity Stream 之于 feed,就好比多潘立酮之于吗丁啉,前者是行话,后者是通俗说法。

要实现一个信息流,整体逻辑上是比较清楚的。可以划分为两个子问题。

  1. 如何实现一个按照时间顺序排序的信息流系统?
  2. 如何给信息流内容按照兴趣重排序?
阅读全文 »

推荐系统三十六式--学习笔记(22-24 其他应用算法)

发表于 2018-11-08 | 分类于 学习笔记 , 推荐系统三十六式 |
| 字数统计: 3.3k | 阅读时长 ≈ 11

参考原作:推荐系统三十六式-刑无刀

22.【其他应用算法】构建一个科学的排行榜体系

为什么要排行榜

排行榜,又名热门榜,听上去似乎是一个很常见的东西,原来它也算是推荐算法的一员?是的,它不但是,并且非常重要,有诸多作用:

  1. 排行榜可以作为解决新用户冷启动问题的推荐策略。这个不难理解,当一个新用户刚注册时,可以把 近产品中热门的物品推荐给他。
  2. 排行榜可以作为老用户的兴趣发现方式。即使是老用户,也可以在享受个性化推荐的同时去浏览热门的物品,从中看看哪些感兴趣,哪些不感兴趣,这些行为都是补充或者更新用户兴趣的数据来源。
  3. 排行榜本身就是一个降级的推荐系统。推荐系统本身是一个软件,因此也会有出现问题的时候,也会有推荐不出来的时候,这个时候考虑到服务的可用性,用排行榜作为一种兜底策略,可以避免推荐位开天窗。
阅读全文 »

推荐系统三十六式--学习笔记(20-21 深度学习)

发表于 2018-11-07 | 分类于 学习笔记 , 推荐系统三十六式 |
| 字数统计: 4.3k | 阅读时长 ≈ 14

参考原作:推荐系统三十六式-刑无刀

20.【深度学习】深度学习在推荐系统中的应用有哪些

深度学习与推荐系统

在矩阵分解中,原始的矩阵表示每个用户的向量是物品,表示每个物品的向量是用户,两者向量的维度都特别高不说,还特别稀疏,分解后用户向量和物品向量不但维度变得特别小,而且变稠密了。业界还把这个稠密的向量叫做隐因子,意图直观说明它的物理意义:用户背后的偏好因子,物品背后的主题因子。

实际上,你完全可以把矩阵分解看成是一种浅层神经网络,只有一层,它的示意图如下。

矩阵分解隐因子.jpg

这个示意图表示了一个用户 Ui,评分过的物品有 I2 和 I4,分解后的矩阵隐因子数量是 2,用户 Ui 的隐因子向量就是 [w1, w2],物品 I2 的隐因子向量是 [w3, w5],物品 I4 的隐因子向量是 [w4, w6]。可以把矩阵分解看成是一个拥有一个隐藏层的神经网络,得到的隐因子向量就是神经网络的连接权重参数。

阅读全文 »

推荐系统三十六式--学习笔记(17-19 MAB问题)

发表于 2018-11-06 | 分类于 学习笔记 , 推荐系统三十六式 |
| 字数统计: 8.4k | 阅读时长 ≈ 30

参考原作:推荐系统三十六式-刑无刀

17.【MAB问题】简单却有效的Bandit算法

推荐就是选择

选择的困难在于不知道选择的后果,而且一旦错了就没有机会再来一次。在推荐系统中就对应了少了一次成功展示的机会。选择时不再聚焦到具体每个选项,而是去选择类别,这样压力是不是就小了很多?比如说,把推荐选择具体物品,上升到选择策略。如果后台算法中有三种策略:按照内容相似推荐,按照相似好友推荐,按照热门推荐。每次选择一种策略,确定了策略后,再选择策略中的物品,这样两个步骤。于是有了 Bandit 算法。

MAB 问题

Bandit 算法来源于人民群众喜闻乐见的赌博学,它要解决的问题是这样的。

一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么想最大化收益该怎么整?

阅读全文 »

推荐系统三十六式--学习笔记(14-16 模型融合)

发表于 2018-11-05 | 分类于 学习笔记 , 推荐系统三十六式 |
| 字数统计: 5.6k | 阅读时长 ≈ 20

参考原作:推荐系统三十六式-刑无刀

14.【模型融合】经典模型融合办法:线性模型和树模型的组合拳

推荐系统在技术实现上一般划分为三个阶段:挖掘、召回、排序。

  • 挖掘就是对用户和物品做非常深入的结构化分析,各个角度各个层面的特征都被呈现出来,并且建好索引,供召回阶段使用,大部分挖掘工作都是离线进行的。
  • 召回,因为物品太多了,每次给一个用户计算推荐结果时,如果对全部物品挨个计算,那将是一场灾难,取而代之的是用一些手段从全量的物品中筛选出一部分比较靠谱的。
  • 排序,针对筛选出的一部分靠谱的做一个统一的论资排辈,最后这个统一的排序就是下面的主题:融合。
阅读全文 »

推荐系统三十六式--学习笔记(11-13 矩阵分解)

发表于 2018-11-04 | 分类于 学习笔记 , 推荐系统三十六式 |
| 字数统计: 5.5k | 阅读时长 ≈ 20

参考原作:推荐系统三十六式-刑无刀

11.【矩阵分解】那些在Netflix Prize中大放异彩的推荐算法

评分预测问题只是很典型,其实并不大众,数据难收集,属于精英问题。
行为预测,才是平民级推荐问题,处处可见。

缘起

评分预测问题之所以“虽然小众却十分重要”,这一点得益于十多年前 Netflix Prize 的那一百万美元的悬赏效应。

公元 2006 年 10 月 2 号,对于很多人来说,这只是平凡了无新意的一天,但对于推荐系统从业者来说,这是不得了的一天,美国著名的光盘租赁商 Netflix 突然广发英雄帖,放下“豪”言,这个就是土豪的“豪”,凡是能在他们现有推荐系统基础上,把均方根误差降低 10% 的大侠,可以瓜分 100 万美元。消息一出,群贤毕至。

最为著名的就是一系列矩阵分解模型,而最最著名的模型就是 SVD 以及其各种变体。

阅读全文 »
<1…678>

73 日志
14 分类
85 标签
RSS
GitHub E-Mail
© 2019 — 2025 小火箭
由 信仰 强力驱动
|
博客全站共314.2k字
访客数 人 总访问量 次