V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
wyan453351466
V2EX  ›  程序员

开发了个小号的今日头条,并附上开发思路(言说内容推荐引擎 0.2 版本上线)

  •  
  •   wyan453351466 · 2017-12-05 10:37:56 +08:00 · 2772 次点击
    这是一个创建于 2575 天前的主题,其中的信息可能已经有所发展或是发生改变。

    详情戳链接:www.yanshuo.me

    0.1 版本的推荐方式,是基于原始内容的热度进行推荐的。但是这样做出来的效果感觉并不是很好。

    因为判断一个内容受欢迎的程度,不应该只考虑点赞次数或是点击次数,还要考虑展示次数的问题。

    举例来说,一个帖子点击次数是 100,展示次数是 200 ;另一个帖子点击次数是 10,展示次数是 11。从点击率的角度来判断,后者受欢迎的程度是高于前者的。

    开发思路戳链接(只是一个开发过程中打的草稿,最终开发出来的效果并不是严格按照该图片的) : https://i.loli.net/2017/12/05/5a2600e4cbd11.png

    现在的推荐是没有个性化的(目前用户量和数据量太小),可以说是很弱智的推荐了(大神轻喷)。

    最后请允许我强行解释一波,其实非个性化的推荐,比个性化要有一个好处,就是可以让你更多维度的去浏览信息,而不是只浏览符合自己口味的信息。

    欢迎大家讨论,和给出你的建议😁

    另外自己建了一个程序员交流群,欢迎大家加群讨论:566806792

    4 条回复    2017-12-05 11:52:30 +08:00
    antintern
        1
    antintern  
       2017-12-05 11:38:31 +08:00
    个性化可以用协同过滤 非个性化用 pagerank~
    nullcoder
        2
    nullcoder  
       2017-12-05 11:47:05 +08:00
    只是通过点击判断内容质量,明显是助长标题党的情况。
    被援引的次数 /比例或者转发比率,信源等维度应该更能描述内容质量

    另一方面,推荐的如果都是刷屏 /热搜的内容,大概推荐的意义也不大
    所以可能还是得加一些个性化权重
    wyan453351466
        3
    wyan453351466  
    OP
       2017-12-05 11:49:35 +08:00
    @antintern 嗯,pagerank 好像是搜索引擎经常用的一种算法。回头研究下。协同过滤的话,这个需要大量的用户数据和帖子数据才可以玩起来,否则体验不是很好。(之前试过订阅话题的方式,效果不太好,个性化这个需要做的工作太多了)

    要多维度的去推荐内容,保持内容的丰富度、热度,同时还要考虑个性化,以及推荐一定数量的冷门内容。想把这个系统做好,难度是挺高的😁
    wyan453351466
        4
    wyan453351466  
    OP
       2017-12-05 11:52:30 +08:00
    @nullcoder 对,现在为了防止只根据点击助长标题党的内容。我用的方式是,每次推荐 7 条不同话题的内容(根据不同的数据源、作者、关键字区分话题)。如果只根据点击,出现的内容基本上全都是标题党、搞笑、故事会这种了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1034 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 19:57 · PVG 03:57 · LAX 11:57 · JFK 14:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.