V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
okwork
V2EX  ›  问与答

搜索引擎超过 10 页以后的数据,有必要索引吗?

  •  
  •   okwork · 2019-07-21 08:32:40 +08:00 via Android · 4196 次点击
    这是一个创建于 1947 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1 很少有用户翻到 10 页以后
    2 数据准确性几乎没有可参考价值
    3 广告位也卖不出去

    只保留 10 页以内的数据,远比保存几百、几千页数据存储和索引的效率都高很多。10 页以后的数据价值可能只有 10 页内的 1%都不到吧,有必要索引吗?
    36 条回复    2019-07-22 08:53:32 +08:00
    opengps
        1
    opengps  
       2019-07-21 08:34:47 +08:00 via Android   ❤️ 1
    必要性还是有的,很多行业资料少的可怜,需要翻遍所有结果,更换各种关键字。
    搜索引擎的收录量也是用户选择的参考
    hoyixi
        2
    hoyixi  
       2019-07-21 08:35:51 +08:00
    全国 10 亿人,只准 1000w 人上学,标准那啥定, 你愿意吗?
    nethard
        3
    nethard  
       2019-07-21 08:37:18 +08:00 via iPhone
    用户搜索的时候又不是只输入一个关键字,多个关键字用空格分开的时候,即使单个关键字索引很靠后的站点也能排在前面。
    wangxiaoaer
        4
    wangxiaoaer  
       2019-07-21 08:55:22 +08:00 via Android   ❤️ 15
    大哥,你是来搞笑的吗?

    搜索引擎建索引的时候怎么知道某条记录的页数?

    所谓的页数只有在给定关键字的时候才有意义啊
    delectate
        5
    delectate  
       2019-07-21 09:02:23 +08:00
    对于百度来说,第一页也没有任何参考价值哦。这边建议您用 bing 或者 google 呢。
    okwork
        6
    okwork  
    OP
       2019-07-21 09:04:49 +08:00 via Android
    @wangxiaoaer 建立索引是反向的,呈现结果当然能按权重控制输出页数。
    zhidian
        7
    zhidian  
       2019-07-21 09:11:35 +08:00 via Android
    我啥都不懂,但似乎应该是索引了它才被放到第十页的
    binux
        8
    binux  
       2019-07-21 09:13:23 +08:00   ❤️ 1
    @okwork 权重是和关键词相关的,不知道关键词,你怎么能知道权重的?
    lylsh1993
        9
    lylsh1993  
       2019-07-21 09:13:52 +08:00 via iPhone
    对特定网站搜索可能会翻很多页
    okwork
        10
    okwork  
    OP
       2019-07-21 09:34:32 +08:00 via Android
    @binux Pagerank,超链分析,域名 URL 权重,内容查重,文本分析等,这些都可以判断权重。
    binux
        11
    binux  
       2019-07-21 09:40:17 +08:00 via Android   ❤️ 1
    @okwork #10 但是展示的时候权重最大的是相关性啊!!!
    okwork
        12
    okwork  
    OP
       2019-07-21 09:53:01 +08:00 via Android
    @binux 李鬼可以把 SEO 相关性做到最高。
    binux
        13
    binux  
       2019-07-21 09:55:56 +08:00
    @okwork 那和你‘搜索引擎超过 10 页以后的数据’有什么关系吗?
    wangxiaoaer
        14
    wangxiaoaer  
       2019-07-21 10:01:39 +08:00   ❤️ 3
    @okwork #6 建立索引是反向的,呈现结果当然能按权重控制输出页数。


    ------------------

    现在的搜索结果本身就是按照权重排序输出的,但这个权重是动态的,你所谓的“ Pagerank,超链分析,域名 URL 权重,内容查重,文本分析”这些是相对静态的。

    10 页以后可以不展示,但这是搜索阶段的控制,索引建立跟这个是两个独立的阶段。

    举个例子,搜索关键词 A 的时候某个 11 页的内容,你认为不应该建立索引,但是搜索关键词 B 的时候,这条内容本应该出现在 10 页以内,结果因为没索引所以搜索不到,你觉得合理吗?

    -----------------

    另外看了你的回复,建议你提高些逻辑思维能力。
    okwork
        15
    okwork  
    OP
       2019-07-21 10:19:50 +08:00 via Android
    @wangxiaoaer 搜索引擎是个复杂的工程,意见相左没关系,就事论事的交流。


    教别人做人之前,请先秀一下你的智商。
    wangxiaoaer
        16
    wangxiaoaer  
       2019-07-21 10:31:43 +08:00 via Android
    @okwork 我没教你做人,我只是让你自己把逻辑练一练。

    你自己看看 10 11 12 楼的回复,心疼 binux
    iyaozhen
        17
    iyaozhen  
       2019-07-21 10:34:56 +08:00 via Android
    @wangxiaoaer 心疼

    我就问楼主,一个网页 1,在 a 关键词拍第一页,在 b 关键词拍第十一页,你怎么判断?遍历所有关键词?
    summerwar
        18
    summerwar  
       2019-07-21 10:36:51 +08:00
    你不能因为吃到第十个馒头饱了,就说前面的九个都白吃了。你的这个问题跟这个道理差不多
    vindurriel
        19
    vindurriel  
       2019-07-21 11:04:31 +08:00 via iPhone   ❤️ 1
    您的建议在一种情况下是可行的 那就是关键词可穷举 不过这样的系统一般不叫搜索引擎 叫排行榜 data cube 等等
    LongLights
        20
    LongLights  
       2019-07-21 11:11:43 +08:00 via Android   ❤️ 1
    数据先被索引才被排序的。。。你从排序结果推索引与否,那你做的东西就不是现在说的搜索引擎了,是目录搜索
    LongLights
        21
    LongLights  
       2019-07-21 11:12:52 +08:00 via Android
    @wangxiaoaer 顺便心疼老哥
    trcnkq
        22
    trcnkq  
       2019-07-21 11:29:03 +08:00   ❤️ 1
    喜欢看这种抬杠抬一半自己想明白了却找不到台阶下的
    misaka19000
        23
    misaka19000  
       2019-07-21 11:51:28 +08:00 via Android
    楼上干嘛呢都,索引的时候只有权重信息,搜索的时候才有页数的概念
    rexyan
        24
    rexyan  
       2019-07-21 14:03:27 +08:00
    一般不用 from,size 进行分页吧,只是默认结果是 10 页而已。多用 score 查询。还有就是多用 filter 之类的带缓存的过滤器。
    jfdnet
        25
    jfdnet  
       2019-07-21 14:06:51 +08:00
    搜索自然会索引所有的资料。分页只是页面的一种组织形式,你也可以滚动啊。
    mumbler
        26
    mumbler  
       2019-07-21 14:14:10 +08:00
    索引肯定要全部,否则怎么知道哪些结果该排前面,但只显示前多少页,减少反向索引缓存数据量
    goodan
        27
    goodan  
       2019-07-21 14:19:36 +08:00 via Android
    @trcnkq 描述精准哈哈哈
    loading
        28
    loading  
       2019-07-21 15:05:30 +08:00 via Android
    请各位点“忽略主题”
    akira
        29
    akira  
       2019-07-21 18:55:12 +08:00
    如果互联网是禁止不变的,永远没有新增内容,没有变化
    huyi23
        30
    huyi23  
       2019-07-21 20:11:52 +08:00
    lz 别跟一群键盘侠 bb
    阿里云的 open search 就不支持 5000 以外的数据
    pandachow
        31
    pandachow  
       2019-07-21 21:19:00 +08:00
    心疼两位,lz 真的应该好好锻炼一下逻辑。。。
    Milomide
        32
    Milomide  
       2019-07-21 21:27:30 +08:00
    可以有但没必要。。
    dezhou
        33
    dezhou  
       2019-07-21 23:06:05 +08:00 via Android
    前提是是否有人看第十一页,有就会缓存
    FrankFang128
        34
    FrankFang128  
       2019-07-21 23:21:40 +08:00
    显然,对于 Google 来说,显示后面页数并没有什么成本,因为你只有遍历所有页面之后,才能知道前十页的结果是什么。而且前十页的结果也是动态变化的。所以 Google 总归是要存更多结果的。
    encro
        35
    encro  
       2019-07-22 08:29:39 +08:00
    搜索引擎大概分为几个部分:
    蜘蛛:爬取内容
    仓库:存储原始数据(磁盘)
    索引:将数据以特定的结构保存进行存储,以便于检索(内存)
    检索:根据各项权重对数据进行取出和排序


    你问的是索引,就是将文章按照关键词保存在内存,当然是除了一些辅助词之外,其他的词都有建立索引的。
    如果你问检索,也基本是一样的,只有检索完所有索引和附加字段,才知道哪些是关联性最高的,可以排在前面。
    petelin
        36
    petelin  
       2019-07-22 08:53:32 +08:00 via iPhone
    索引自然需要 展示 10 页是代码上选择问题 你还可以每天索引一遍全部的 然后想个办法每个关键词都取前 10 页的数量 剩下的 document 都删掉

    这个成本也不比全量保存好
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4905 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 09:53 · PVG 17:53 · LAX 01:53 · JFK 04:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.