V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Livid
V2EX  ›  搜索引擎技术研究

关于目前 V2EX 搜索所用到的软件

  •  
  •   Livid · 2010-07-22 00:55:55 +08:00 · 12164 次点击
    这是一个创建于 5263 天前的主题,其中的信息可能已经有所发展或是发生改变。
    Index and Search Server:

    Tokyo Dystopia http://1978th.net/tokyodystopia/

    API Server:

    Tornado: http://www.tornadoweb.org/

    及用来起到加速目的的 Nginx 和 Memcached。
    18 条回复    1970-01-01 08:00:00 +08:00
    Livid
        1
    Livid  
    MOD
    OP
       2010-07-22 01:00:42 +08:00
    Tornado 是一个非常好用的技术。

    如果你不方便访问 Tornado 的网站的话,这里是我做的镜像:

    http://web.me.com/v2ex.livid/tornado/
    Livid
        2
    Livid  
    MOD
    OP
       2010-07-22 01:01:54 +08:00
    gonbo
        3
    gonbo  
       2010-07-22 09:23:46 +08:00
    呵呵,分词怎么做的?
    Livid
        4
    Livid  
    MOD
    OP
       2010-07-22 09:24:28 +08:00 via iPhone
    N-gram
    gonbo
        5
    gonbo  
       2010-07-22 09:34:53 +08:00
    这个,聊胜于无
    gonbo
        6
    gonbo  
       2010-07-22 09:35:39 +08:00
    当然 search不是社区的主要功能,不提供也可以。呵呵
    Kenyth
        7
    Kenyth  
       2010-07-22 10:19:07 +08:00
    跟我之前了解到的全文搜索方案有点不一样。

    你的方案应该不全是在GAE上实现的吧?

    其他的server是host在什么地方的呢?
    Livid
        8
    Livid  
    MOD
    OP
       2010-07-22 10:24:39 +08:00 via iPhone
    在另一个云里。
    Kenyth
        9
    Kenyth  
       2010-07-22 10:28:20 +08:00
    是在Amazon的云里吗?
    Kenyth
        10
    Kenyth  
       2010-07-22 10:37:28 +08:00
    还有你的index server是怎么访问这个v2ex的数据的呢,直接开的HTTP的API? 这样要达到近似于实时索引应该要用掉不少GAE上的quota吧?

    还是你已经开始用Google Storage(没用过这个,不太了解)来访问了?
    areless
        11
    areless  
       2010-07-22 11:39:47 +08:00
    sphinx现在有realtime了。
    Livid
        12
    Livid  
    MOD
    OP
       2010-07-22 11:40:34 +08:00
    2.4.0 时这部分通讯代码会开源的。
    Kenyth
        13
    Kenyth  
       2010-07-22 12:56:43 +08:00
    可以有的一种方案是:

    <ul>
    <li>Storage用独立的方案(Google的、Amazon的或者其他的,我总觉得GAE的datastore有性能问题,GAE上quota太容易就用掉了)
    <li>处理一个数据变更请求时异步的ping一下索引服务器,索引服务器再去异步的访问storage并建立索引
    </ul>

    云一出来,跨云的解决方案也一并出来了。
    cnleoyang
        14
    cnleoyang  
       2010-07-22 13:12:02 +08:00
    @areless 是的,刚刚发布了beta。
    @Kenyth Google Storage for developers的速度和流量相当不错,官方提供python版本的库。
    Livid
        15
    Livid  
    MOD
    OP
       2010-07-22 13:13:16 +08:00 via iPad
    一个贴子连上回复通常数据流量是不会超过 10K 的。
    lin
        16
    lin  
       2010-07-23 12:09:40 +08:00
    我对这些东西完全不懂,但是刚才无意中看到有一篇叫

    full text search on app engine

    的东西:

    http://www.ultrasaurus.com/sarahblog/2010/06/full-text-search-on-app-engine/

    不知道有没有什么价值,先贴上来。
    oldgun
        17
    oldgun  
       2010-07-24 16:25:57 +08:00
    @Livid,这里不必翻墙。
    oldgun
        18
    oldgun  
       2010-07-24 16:27:07 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3099 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 13:47 · PVG 21:47 · LAX 05:47 · JFK 08:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.