V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
OldCarMan
V2EX  ›  搜索引擎技术研究

同样的搜索内容,为啥谷歌返回的结果差别那么大?

  •  1
     
  •   OldCarMan · 2023-03-04 09:20:38 +08:00 · 1955 次点击
    这是一个创建于 635 天前的主题,其中的信息可能已经有所发展或是发生改变。

    rt ,前两天提了一个问题关于 google 中文搜索结果的问题,结果回复里,有位哥们(#13 楼)跟我用一样的关键词,我们搜出来的结果差异很大(详细大家可以看一下,我在回复里都有截图),然后我做了以下排查:

    • 清理谷歌浏览器的缓存,修改隐私政策(有账号)
    • 更换浏览器为火狐(无账号)
    • 更换设备(电脑→手机)更换浏览器( brave )(无账号,无使用记录)
    • 更换同款双脚长凳🪜ip
    • 更换其他双脚长凳

    结果跟我开始搜索到的结果几乎都一样,这里有几个问题:

    • 这是被谷歌用户分类了吗?还是被精确定位了?如果是后者,感觉有点细思极恐,在终端存在差异化环境情况下,谷歌是怎么定位到请求是来自“同个局域网”网络设备的?
    • 大概率是什么原因导致这种搜索结果差异的?哪个环节被锁定?运营商?域名解析?或者说谷歌同过某种本地运算让不同环境的请求带上同个 key?
    • 如何避免这种情况
    PS:哈哈,如果问得不好或是我无知,大家尽管吐槽,谢谢大家回复!
    9 条回复    2023-03-10 17:00:36 +08:00
    723X
        1
    723X  
       2023-03-04 09:24:51 +08:00 via Android
    浏览器指纹,webrtc
    OldCarMan
        2
    OldCarMan  
    OP
       2023-03-04 10:24:46 +08:00
    @723X 怎么实现的呢? webrtc 据我所知主要是点到点通信,虽然两端通过 stun 服务器并在服务端注册后就可以通信了,但是全世界那么多台在使用谷歌搜索的设备,它怎么就定位到要通信的是我网络环境下的两台设备的呢?也就是说谷歌服务器是怎么判断不同使用环境的设备是来自同个网络环境的呢?
    Herry001
        3
    Herry001  
       2023-03-04 10:43:26 +08:00 via Android
    搜索设置里,改下“搜索结果对应的区域”
    tcfenix
        4
    tcfenix  
       2023-03-04 10:48:55 +08:00
    这是被谷歌用户分类了吗?还是被精确定位了?如果是后者,感觉有点细思极恐,在终端存在差异化环境情况下,谷歌是怎么定位到请求是来自“同个局域网”网络设备的?
    tcfenix
        5
    tcfenix  
       2023-03-04 10:52:17 +08:00
    抱歉, 刚才按错键了
    qqqyh
        6
    qqqyh  
       2023-03-04 11:00:02 +08:00 via Android
    很久以前试过,Chrome 和 Firefox 用谷歌搜索结果不一样
    723X
        7
    723X  
       2023-03-04 11:08:24 +08:00 via Android
    @OldCarMan #2
    个人理解是 webrtc 能穿透 vpn 看到你内网 ip 和设备列表,再结合其他信息分析。深入的我讲不清楚,给两个网站抛砖引玉
    https://fingerprint.com/
    https://browserleaks.com/
    OldCarMan
        8
    OldCarMan  
    OP
       2023-03-10 16:57:40 +08:00
    @Herry001 谢谢大佬,确实少了些,但还是很多广告。
    @qqqyh 我这是基本一样,但是跟其他 V 友不一样,而且相差挺大的。
    @723X 第二个连接里的,这个“The WebRTC Leak Test is a critical tool for anyone using a VPN, as it leverages the WebRTC API to communicate with a STUN server and potentially reveal the user's real local and public IP addresses, even when using a VPN, proxy server, or behind a NAT. This tool can help verify whether a real public IP is being leaked” 确实存在这种锁定身份的可能性,比如通过 3 楼说的搜索结果区域来选定一台该区域里的 stun 服务器,然后通过某种方式(比如直接 ip 请求 /本地网络服务器)绕过🪜的 dns 解析,直接就能拿到访问者的 ip ,然后根据这个 ip 推送搜索结果,而不是采用你🪜的机器 ip 。
    OldCarMan
        9
    OldCarMan  
    OP
       2023-03-10 17:00:36 +08:00
    @723X 你可以看看你的 ip 地址跟这链接( https://browserleaks.com/ip)下的 webRTC 地址是不是一样的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3998 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 10:18 · PVG 18:18 · LAX 02:18 · JFK 05:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.