hanyaguang
V2EX  ›  问与答

几个 T 的文件查重怎么搞,有哪些软件快

  •  
  •   hanyaguang · Feb 11, 2021 · 3496 views
    This topic created in 1939 days ago, the information mentioned may be changed or developed.
    兄弟们,你们用什么
    14 replies    2021-02-12 22:32:39 +08:00
    aec4d
        1
    aec4d  
       Feb 11, 2021 via iPhone
    完全可以自己写,先得到哪些文件大小一样,将大小一样的文件计算 hash 第一步就排除大多数文件了
    redtea
        2
    redtea  
       Feb 11, 2021
    dupeGuru
    lianyue
        3
    lianyue  
       Feb 11, 2021 via iPhone   ❤️ 4
    先文件大小 然后 文件前 128k 的 md5 然后 文件尾 128k md5 然后文件中间 128k md5 基本上就 ok 了 最后有一个严格模式 前面都匹配了 就 文件全局 md5
    Osk
        4
    Osk  
       Feb 11, 2021 via Android
    要不,用文件系统的去重功能 ,除了有点吃内存。。。
    glasswm
        5
    glasswm  
       Feb 11, 2021 via Android
    delectate
        6
    delectate  
       Feb 11, 2021
    先看大小,大小一致再比较随机位置的随机长度的 md5 就可以了。
    imn1
        7
    imn1  
       Feb 11, 2021
    文件查重还是文字查重?什么平台?
    文件几个 T 不是什么事,如果是经常要查的,建议用带数据库的工具,hash 过一次的保留,下次不用重新 hash
    文字的话,楼下回答,或者搜搜
    Overfill3641
        8
    Overfill3641  
       Feb 11, 2021 via iPhone   ❤️ 2
    检验快的算法又不是没有,天天 MD5
    wangxiaoaer
        9
    wangxiaoaer  
       Feb 11, 2021 via iPhone
    应该是文字内容查重,那些先拿文件大小判断的都可以退下了。

    我 i 有个思路,先所有文件建立索引,然后按照文件的每一段作为关键字去搜,根据匹配度判断。

    如果文件是专业性很强的,建索引的词库可能要定制。
    wangxiaoaer
        10
    wangxiaoaer  
       Feb 11, 2021 via iPhone
    @wangxiaoaer 当然,我 i 没干过,说的这个笨办法不知道可行性。
    cheng6563
        11
    cheng6563  
       Feb 11, 2021 via Android
    crc 就行了不用 md5
    jim9606
        12
    jim9606  
       Feb 11, 2021
    如果可以换文件系统,直接换 ZFS 或者 BtrFS,适合应对会不断新增数据的环境。
    基于 hash 的软件有很多我就不列举了,就是没法在线去重。
    microka
        13
    microka  
       Feb 11, 2021
    几个 T 的文件是指几个 T 的单文件?还是总容量达几个 T 的若干多个小文件?
    hanyaguang
        14
    hanyaguang  
    OP
       Feb 12, 2021
    谢谢兄弟们
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5812 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 75ms · UTC 02:07 · PVG 10:07 · LAX 19:07 · JFK 22:07
    ♥ Do have faith in what you're doing.