V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
sillydaddy
V2EX  ›  奇思妙想

原创!在文章中添加“文字指纹”,追踪盗版源头

  •  1
     
  •   sillydaddy · 2021-04-29 12:07:26 +08:00 · 11127 次点击
    这是一个创建于 1306 天前的主题,其中的信息可能已经有所发展或是发生改变。

    帖子“ 有没有办法防止 app 内资源被提取呢 ”里面提到了对自己著作权内容被盗取的担心。

    这个问题的背景就不多说了,说多了都是泪。直接呈上我思考的方案,欢迎点赞+批判:


    我的方案


    1. 要有注册机制,以便区分不同的用户

    2. 对于同一篇著作内容,在分发给不同的用户前,都加上独特可区分的水印,一旦出现盗版,可以知道是哪个用户泄露

    3. 定位盗版源头后,永封源头用户,钱款不退。提高用户被永封后的直接损失,把走法律诉讼这种高成本的动作转移给对方。

    4. 重点讨论给纯文字添加水印的方法,要让这种水印不能轻易被抹除、篡改。方法包括:

      • 文字替换,同义词替换
      • 句子的顺序调换
      • 句子、段落的增+,减-

    盗版者的手段和困境


    抹除水印的方法,说白了就是对带有水印的内容,进行“扭曲变形”,让水印无法再辨别。那么文字的“扭曲变形”,就只能是修改文字自身的内容了。那么,分析一下针对上面 3 种“文字水印”的破环手段和效果:

    1. 针对特定的“文字替换,同义词替换”

      只要我把文章中的所有字词都用同义词替换一遍,原有的替换效果就全被破坏了

    2. 针对特定的“句子的顺序调换”

      只要我把文章中的句子顺序都打乱,原有的调换效果就被破坏了

    3. 针对特定的“句子、段落的增+,减-”

      只要我把文章中的句子段落随机增删,原有的增+减-效果就被破坏了

    等一下。。看起来哪里不对劲。。替换文章所有字词还算勉强可行,但随意增+删-,以及调换句子顺序,那文章还能读吗?

    对,这就是试图破坏这些水印所面临的困难!也是这些水印可行的原因!


    三维水印空间


    字词替换、句子顺序调换、句子增+减-,这 3 种方法中,每一种下面都有 N 多种具体的选择,都可以选择文章中具体的某个字词、某个句子进行操作。用个比喻的话,这 3 种方法可以看作是文字水印的 3 个维度。而具体的水印,则是这“三维水印空间”中的某 1 点:

    • xyz=(替换文章中单个词组,调换文章中的单个句子顺序,向文章中增+减-单个句子)

    盗版者并不知道所加水印点的具体位置,所以要破环它,只有尽量扰乱整个水印空间,也就是说,

    • 抹除水印=(大量替换文章中的词组 + 大量调换文章中的句子顺序 + 大量增+减-文章中的句子)

    这意味着什么呢:

    • 如果使用人工破坏水印的方式,这代价基本就是重写整篇文章;
    • 如果使用程序破坏水印的方式,这代价就是文章变得不再可读;

    而添加水印对创作者的难度呢:

    • 人工添加:手动选取 10 组待替换词组,10 组待调换句子,10 组待增+减-句子,10*10*10 可供分发给 1000 个用户,添加水印后的文章浑然天成,毫无破绽
    • 程序添加:程序选取 10 组待替换词组,10 组待调换句子,10 组待增+减-句子,10*10*10 可供分发给 1000 个用户,添加水印后的文章有点别扭,但,仅仅是有一点,毕竟只替换了一组。读者就凑合着看吧。

    大家怎么看


    可以看出,水印空间的维度越高,破坏水印越困难,而添加水印则越简单。上面给出的是一个 3 维的水印空间,也就是添加“文字水印”的 3 种方法,还有其他的方法吗?

    第 1 条附言  ·  2021-04-30 07:48:20 +08:00
    对于楼下提到的注册多帐号对比差异的方法,确实很难解决。原本以为可以使用一些编码手段,不过没找到可行的方案。

    此路不通!
    第 2 条附言  ·  2021-04-30 08:25:02 +08:00
    另外利用附言作一些辩解:是这样的,我在主题里并没有任何的明示或暗示这种方法可以适用于所有的场景。我只不过是没有明确把我自己设想的可以应用的场景说出来。
    然后就有很多人臆想我意图用这种方法用在所有场景,甚至要取代所有版权手段。
    用臆想这个词是因为这种想法不仅没有依据,而且是跟我主题里的内容相矛盾的。举一个最简单的例子,这种方法要求同一篇著作分发 n 多个不同版本给不同的读者,怎么还会有人拿文学作品甚至 zf 工作报告作为应用场景呢。另外,主题里明确提到了注册制以及帐号封禁,能用这种方式的应用场景必然是有限的。

    稍微有点常识和逻辑思维,就不会作出那些臆想。

    所以我在回复里提到了“不审题,不思考,臆想,硬杠”。

    至于作者使用人工的方法,用主题里提到的 3 种方法修改文章,还能不能保持原有文章的一致性,连贯性,可读性,甚至特色。在我看来这同样是一个常识。对此持不同意见的那就彼此保留各自看法吧。
    106 条回复    2023-03-14 09:18:34 +08:00
    1  2  
    clf
        101
    clf  
       2021-04-30 15:10:15 +08:00
    文字追踪盗版源头有点难的。

    要么是影响用户阅读体验的改变,比如同义词替换,的、地、得替换。

    要么是替换了个寂寞,比如标点符号中英文替换( OCR 软件才不管你是英文逗号句号,统一翻译成中文或者英文的)

    所以最好的办法是保留自己的著作权,然后遇到盗版的 app,养韭菜一样的一个个去起诉。也就只能这样。
    shoa
        102
    shoa  
       2021-04-30 17:35:17 +08:00
    这种做法早就在用了吧
    某些机密文件的分发只发纸质版,一人一份而且接收者不知道都有谁收到了这个文件,文章中的标点和某些字精心安排可以用于溯源(而且加入了校验算法)
    直接对文件拍照一定可以查到源头,按意思复述一份也有概率可以查到
    c0xt30a
        103
    c0xt30a  
       2021-05-04 16:21:58 +08:00
    这样折腾出来的文字质量不可避免地受到影响。
    对于质量不高的文字,可以简单地通过 中文 -> 英文 -> 中文 这样翻译一圈来洗稿。
    Fu4ng
        104
    Fu4ng  
       2021-07-03 16:30:06 +08:00
    如果我拿别人的版本去盗版呢。。
    sillydaddy
        105
    sillydaddy  
    OP
       2021-07-04 14:06:14 +08:00
    @Fu4ng
    怎么拿别人的?拿谁的谁就被封账号。
    ttys001
        106
    ttys001  
       2023-03-14 09:18:34 +08:00
    受 op 启发,我想到一个针对中文的绝妙的防盗 idea ,可惜不能公布于众,不然很容易破解了,我决定用在我的博客上。
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5588 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:58 · PVG 15:58 · LAX 23:58 · JFK 02:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.