V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
secsilm
V2EX  ›  分享发现

经济学人的一篇老文:中文是最合适微博的语言

  •  
  •   secsilm · 2020-07-07 15:42:29 +08:00 · 4466 次点击
    这是一个创建于 1603 天前的主题,其中的信息可能已经有所发展或是发生改变。

    原文:Lost (or gained) in translation

    应了那句话,中文是信息熵最大的语言。哈哈哈

    文中那个图挺具有说明意义,是说将一个长度为 1000 (包含空格)的英文文本转成其他语言后的长度变化:

    中文锐减 70% 左右。

    嗯……中华文化,博大精深。

    30 条回复    2020-07-09 22:01:12 +08:00
    wysnylc
        1
    wysnylc  
       2020-07-07 15:53:45 +08:00
    这也是为啥中文以及其变种的视频弹幕能流行,其他语言例如英文弹幕流行不起来的原因它太长了
    est
        2
    est  
       2020-07-07 15:55:09 +08:00   ❤️ 1
    文言文表示不服
    doveyoung
        3
    doveyoung  
       2020-07-07 15:59:57 +08:00
    淦啊
    kx5d62Jn1J9MjoXP
        4
    kx5d62Jn1J9MjoXP  
       2020-07-07 16:04:02 +08:00
    如果是讨论信息密度什么的,英文计算文本长度是用字母个数算长度的,换成中文应该计算笔画数,否则英文应该一个单词算一个数

    Twitter 在英语世界一只不温不火就是因为 140 字限制对英文太短了
    autoxbc
        5
    autoxbc  
       2020-07-07 16:07:40 +08:00   ❤️ 2
    带宽成本逐渐稀释的情况下,语言精炼性的价值是不明显的,单位长度语义的解码成本才比较重要

    就像站里时不时就有人寻求把复杂文本处理转化为正则表达式,实际这个表达式的编写耗费了大量时间,在维护者理解作者意图的阅读过程中,解码又耗费了大量时间。而如果用程序原语来描述,尽管把一个正则展开为一个块语句增加了长度,却节省了大量编码解码的时间,而且降低了歧义和边界错误的可能性
    xingyuc
        6
    xingyuc  
       2020-07-07 16:25:16 +08:00   ❤️ 1
    中文是最不适合 block 的语言
    ltm
        7
    ltm  
       2020-07-07 16:29:28 +08:00 via Android   ❤️ 5
    每一个方块都是二维码状的图形,信息量不大才怪
    rogwan
        8
    rogwan  
       2020-07-07 16:42:14 +08:00 via iPhone   ❤️ 1
    人类语言中,英语是 C 语言,中文是 Python 。
    liberty1900
        9
    liberty1900  
       2020-07-07 18:20:42 +08:00   ❤️ 3
    英文的单词是字母排列组合而成的,中文的字符已经是笔画排列组合的结果了,而且是二维空间的排列组合,封装度不是一个级别
    kikyous
        10
    kikyous  
       2020-07-07 18:35:48 +08:00   ❤️ 1
    中文牛逼,还有书法
    crella
        11
    crella  
       2020-07-07 19:18:43 +08:00 via Android
    @rogwan Python 和中文的共同点在于结合上下文理解对象?
    darksword21
        12
    darksword21  
       2020-07-07 20:05:49 +08:00
    因为中文不仅有左右结构
    neroransom
        13
    neroransom  
       2020-07-07 22:23:41 +08:00 via Android   ❤️ 1
    @ssynhtn 就是英语一个单词算一个数来算,中文也短啊
    Anhedonia
        14
    Anhedonia  
       2020-07-07 22:46:52 +08:00
    台大教授史达林在一个关于练习英语听力的演讲里说过

    非常羡慕中国人用汉字 太方便了 很多人看电影的时候就可以直接扫一眼字幕 甚至都不需要把声音语言过脑子翻译就能得到信息 英语的话就不行

    这点确实就是中文的强大之处
    hundan
        15
    hundan  
       2020-07-07 23:19:02 +08:00 via iPhone   ❤️ 2
    @Anhedonia 我表示有很长一段时间 因为没有听而是看字幕 导致没有什么观感 也丢失了很多画面细节

    就这一点 就影视作品来说 至少我觉得不是啥优点...
    murmur
        16
    murmur  
       2020-07-07 23:23:18 +08:00
    微博进化的比推特早多了,只要能发图,什么可能性都有,能用表情解决的都不打字,长微博想写多少写多少
    maduoduo
        17
    maduoduo  
       2020-07-07 23:26:33 +08:00   ❤️ 1
    @ssynhtn 但是在存储和显示效果来看,同内容下确实中文要比英文更短小。
    HongJay
        18
    HongJay  
       2020-07-07 23:38:47 +08:00
    @wysnylc #1 学习了
    Biwood
        19
    Biwood  
       2020-07-07 23:52:52 +08:00 via Android   ❤️ 2
    @Anhedonia 电影本质上是画面与音效结合的艺术,中国人看电影最大的问题就是过于注重文本。不管是制作者还是观看者,本来可以用非文字传达的东西,非得加上大段大段的台词,失去了电影的优势。
    观众习惯了字幕之后,眼睛总要盯着屏幕下方,总有那么几帧画面信息会因此而错过,而某些优秀的电影,每一帧都很重要,这是很可惜的。
    WebKit
        20
    WebKit  
       2020-07-08 00:14:08 +08:00 via Android
    @Biwood 那你看无字幕的电影不就行了?
    Anhedonia
        21
    Anhedonia  
       2020-07-08 07:37:12 +08:00
    @hundan
    @Biwood
    如果说在看电影的效果上 确实是这样 她在演讲的后面也说了这种行为导致的弊端,整场电影下来对于很多关键帧都缺失不少内容


    就是国人通常看电影的时候 脑子里没有“声音” 没有对文字的回放。
    时间长了 许多人去学习英语的时候也会带上这种习惯,就像是看带字幕的英语电影,其实全程也只是在读字幕,对于演员具体的口语、发音什么的 压根没有什么印象
    Building
        22
    Building  
       2020-07-08 08:02:38 +08:00 via iPhone
    实际上中文并不如英文严谨,非常容易产生歧义,只是大家都习惯了而已,老外发消息也是会用缩写的,不一定就比中文显得长。这种短就是好的结论就好像老外觉得中文这么多字那打字不是很费力一样。
    SwagXin
        23
    SwagXin  
       2020-07-08 11:01:56 +08:00
    中文这么强大吗
    di94sh
        24
    di94sh  
       2020-07-08 11:50:59 +08:00 via iPhone
    @Building 熵就是,混乱度,不确定性之类的意思。
    no1xsyzy
        25
    no1xsyzy  
       2020-07-08 13:38:23 +08:00
    @di94sh #24 不对…… “没人能够解释清除熵是什么”,所以任何解释一定不对
    那些 “用你们人类的语言无法解释清楚” 的所谓高级文明词汇,其实无外乎 “熵”、“量子化” 这种基于数学而不是直觉的词。语言是永远无法解释清楚的,除非全民数学家,但那样不必解释也清楚了。
    no1xsyzy
        26
    no1xsyzy  
       2020-07-08 13:44:59 +08:00
    信息量更大是好事吗?因为在 140 字的限制内使用中文能放进更多信息,难道就意味着更适合吗?
    混过 codegolf 都知道,一些几百行代码的事换个语言可能一行甚至两个字符解决。
    这意味着你们会去用那些一行的语言吗?你们觉得一行解决的语言更适合编程吗?那为什么不是人人 PERL 起步呢?
    Aaralyn
        27
    Aaralyn  
       2020-07-08 16:12:00 +08:00
    繁体中文更强大哦,然而共同的缺点就是学习起来费事费力,不利于传播。
    tfdetang
        28
    tfdetang  
       2020-07-09 14:02:44 +08:00
    @no1xsyzy 信息熵确实比较难解释清楚,但是毕竟是有明确定义和计算公式确定性的东西,何来 “没人能够解释清楚熵是什么?”
    no1xsyzy
        29
    no1xsyzy  
       2020-07-09 14:16:54 +08:00
    @tfdetang #28
    > you should call it entropy ... no one knows what entropy really is,
    john von neumann, to claude shanon

    对,熵是良定义的,但是它也是、甚至因此是不可解释的。因为解释的时候你总要拿现成的概念去对照,去拼凑,但这是不可能的。

    请用你任何感觉舒服的语言使用这个函数:call-with-current-continuation (简称 call/cc )
    call/cc 是良定义的,但大多数的语言想要表达这个函数是乏力的。任何人声称自己在这些语言中编写出了 call/cc 你都可以不必仔细调查而无错地断言:实现是不对的。
    KennyMcCormick
        30
    KennyMcCormick  
       2020-07-09 22:01:12 +08:00 via iPhone
    昨天写了份报告,中文版 74k,英文版 122k
    sigh
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5367 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 03:47 · PVG 11:47 · LAX 19:47 · JFK 22:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.