V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ddddd0
V2EX  ›  数学

一个有趣的数学题(机器学习 embedding 设计相关)

  •  
  •   ddddd0 · 257 天前 · 1881 次点击
    这是一个创建于 257 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近在学习 embedding ,想到了一个问题,如下:

    ---

    有 2 种特征:性别,物种

    性别分为: 男,女
    物种分为: 人,狗

    设计向量表示,要求:
    向量维度尽量小
    向量每个位置是实数

    向量点积结果要在 [0, 1]
    0 代表无关,比如男人*母狗 = 0 ,女人*公狗=0
    1 代表完全一样,比如男人*男人=1
    0-1 之间代表有点相关,比如 女人*母狗=0.5 ,或者,男人*公狗=0.5 ,公狗*母狗=0.5 ,注意这种组合的点积一定要大于 0 小于 1 ,表示有一定相关性,具体的值大小你来定,但不能是 0 或 1

    ---


    想知道满足上述要求的向量表示的最小的维度是多少?以及具体的设计方法
    6 条回复    2024-04-05 18:33:35 +08:00
    huangsijun17
        1
    huangsijun17  
       257 天前
    哪里来的“公”“母”?
    ddddd0
        2
    ddddd0  
    OP
       257 天前
    @huangsijun17 “公”“母”是 [性别特征: 男,女] ,等价的说法
    geelaw
        3
    geelaw  
       257 天前 via iPhone   ❤️ 3
    就是要找四个单位向量 abcd ,使 ad 、bc 正交且 ab 、ac 、bd 、cd 都是锐角。

    很明显零维不行:没有单位向量。

    很明显一维不行:两个单位向量从不正交。

    很明显二维不行:令 ad 为 xy 轴,则 bc 必须都和坐标轴不重合,此时 abcd 中存在钝角。

    三维,考虑 a=(1,0,0), d=(0,1,0), b=(1,1,sqrt2)/2, c=(1,1,-sqrt2)/2 ,所以可以。
    chen88ijn
        4
    chen88ijn  
       257 天前
    需要 2bit 的信息量,所以二维向量就可以了?
    ddddd0
        5
    ddddd0  
    OP
       257 天前
    @geelaw 谢谢,很完美
    ddddd0
        6
    ddddd0  
    OP
       257 天前
    @chen88ijn 我试了下,应该不行,总有要求不能满足
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1484 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 17:08 · PVG 01:08 · LAX 09:08 · JFK 12:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.