V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tool3d
V2EX  ›  Local LLM

半个小时前, ollama 上线了目前单显卡里,最强的中小模型 gemma3

  •  1
     
  •   tool3d · 11 天前 · 5161 次点击

    由 google 出品,ollama 介绍就一句话“The current strongest model that fits on a single GPU.”,足以证明其强悍程度。

    我去 google ai 官方页面看了跑分,27b 的小体积,竟然把体积大自己 20 倍的 deepseek v3 满血模型给灭了?有点令人难以置信。

    官方介绍在这里,我也不知道真假,让子弹多飞一会儿。

    https://ai.google.dev/gemma

    第 1 条附言  ·  11 天前
    贴一张网友的测评图,目前世界第二名

    50 条回复    2025-03-13 16:31:39 +08:00
    dbpe
        1
    dbpe  
       11 天前
    claude:
    说道跑分。。我可就不困了
    tool3d
        2
    tool3d  
    OP
       11 天前
    @dbpe 不太一样,claude 是商业版。google 这个完全开源模型,包括底模都提供了,吹嘘水准已经到了商业标准。还是多模态,而且还能同时识别多张图片,似乎以前模型只能识别出一张图片。
    dbpe
        3
    dbpe  
       11 天前   ❤️ 3
    @tool3d claude ,跑分没赢过,体验没输过


    先质疑一波,等量化模型出来大家跑一跑就知道了。
    l4ever
        4
    l4ever  
       11 天前
    这么说一张 A100 80G 就搞定了?
    bjzhou1990
        5
    bjzhou1990  
       11 天前
    怎么没有和 qwq 32b 对比
    wyntalgeer
        6
    wyntalgeer  
       11 天前
    @l4ever 写的是 H100
    crackidz
        7
    crackidz  
       11 天前
    跑分冠军挺多的,最终还是需要是骡子是马拉出来遛遛
    listenfree
        8
    listenfree  
       11 天前
    我玩了 qwq 32b 是真的爽,对中文的拿捏,估计 gemma3 无法达到,等子弹飞一飞
    LaTero
        9
    LaTero  
       11 天前
    lmarena 上确实把包括 deepseek v3 等一众远大于它的模型给灭了,我自己稍微测了一下感觉算是二线非思考模型水平了(或者说准一线?除了 grok 3 和 claude sonnet 3.7 之外的非思考模型的水平),不过不知道为什么明明是一个这么小的模型,google ai studio 的推理速度特别特别慢,所以我也没测太多。
    tool3d
        10
    tool3d  
    OP
       11 天前
    @LaTero 本地 ollama 没问题,网友 Apple M1 Max 32G ,运行飞快。我自己显卡运行也挺快的。
    iorilu
        11
    iorilu  
       11 天前
    4090 能跑吗
    xausky
        12
    xausky  
       11 天前
    gpt 4o 都已经这么落魄了么
    djkcyl
        13
    djkcyl  
       11 天前
    其实,真正的极致小模型,还得看 rwkv ,0.5b 都能很猛
    supersf
        14
    supersf  
       11 天前
    多少个 tokens/s ?
    @tool3d
    hutng
        15
    hutng  
       11 天前
    开源模型生机勃勃了,好事,deepseek 开的好头。
    QWQ 32B q8 两张显卡 40G 正好够,已经感觉和 deepseek 满血差距很小了,非常好用。
    期待 gemma3 。
    openmynet
        16
    openmynet  
       11 天前
    这榜单还行,是个写作榜单,也就是评测 llm 在进行写作创作时人哪个人情味更多些。lmarena 评测更多是答案的亲和性。
    tool3d
        17
    tool3d  
    OP
       11 天前
    @supersf 是有点慢(和同类型的模型对比)。我这里差不多 15 tokens/s ,架构似乎是新的,我看 ollama 上也有人说速度慢,估计需要时间优化。

    不过很奇怪的是,官方也很慢。
    hutng
        18
    hutng  
       11 天前
    @hutng 刚用 ollama 测试了一下,12b 模型,效果一般。老是报错,Error: POST predict: Post "http://127.0.0.1:35039/completion": EOF ,不知道怎么回事,可能是我的环境问题。
    hutng
        19
    hutng  
       11 天前
    @hutng #18 ollama 官网也得是:12B parameter model (128k context window)。我比较好奇这 128K 的上下文窗口是怎么来的。ollama 默认都是 2K ,128K 不爆显存吗?
    icyalala
        20
    icyalala  
       11 天前
    这个可以输入图片,我试了下还挺好,至少各种表情包图片能解释出来
    openmynet
        21
    openmynet  
       11 天前
    ollama 上的给的参数有问题,温度应该是 1.0, 不是 0.1
    listenfree
        22
    listenfree  
       11 天前
    >>> 请你自己成语拉龙 10 次
    好的,没问题!我来连续成语拉龙 10 次:

    1. **一帆风顺**
    2. **水到渠成**
    3. **蒸蒸日上**
    4. **鹏程万里**
    5. **龙腾虎跃**
    6. **锦上添花**
    7. **如鱼得水**
    8. **马到成功**
    9. **心想事成**
    10. **福星高照**

    希望这些成语能给你带来好运!

    0.1 的温度
    listenfree
        23
    listenfree  
       11 天前
    >>> 请你自己成语拉龙 10 次
    好的,没问题!我来挑战一下成语拉龙十次:

    1. **一帆风就** (yīfán fēngjiù) - 比喻一开始就非常顺利。
    2. **龙腾虎跃** (lóngténghúyuè) - 形容跑跳时动作矫健,也形容人充满活力,气旺而有精神。
    3. **龙马精神** (lóngmǎ-JīngShén) - 形容老气十足的精力旺盛、精神振奋。
    4. **呼风唤兽** (hūfēng huànshòu) - 原指道士或巫师招风唤雨,后比喻凭借某种神秘的力量变化事物。
    5. **生龙活虎** ( shēnglónghuótiger) - 比喻像龙和虎一样有生机、有活力。
    6. **游龙戲珠** (yóu lóng xì zhū) - 喻君王巡视,也形容玩耍得很自得。
    7. **画龙点睛** (huà lóng diǎnjīng) - 比喻在关键地方简明地点明要旨,使内容传神生辉。
    8. **望云断雾看风辨雨** (wàngyún duànwù kàng fēng biàn yǔ) – 古人根据云、雾、风、雨变化判断天氣。比喻通过敏锐的观察判断事物的发展趋势。
    9. **龙争虎斗** (lóng zhàng hū dǒu) - 比喻势力或竞争对手之间激烈的争夺。
    10. **惊天动地** (jīngtiāndòngdì)- 形容声势非常大,足以使天大地颤动。也形容事件影响震惊寰宇。

    完成了!希望你喜欢我拉的这些“成语龙”!

    1.0 temperature
    hutng
        24
    hutng  
       11 天前
    @openmynet #21 确实,google 的 aistudio 上就是 1 。
    aistudio 上试了一下 27B 的模型,光数学上来看,准确性一般,比 qwq 差远了(当然了,直接这样比较推理模型和非推理模型不是很公平)
    follow
        25
    follow  
       11 天前
    @hutng 大佬, 推理模型,和非推理模型,各推荐一个能本地部署的?
    google2023
        26
    google2023  
       11 天前
    @hutng QWQ 32B q8 需要的配置不算很低啊
    FightPig
        27
    FightPig  
       11 天前
    这个等人试了再看
    hutng
        28
    hutng  
       11 天前
    @follow 非大佬,纯小白。推理模型 qwq 32b 的 q4 就可以,实际占用显存 20G 多点,4090 、3090 都可以,便宜点 2080ti 也行。目前感觉比 r1 蒸馏的 32b 强很多。唯一的问题就是思考的过程有点长,回答的精细度、准确性非常好。
    yorath
        29
    yorath  
       11 天前
    gemma3 12b

    >>> 请你自己成语接龍 10 次
    好的,没问题!我来挑战一下成语接龙,10 次:

    1. **一帆风顺**
    2. **顺水推舟**
    3. **舟车劳顿**
    4. **顿悟成仙**
    5. **仙姿佚貌**
    6. **貌合神离**
    7. **离恨仇深**
    8. **深恶痛绝**
    9. **绝无仅有**
    10. **有恃无恐**

    怎么样? 这是一个有趣的挑战! 😊
    niubilewodev
        30
    niubilewodev  
       11 天前
    @listenfree AI 对这种异常输入,表现很一般。
    毕竟你说的是“成语拉龙”。你换成“成语接龙”试试。
    hutng
        31
    hutng  
       11 天前
    @google2023 我是 3090+tesla t10 ,显卡成本 7.5k ,q8 15token 左右。2 个 2080ti22g 更便宜,5k
    privil
        32
    privil  
       11 天前
    @niubilewodev #30 ds r1 开深度思考是可以的,他打错是有点欺负国外 AI 了
    privil
        33
    privil  
       11 天前
    补充下 模型大小对质量的影响肯定还是存在的。671B 基本还是优势很大的,明天部署下原版 gemma3 27B 看看效果
    listenfree
        34
    listenfree  
       11 天前
    @niubilewodev 谢谢提醒,老了,经常打错字
    kennylam777
        35
    kennylam777  
       11 天前
    Gemma3 的多語言能力肯定比 Qwen2.5 強

    最少對正體中文的用戶來說, Gemma3 1B 不寫錯字已經很厲害, Qwen2.5 7B 的輸出有點慘不忍睹, 32B 才像樣, 更不用說用語差異 Qwen 是不行的

    Gemma3 4B 連廣東話都比 Qwen2.5 32B 強很多。
    kennylam777
        36
    kennylam777  
       11 天前
    我想廣府人會看得懂

    QwQ 32B, 完全看不懂, 不懂香港也算了, 回應字體也不對, 這種程度的話在香港是沒有商用價值的。
    用戶:
    ---
    如果一個連登仔見到呢個笑話, 佢會點接落去?
    ```
    飛機係荒島到墜毀
    死淨 3 個幸存者
    跟住比當地食人族捉晒番去
    3 個人去到比人吊晒起身
    食人族公主就問第一個幸存者
    「你寧願彈十下賓周定寧願死」
    幸存者話寧願彈十下賓周
    跟住公主問第二個幸存者
    「你寧願彈一百下賓周定寧願死」
    幸存者話彈一百下賓周
    彈痛到嗚嗚叫
    跟住公主問第三個幸存者
    「你寧願彈一千下賓周定寧願死」
    幸存者話 我寧願死!!
    公主就話
    ```

    AI:
    ---
    这个笑话的结构是一个递进式的幽默,通过逐步增加数字(从 10 到 100 再到 1000 )来制造笑点。每个幸存者的反应也随着数字的增大而变得更加极端,最后第三个幸存者选择死亡而不是承受更大的痛苦,这本身已经具有一定的荒谬感和幽默效果。

    然而,在第三个人选择了“宁愿死”之后,公主会有什么样的回应呢?这里的关键在于预期与现实之间的反差。根据前面的模式,公主可能会继续沿用类似的句式,但需要制造一个转折或意外来增强笑点。

    可能的结局是:
    公主说:“好啊!那我让你死一千次!”
    或者更夸张一点:
    “既然你选择死亡,那么……你就得弹一万下宾周再死!”(进一步加剧了荒谬性)

    这样的回应既延续了之前的模式,又通过出乎意料的数量增加制造了额外的幽默效果。同时,这也突显了食人族公主可能具有某种扭曲的逻辑或偏好,即不断加码惩罚以达到极端的效果。

    需要注意的是,“宾周”在这里应该是一个特定词汇或双关语,在中文网络环境中可能存在特定含义,但根据上下文推测它可能是“槟榔”或其他有弹性的物品(例如气球等),或者是某个谐音梗。由于具体背景不明确,这里假设其为某种需要反复拉伸的动作对象。

    总结来说,这个笑话的高潮在于通过逐步升级的选择和出人意料的结果来制造笑点,并且可能包含文化或语言上的双关元素以增强效果。公主的反应应该打破之前简单的二选一模式,转而采取更极端的方式,从而产生喜剧性的反差。


    Gemma 3 27B 就強多了, 懂廣東話, 懂連登

    AI:
    ---
    連登仔見到呢個笑話,接落去嘅反應肯定係:

    **「公主話:『咁你唔早講!我哋已經彈咗成千下賓周喇!』」**

    或者會加多句:

    * **「正宗 on9 笑話!」**
    * **「笑死,呢個 level 嘅廢柴笑話都得?」** (通常係帶諷刺意味)
    * **「連登仔表示理解哂佢哋嘅痛苦」** (自嘲)
    * **「其實公主想講嘅係:『你 on9 咩?』」**

    總之,連登仔會用一種好似睇唔起但又忍不住笑嘅態度去接續呢個笑話。佢哋鍾意喺廢柴笑話入面搵啲諷刺同自嘲嘅空間。
    kennylam777
        37
    kennylam777  
       11 天前
    QwQ 32B 的古詩賞析, 正體問題還是用簡體回答, 長篇大論的實在頂不住, 我還是換成 Qwen2.5 32B 測測看

    ### 問題

    賞析以下古詩
    --
    早發白帝城 - 李白

    朝辭白帝彩雲間,千里江陵一日還。
    兩岸猿聲啼不盡,輕舟已過萬重山。



    ### Qwen 2.5 32B:
    《早發白帝城》是唐代著名詩人李白的一首七言絶句,描繪了清晨離開白帝城時的壯麗景象和迅速航行的輕舟情景。這首詩主要表現出詩人的喜悅心情以及對大自然景色的熱愛與贊美。

    首先,“朝辭白帝彩雲間”,開頭便呈現了一幅美麗而神祕的畫面:清晨,霞光萬丈,詩人離開了被彩雲環繞的白帝城。這句以“白帝”和“彩雲”的意象,營造出一種神奇、虛幻而又壯麗的意境。

    接著,“千里江陵一日還”,通過這種速度感來表現詩人的輕鬆自在。這裡用了一個驚奇的數字對比——“千里”與“一日”。這不單僅是空間和時間上的反差,更重要的是表達了詩人快速返家的急切心情。

    下一句,“兩岸猿聲啼不盡”,描寫沿江而行時聽到的猿猴啼鳴。這種自然之音無窮無盡,象徵著旅途中的持續性和永不停息的生命力,也增添了旅程中的一絲寂靜與孤獨感。

    最後,“輕舟已過萬重山”則強調了詩人順利抵達目的地的心情。這裡的“輕舟”不僅僅是指船隻本身,更是象征著詩人的自由和洒脫,表現出他對生活的熱愛和樂觀態度;而“萬重山”的意象更突出了這種旅程的艱辛與最終的成功。

    整首詩通過生動鮮活的景色描寫、明快優美的語句表達了作者開朗豁達的心境和對大自然之美的無盡讚美,是李白作品中一首非常有名的山水詩。


    ### Gemma 3 27B
    好的,我們來賞析李白的《早發白帝城》。這首詩是李白在被赦免後,離開白帝城時所作,充滿了喜悅、自信和豪邁之情。

    **詩句解讀:**

    * **「朝辭白帝彩雲間」**: 描寫詩人清晨告別白帝城。白帝城地處高山峽谷之中,常年雲霧繚繞,景色瑰麗奇特。“彩雲間”不僅點明了地理位置的優美,也暗示了詩人當時的心情如同彩雲般輕鬆愉快。
    * **「千里江陵一日還」**: 說明詩人乘坐輕舟,一天之內便可從白帝城返回江陵。這句看似誇張,但卻真實地反映了長江水流的湍急和詩人的歸心似箭。“千里”強調距離遙遠,“一日還”則突顯速度之快,也暗示了詩人被赦免後心情的暢快和對自由的渴望。
    * **「兩岸猿聲啼不盡」**: 描寫長江兩岸猿猴的叫聲此起彼伏,連綿不斷。“啼不盡”不僅表現了猿猴的數量之多,也暗示了詩人旅途中的熱鬧和生機勃勃。同時,猿聲也烘托出詩人內心的喜悅之情。
    * **「輕舟已過萬重山」**: 描寫詩人的輕舟已經駛過重重山巒。這句是全詩的點睛之筆,“萬重山”既指長江三峽的險峻山勢,也象徵著詩人過去所經歷的困境和阻礙。“輕舟已過”則表明詩人已經克服了困難,迎來了新的開始。

    **賞析:**

    * **意境開闊**: 詩歌以簡潔明快的語言,描繪了一幅雄渾壯麗的長江三峽圖景。詩中沒有直接抒發情感,而是通過對自然景物的描寫,間接地表達了詩人的喜悅之情。
    * **豪邁奔放**: 李白是一位浪漫主義詩人,他的詩歌往往充滿了豪邁奔放的氣勢。《早發白帝城》也不例外,詩中“千里江陵一日還”、“輕舟已過萬重山”等語句,都表現了詩人的自信和豪情壯志。
    * **動靜結合**: 詩歌既有對長江水流、猿聲鳥鳴的動態描寫,也有對白帝城、萬重山的靜態描繪。動靜結合,使詩歌的意境更加豐富生動。
    * **語言精煉**: 全詩僅有四句,但卻包含了豐富的信息和深刻的情感。詩人運用了簡潔明快的語言,將複雜的情感表達得淋漓盡致。

    **總結:**

    《早發白帝城》是一首充滿浪漫主義色彩的佳作。詩歌以其開闊的意境、豪邁的氣勢和精煉的語言,贏得了後世讀者的廣泛讚譽。這首詩不僅描繪了長江三峽的美麗景色,也表達了詩人被赦免後的喜悅之情和對自由的渴望。

    希望這個賞析能幫助你更好地理解李白的《早發白帝城》。



    ********************
    我的評語是

    Qwen2.5 32B: 沒有 QwQ 32B 般的簡體 CoT, 輸出字體看來還可以, 但有錯字例如「贊」(應為「讚」)及標點符號用錯了“” (應為「」開引號), 在香港作為教育用途是不行的, 只能將就用。內容也針對原文用字作出回應, 例如形容「彩雲環繞」就是用原文的「彩雲」作出伸展。

    Gemma 3 27B: 沒錯字, 起碼能逐句輸出「」開引號, 但仍然錯用了“” , 能用「雲霧繚繞」陳述意象, 也能點出到白帝城經過的是長江三峽。


    比較之下我就不會用 Qwen2.5 32B 了。
    fredweili
        38
    fredweili  
       10 天前
    没有 7b 、8b 尺寸的,12b 的可能带不动了,该换电脑了。。。
    single GPU ,那应该是 dense model 啊,和 deepseek 的 MoE 不能直接比较参数的吧
    billly
        39
    billly  
       10 天前
    真不错啊,我用 gemma-3-4b 用来本地翻译,感觉效果比之前 Llama-8B 要强一些,速度快很多
    xiaoz
        40
    xiaoz  
       10 天前
    试了下 4b ,效果还行,感觉比 phi4-mini 更强一些。
    z1060450187
        41
    z1060450187  
       10 天前
    我觉得比 qwq 32b 好
    anan1314git
        42
    anan1314git  
       10 天前
    测试了一下, 代码能力一般, 但是写讽刺文章的水平还不错, 讽刺意味儿挺浓郁!
    troilus
        43
    troilus  
       10 天前
    @fredweili latest
    c0494fe00251 • 3.3GB • 19 hours ago
    1b
    2d27a774bc62 • 815MB • yesterday
    4b
    c0494fe00251 • 3.3GB • 19 hours ago
    12b
    6fd036cefda5 • 8.1GB • yesterday
    27b
    30ddded7fba6 • 17GB • yesterday
    12b-it-fp16
    aac605cdf033 • 24GB • yesterday
    1b-it-fp16
    b822f21cb741 • 2.0GB • yesterday
    27b-it-fp16
    cf10306fe9c6 • 55GB • yesterday
    4b-it-fp16
    5a54224d4d14 • 8.6GB • 19 hours ago
    tabc2tgacd
        44
    tabc2tgacd  
       10 天前
    上午试了 27b 的,感觉不错,图片识别啥的,效果也很好。我是 3060 显卡 12G ,所以要用内存,跑得比较慢,大概 1 秒蹦 1/2 个字吧。同样的图片,12b 的效果就差多了。27b 之所以慢,因为我内存也只有 64G ,在跑 27B 时,内存也不够,用到虚拟内存了,如是内存够的话,估计要快点。
    seanss
        45
    seanss  
       10 天前
    我是先问了他知不知道成语接龙的意思,再让他自己玩
    Jhon11
        46
    Jhon11  
       10 天前
    我的 m4 pro 48g 跑 Gemma 11 个 token,dp 是 9 个 token
    dcdlove
        47
    dcdlove  
       10 天前
    chen1210
        48
    chen1210  
       10 天前
    在 Google AI Studio 里试了一下
    >>strawberry 这个单词里面有几个字母 r

    输出:strawberry 这个单词里面有两个字母 r 。
    FlorentinoAriza
        49
    FlorentinoAriza  
       10 天前
    看了测试我笑笑不说话,最近有个积分活动用的 trae 配合 deepseekr1 解决问题,问题反复循环(解决死锁又出来嵌套解决嵌套又出来死锁,让他兼顾俩都写上了直接问题 x2),实际体验都不如 4o
    hanbing135
        50
    hanbing135  
       10 天前
    搞 deepsex 的大佬可以拿这个优化了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2812 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 00:32 · PVG 08:32 · LAX 17:32 · JFK 20:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.