V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
milazi
V2EX  ›  Bitcoin

一个关于蓝宝石5850挖矿死机的问题,我将用BTC支付给第一个提出有效解决线索的

  •  
  •   milazi · 2011-06-25 17:57:01 +08:00 · 7991 次点击
    这是一个创建于 4928 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我有5块 蓝宝石 HD5850 Extreme的显卡
    两块主板分别是技嘉 GA 870A和MSI的890 FXA GD70
    CPU两块是 240、140分别插在技嘉870和MSI 890上。
    技嘉主板上使用的是4GB的SSD固态硬盘
    MSI主板上用的金士顿4G U盘当硬盘
    技嘉主板插了两块5850,使用了600W的电源,MSI主板插了三块5850,使用了1200W的电源
    内存均为2GB,都安装了Ubuntu 11.04系统

    问题:

    使用 “aticonfig --odgc --adapter=all ”查看显卡状况,可以看出显卡核心频率可以运行在接近900Mhz:

    Adapter 0 - ATI Radeon HD 5800 Series
    Core (MHz) Memory (MHz)
    Current Clocks : 800 900
    Current Peak : 800 900
    Configurable Peak Range : [550-900] [900-1250]
    GPU load : 99%
    (一共三张显卡,信息都和上面一样。)

    我使用Phoenix连接到矿场开始挖矿,将三个显卡都运行起来之后,又将显卡核心频率设置到大约850Mhz,显存频率由1250降到900Mhz的时候,就出现了问题:三张中开始有一张显卡失去响应,且可以查看这张卡的温度由运行状态时候的60~70度下降到40~50度,我感到这张显卡开始失去响应,后来直到整个系统失去响应而必须在机箱上按按钮才能重新启动。
    为了排错,我将失去响应这块显卡换下,使用另外一台矿机上的显卡换上,开机设置并超频后运行挖矿程序,结果一样,有时候在825Mhz的情况下就会死机。为了继续排错,我将这出错矿机上的1200W的电源安装到装了两张显卡的技嘉主板上,(因为技嘉双显卡也是一样出现了这个问题),技嘉+双显卡使用600W电源的情况也总是在这个频率下会有一张显卡失去响应导致最终系统死机,我怀疑是电源问题,但是在更换了1200W的电源的情况下,仍然无法使两张显卡运行在较高的速度下,现在五张显卡都只能运行在核心800Mhz显存900Mhz的速度下。每张显卡的计算速度为大约308Mhz/s。而这离常规的大约340~350Mhz的速度还是挺有差距的


    如果提出有效建议或排错可能,经过我试验解决了问题,或任何能将显卡同时运行在350Mhz的速度下的方案,请留下你的BTC地址,我将使用BTC支付我所获得的帮助。
    44 条回复    1970-01-01 08:00:00 +08:00
    jiangchun9981
        1
    jiangchun9981  
       2011-06-25 18:31:48 +08:00
    3块卡插一张板上,总有中间的卡,或后面的卡会过热的,因为散热风扇吸入的空气是前面的卡排出的热空气,所以的分别调整各个卡的频率。 不是每块卡都能跑同样高的频率。蓝宝石 HD5850 Extreme我这跑比较稳定的频率是850M(参数V2,W128,如果w256,可以跑900M,但是产量不高)。Phoenix的参数也影响稳定还有温度的,要仔细调整。
    Livid
        2
    Livid  
    MOD
       2011-06-25 18:38:18 +08:00
    楼主没有用额外的降温手段?
    milazi
        3
    milazi  
    OP
       2011-06-25 19:07:21 +08:00
    @jiangchun9981 多谢提供思路和参数,我试试
    milazi
        4
    milazi  
    OP
       2011-06-25 19:09:47 +08:00
    @Livid 有,风扇猛吹,温度我一分钟内多次查看没有超过80的时候
    milazi
        5
    milazi  
    OP
       2011-06-25 19:46:29 +08:00
    刚才做了一个测试:将前两张显卡均设置为核心频率900,显存频率1000,这个时候单张运行每张都很稳定,速度稳定在346Mhash/s,但是双卡同时运行就会死机(与此同时,还有一张显卡处于空闲状态),然而三张若是都只运行在800Mhz,那就相安无事,问题出在哪里呢?电源不够不稳定?(但是是长城1000W的电源呢,之前说错了说成1200W了)。
    nakowa
        6
    nakowa  
       2011-06-25 20:08:33 +08:00 via iPhone
    就是电源问题。额定1000w不够……超频的瓶颈其实就是电源。email我: [email protected]
    paidai
        7
    paidai  
       2011-06-25 20:29:36 +08:00
    内存也太小了 加到4GB吧
    milazi
        8
    milazi  
    OP
       2011-06-25 20:33:27 +08:00
    @nakowa 多謝,mail on the way
    ideeinfo
        9
    ideeinfo  
       2011-06-25 20:37:33 +08:00
    5块5850 除了羡慕还能说什么呢
    nakowa
        10
    nakowa  
       2011-06-25 21:00:56 +08:00 via iPhone
    跟内存没关系……
    wr1124
        11
    wr1124  
       2011-06-25 21:01:34 +08:00
    试试新出的11.6驱动,我用的guiminer挺稳定的,楼主可以试试
    virushuo
        12
    virushuo  
       2011-06-25 21:51:31 +08:00
    因为linux没有win那样的VPU recovery的机制,所以过热就会停止响应,只能重启。可以写个脚本,问题太高就降频。

    显存降频也解决不了这个问题。
    milazi
        13
    milazi  
    OP
       2011-06-25 22:14:01 +08:00
    @virushuo 也许我应该考虑装windows
    fcicq
        14
    fcicq  
       2011-06-25 22:33:29 +08:00
    感觉和偶曾经遇到的问题有点相似. 应该是电源问题? 不过偶之前见过的是还没等跑就死了, 此时频率肯定是很低的.
    xi_lin
        15
    xi_lin  
       2011-06-26 00:57:16 +08:00
    5850的满载正常的时候应该是170W左右,你超到900的话拿200W算1000W电源应该也能压的做,我不知道你的长城电源的型号,但是你先得确认你的电源是足额的,最好能有工具测测峰值功率。
    当然一张卡停止响应这种事我感觉和电源关系不大。好像你的三卡MSI也是小板?小板接三卡感觉略暴虐啊。蓝宝这5850 PCB是拿6850改的,本身就不太适合默频超那么高,不知道你电压加多少。
    另外,Phoenix的稳定性好像也不如poclbm,你可以换着试试。
    总结来说就是我推荐你不要追求那么高频率,保证电源与散热,慢慢来。
    virushuo
        16
    virushuo  
       2011-06-26 01:09:38 +08:00
    @milazi 应该是想办法降温。我打开机箱用一个电风扇对着吹,就没出过这问题。或者写一个脚本根据温度降频也可以。windows只会让显卡更热。
    milazi
        17
    milazi  
    OP
       2011-06-26 02:04:18 +08:00
    多谢各种建议,各种分析,按一楼 @jiangchun9981 的思路,稍微提高了一下并且可以让系统稳定运行在一个中间的位置,但是也只能是两张显卡上去了,第三张仍然只能处于比较低的运行速度。问题依然存在:

    为什么在电源应该足够的情况下,其中一张显卡停止响应,进而导致系统死机,而这个过程中温度却是没有问题的。这个问题仍然没有解决。希望有高手。

    @virushuo 风扇是非常有效且廉价的散热方式,我有用。那种脚本不知道是不是这种东东? https://github.com/jsidhu/Bitcoin-Miner-Script

    @xi_lin 这个电源是巨龙1000,这个MSI板载5个显卡插槽。应该是大板?我并不十分清楚这种规格的东西,没有加电压,嘿嘿,加电压可能又是一个非常复杂的故事,我学不会了。哈
    virushuo
        18
    virushuo  
       2011-06-26 03:43:11 +08:00
    @milazi 这个好像不管温度。你觉得死机温度正常,是因为GPU已经停止工作了,等你去看的时候温度就下降到正常了…或者你可以换win试试看,应该能看到VPU recovery
    panlilu
        19
    panlilu  
       2011-06-26 09:34:48 +08:00
    各位挖矿的大神,没钱攒矿机,我就是路过一下。
    milazi
        20
    milazi  
    OP
       2011-06-26 10:05:28 +08:00
    @virushuo 换大风扇比换到win简单,上午就试试
    xi_lin
        21
    xi_lin  
       2011-06-26 10:44:38 +08:00
    @milazi 话说 http://forum.bitcoin.org/index.php?topic=11658.0 这个帖子和你好像,这样的话你换windows应该OK的
    milazi
        22
    milazi  
    OP
       2011-06-26 14:37:22 +08:00
    @xi_lin 你这个帖子对我很有用,至少我看到了那家伙他说他在win下没这问题,那么我准备换win。多谢提供这个贴。
    milazi
        23
    milazi  
    OP
       2011-06-26 22:09:24 +08:00
    风扇换了更猛的,没用,看来不是散热的问题

    换了win7,使用trixx操它,似乎只对最后一张显卡有效(期间还做了 @nakowa 在21bitcoin的post内提到的短接显卡接口欺骗windows),且超频后的速度与ubuntu下的软超效果一样,不够简洁

    虽然未能最终解决问题,但是 @jiangchun9981 的建议使我得到了一个合理的得到较高速度的i方式,请 @jiangchun9981 给出钱址。这是目前为止最有效的方案了。
    xi_lin
        24
    xi_lin  
       2011-06-26 22:14:54 +08:00
    @milazi 话说你不去试试显卡BIOS直接超么
    milazi
        25
    milazi  
    OP
       2011-06-26 22:43:47 +08:00
    @xi_lin 怎么试?刷bios吗?这个我不敢搞呢,没经验
    xi_lin
        26
    xi_lin  
       2011-06-27 01:00:01 +08:00
    @milazi 改一下显卡BIOS的默认频率然后刷显卡BIOS就行。保证不断电现在刷BIOS很简单的。。用RBE改用Atiflash或者winflash刷,DT的话刷5870都行。。不保证就是
    milazi
        27
    milazi  
    OP
       2011-06-27 08:20:09 +08:00
    @xi_lin 刷一卡一次需要几分钟?改默认频率这个不是问题,就是怕电压过低温度过高,到时候还得刷回来。
    jiangchun9981
        28
    jiangchun9981  
       2011-06-27 10:04:31 +08:00
    我的地址:18mrMLJc96h4FfMj9zR8Dmz6pjUx3QdnNq 谢谢啦!
    其实看了很多人的设置经验,基本5850不加电压大部分的体制就是单卡跑880M的频率了,见过跑1030M的,的刷BIOS加电压,多卡主要是散热问题基本不能再高了,不过有时候我也有点怀疑是AMD的驱动也有问题,尝试过4卡,基本“启动”都很难,很容易没有响应不的不RESET。
    另外:我原来用NVIDIA的CUDA搞别的项目的时候,似乎不用启动X(有驱动还有几个SO文件)就可以跑了,这个OPENCL非的起一个庞大复杂的X才能跑,怪不的天河选了CUDA放弃OPENCL了 。。。。
    xi_lin
        29
    xi_lin  
       2011-06-27 13:17:20 +08:00
    @milazi 真刷的时候也就1分钟左右。。很快
    virushuo
        30
    virushuo  
       2011-06-27 13:22:04 +08:00
    @jiangchun9981 5850能跑800M?单卡?请问是怎么做到的…我的5870只能430M…
    milazi
        31
    milazi  
    OP
       2011-06-27 13:30:24 +08:00
    @jiangchun9981 0.18698018 已发送,请笑纳
    @virushuo 5850能跑900,单卡,是Mhz,不是Mhash/s
    milazi
        32
    milazi  
    OP
       2011-06-27 13:32:59 +08:00
    @xi_lin 我还是不折腾了。
    jiangchun9981
        33
    jiangchun9981  
       2011-06-27 15:40:42 +08:00
    @milazi 已经收到!
    virushuo
        34
    virushuo  
       2011-06-27 15:41:38 +08:00
    @milazi 哦。。。原来如此。
    Mattsive
        35
    Mattsive  
       2011-07-02 12:26:59 +08:00
    @milazi 我有5块一样的卡,故障现象也完全一样,和散热和供电都没有太大关系,这个卡就是超不上去,经过多次尝试,我现在基本上都跑在830/900频率下,长时间运行没有问题。再超的话恐怕要加电压了,但这样不利于规模化farm的稳定,我就没有再试,有兴趣你可以试试。
    flyingnn
        36
    flyingnn  
       2011-07-02 13:55:43 +08:00
    5850跑到880M感觉好高啊,我的现在才跑820M,315MHASH/S.
    milazi
        37
    milazi  
    OP
       2011-07-03 16:37:53 +08:00
    @flyingnn @Mattsive 我现在两卡跑在890Mhz下,两卡跑在820Mhz下,一卡跑在840Mhz下,基本稳定运行,风扇一直吹,我归纳总结出来,要是散热再有效一些,电压再加一些,应该可以都运行在890Mhz下。不过,现在计算能力/block 的比已经太离谱了,没兴趣折腾了。
    jiangchun9981
        38
    jiangchun9981  
       2011-07-03 17:22:12 +08:00
    按现在的计算难度,每天(24小时开)一块5850也大概才0.18个BTC,还有现在的大概$15.5的汇率,电费都差点不够啊。
    ddv
        39
    ddv  
       2011-07-06 20:20:06 +08:00
    我的两块主板和LZ一样,显卡一样,一样的问题,今天试验了一下,应该是CPU的问题,或者说是OPENCL的BUG:一块卡的时候cpu几乎为零,多块卡CPU暴涨,只要有一个核过了100%,就会出问题。用新版的poclbm/guiminer 设置CPU Affinity,设定只用一个核,或每进程分别占用一个核都会让单个核过100%,几分钟后就有显卡停止响应。
    解决办法。。。弄个四核以上的U,我用x4 630,启动miner的时候还要小心,一个进程一个进程的启动,中间等几秒,防止单个核跑满。三块卡总CPU占用80%左右。

    显卡工作在900Mhz/300Mhz, 75%转速下,另外感觉微星这板也不太得力,似乎供电简陋了点,不如giga的。giga的我用peie x1转x16的线,似乎还更稳定些。
    jiangchun9981
        40
    jiangchun9981  
       2011-07-06 20:31:29 +08:00
    @ddv 你的驱动是2.2或2.3的吧。这个驱动就是有CPU占用过高的BUG,一般推荐使用2.1或2.4的驱动。我观察了我的CPU,占用并不高的(3卡10%左右)。
    milazi
        41
    milazi  
    OP
       2011-07-08 08:29:44 +08:00
    @ddv 这个原因的分析比较靠谱,因为我无论做什么排除法去排错都是在ssh下进行的,这个时候,最被忽略的就是cpu的占用了。5系显卡的驱动用2.1是验证最好的了
    watchzerg
        42
    watchzerg  
       2011-07-08 13:03:44 +08:00
    我的也是蓝宝hd5850 xtreme,不过暂时只弄了单卡,用的2.4的sdk和11.5的驱动。核心频率875,显存频率300,温度71度,挖矿速度350Mhash/s。 (不加电压的话核心是可以超到900的,但是挖4-5小时后会出问题)
    jiangchun9981
        43
    jiangchun9981  
       2011-09-13 11:17:56 +08:00
    现在发现显卡除了从外接电源口取电外,还会从主板的PCIE接口取电!大概每块卡会取电70W!所以3块卡要从主板取电200W了!跑了2个月我检查我的主板+12V接口已经烧焦! 有的主板虽然有多条PCI-E槽,但不意味着能上那么多的卡,主要是支持不了那么大的供电电流的!
    milazi
        44
    milazi  
    OP
       2011-09-13 21:47:31 +08:00
    @jiangchun9981 你怎么发现的?我这个好像还是全新的一样
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2767 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 12:43 · PVG 20:43 · LAX 04:43 · JFK 07:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.