数码之家

 找回密码
 立即注册
搜索
查看: 7122|回复: 52

[SandForce] 求各位大哥救救孩子的3.84T希捷NYTRO企业固态硬盘吧,掉盘了 最终还是坏了

[复制链接]
发表于 2021-8-11 12:03:35 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 hhdjz13813 于 2021-8-22 15:50 编辑

2258H没白买,最终这个盘还是挂掉了在我以为修好了之后隔了一天又掉盘了,这次掉得很彻底,硬盘上的故障灯一直常亮着。
直接上2258H做了两个2T的盘,鄙人在此发誓,这辈子再也不会碰任何希捷家的产品!!!
QQ图片20210822154857.jpg
//========================
世界上最扯淡的事莫过于,当你认为这块硬盘彻底没救了的时候,买了两块2258H,准备做成两个2T的硬盘,结果,这个盘又被莫名其妙地修好了。。。。。。。
浪费劳资的money买了俩D9STP还有两套2258H还有一个BGA132植锡网。。。。


维修过程:主板切换回AHCI模式,挂上去,能认到盘后用SeaTools SSD的Erase功能,直接擦除,擦除通过,重新初始化磁盘
不知道怎么回事,用易驱线和RAID模式去挂这块盘,擦除会失败,AHCI模式能擦除成功


现在的心情真的是五味杂陈,就跟去厕所吃了一坨屎一样的难受,推测原因应该是老固件有问题,未知原因导致FTL映射表直接挂掉了,只能在AHCI模式用SeaTools SSD进行擦除初始化才行
捕获.PNG
//=========================================================================
最终还是找到了可能导致问题的原因,钽电容有一颗有轻微裂缝,这个绝对不是吹坏的,我就没吹过这一块区域
型号:松35TQS47MAEU  35V 47uF钽聚合物电容,立创商城买了10颗新的,等到货后全给它换掉
IMG_20210818_084922.jpg


这个盘修好了之后发现一个很扯淡的事,我这个盘存的都是不可压缩的图像数据,写入速度倒是正常,读取速度只有150-200M/s,网上查了下,SandForce的通病,所谓的写入压缩技术导致的,真的是服了,下次不碰SF的主控了


出这次事,总计浪费了我四五百大洋,买了俩D9STP,两套2G缓存的2258H,植锡网,全成闲置品了,还多买了个8T氦气盘当主硬盘存数据,机械盘慢点就慢点吧,总比掉盘好,这个盘彻底修好后挂载NUC二奶机上用得了
//=========================================================================


前段时间小黄鱼淘了一块希捷Nytro1351 3.84T,买回来的时候一切正常,啥毛病都没有,用了一个月,掉盘了.....

问题简要描述:可识别到这块盘,可读SMART(会卡一下),无法读写数据区


使用环境如下:
         挂载在B350主板RAID模式下,另外3个盘组RAID0,这个盘就直接读,没有和其他盘RAID
         使用环境温度一切正常,硬盘通风良好,使用过程中不定时监测硬盘温度最高不超过40度
         海韵80Plus金牌电源,供电稳定得一批
         优质SATA线,没有端口CRC错误现象
         GPT分区表,3.84T空间直接一个区,用磁盘精灵进行4K对齐,簇大小1K(这个确实不合理但是小文件太多了)
         这个硬盘平时用于存谷歌地图瓦片,每个文件平均大小在1-16K左右,一个盘里有大概四五亿个文件左右,所以使用场景属于高IO模式,基本上很少连续读写


事故经历:
         昨天在从这个盘里面提取数据的时候突然卡死,无法读写,等了一个小时应用程序还是卡着一动不动,强行关机重启
         重启后RAID控制台里面能识别到一个3.84T的盘,但是不可用,挂载到另一个NUC上ACPI模式根本就认不出这个盘
         用著名的30分钟大法(实际怕它处理时间不够给了12小时)处理后还是一样
         用易驱线连接后整个盘可以认,可以读SMART但是有点卡,但是无法对数据区做任何读写操作,磁盘管理格式化、用SeaTools安全擦除均提示IO错误
         考虑到原版SF4400ZU固件太老,升级了最新固件到SF44214B,一样的表现,可以卡卡地读SMART不能对数据区操作

其他现象:
        每次读SMART,0x67(全周期PS3出口计数)值都会增加,其他值不变
        从掉盘到现在,0xBB(无法修正ECC计数)0xC3(提高ECC修正计数)均有增加,然后不动了


咨询希捷:
        昨天发邮件给希捷,描述了问题情况,这是希捷的答复内容:根据您描述的具体情况,硬盘目前属于硬件故障,并不是能够通过升级固件和软件修复解决的问题。由于希捷目前没有提供维修硬盘硬件的服务,建议您咨询第三方维修。

自己尝试维修:
        根据希捷的描述,属于硬盘故障,于是乎开盘检查所有供电,闪存颗粒的1.8V和2.8V均正常,DDR供电1.35V正常,主控核心供电正常,备用储能电路25.8V正常
        怀疑主控虚焊,加焊油加焊一遍,确认焊接到位,插上易驱线和直连主板,问题依旧
        怀疑是FTL丢失,给了它足够的时间自己处理,没有用,问题依旧
        怀疑某颗闪存坏了,随便拆下来一颗硬盘无法初始化,PCB上红灯闪烁,据此推断闪存没坏,不然硬盘根本就没法初始化成功
        确认不是虚焊导致的,所有芯片涂满焊油送回流焊炉子里面重焊了一次,确认焊接都OK


请问各位大哥,这种情况应该怎么折腾?这种故障可能是由什么原因导致的?(我怀疑是固件的锅,高IO状态下直接死掉了,但是升级固件时故障已经造成,新固件可能不能很好处理这个问题)
由于是二手盘自己拆过,无保,所以只能要么自己修好要么拆了做U盘,另外问一句,这个颗粒上什么主控比较合适?有没有能把这16颗颗粒全部开出来的套料板子卖?


附加图片:
IMG_20210811_113411.jpg
外壳

IMG_20210811_113440.jpg
主板正面

IMG_20210811_113456.jpg
主板反面

捕获.PNG
读出来的SMART

无标题.png
尝试对磁盘进行初始化



        最后一句,珍爱生命,远离漏电王海力士,远离冷数据王西部数据,远离掉盘王希捷

初步诊断结果:
      1.已涂焊油送回流焊炉重新加焊,排除虚焊问题
      2.尝试拆下来一颗闪存,硬盘直接无法初始化,PCB上红灯闪烁,据此推断不是闪存坏了
      3.检查所有供电均正常,排除电源问题


      根据排除法判断,运存挂了一个,基本同意《拿糖糖换媳妇》老哥的看法,已经买了2颗镁光D9STP,下周一挨个拆换试一下,还不行的话拆了坛子里卖颗粒,17PE准新的3D eTLC,好用价不贵



打赏

参与人数 1家元 +40 收起 理由
家睦 + 40 認真發帖

查看全部打赏

 楼主| 发表于 2021-8-17 15:55:48 | 显示全部楼层
本帖最后由 hhdjz13813 于 2021-8-17 17:16 编辑
拿糖糖换媳妇 发表于 2021-8-11 13:07
把运存换了试试,可能运存有问题,运存问题导致的数据出错不会记录成坏块 ...

IMG_20210817_155231.jpg
事实证明,不是运存坏了。。。故障还是一样的,能读SMART,不能对数据区读写
不知道这个盘有没有什么初始化工具,能清掉FTL彻底初始化磁盘也好


2258解千愁
QQ图片20210817171547.png
回复 支持 反对

使用道具 举报

发表于 2021-8-11 12:25:52 | 显示全部楼层
固件区有坏块了吧,这么大的盘想找套件估计困难吧
回复 支持 反对

使用道具 举报

发表于 2021-8-11 12:37:20 | 显示全部楼层
貌似16贴的SATA板子只能2T  以前看到过16贴的2262EN的U2板子不知道能不能贴4T
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-11 12:40:56 | 显示全部楼层
ddd111222 发表于 2021-8-11 12:37
貌似16贴的SATA板子只能2T  以前看到过16贴的2262EN的U2板子不知道能不能贴4T

额。。。我其实想先试试看能不能抢救一下这块盘,毕竟还能读SMART数据,甚至SMART里反馈的空闲空间值都是正常的。。。
回复 支持 反对

使用道具 举报

发表于 2021-8-11 12:42:02 | 显示全部楼层
机械盘好说,但这个是固态盘,就不好办了,为啥做raid0呢?想要保险一点就用raid5,三块硬盘足矣,容量没有raid0多,但是一旦有一块硬盘挂了,可以算出来坏的硬盘数据。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-11 12:43:17 | 显示全部楼层
kevin-austin 发表于 2021-8-11 12:42
机械盘好说,但这个是固态盘,就不好办了,为啥做raid0呢?想要保险一点就用raid5,三块硬盘足矣,容量没有 ...

不是这个盘做RAID0,是另外3个盘做RAID0这个盘什么RAID都没做,只是通过RAID模式直接读而已。 数据倒是没丢,我这每周都会用机械盘对固态盘的数据做一次备份,主要是这个盘不知道怎么回事抽风了
回复 支持 反对

使用道具 举报

发表于 2021-8-11 12:59:33 | 显示全部楼层
这个盘涨ECC咯,BB项都有930个了。找套料做从良盘比较合适:lol:
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2021-8-11 13:01:03 | 显示全部楼层
cheapjr 发表于 2021-8-11 12:59
这个盘涨ECC咯,BB项都有930个了。找套料做从良盘比较合适

希捷企业盘质量这么差的嘛,才17个PE就涨ECC,我感觉这个涨ECC可能不是数据错了,有可能是后面几次强行断电导致的
回复 支持 反对

使用道具 举报

发表于 2021-8-11 13:04:40 | 显示全部楼层
本帖最后由 海思麒麟 于 2021-8-11 13:08 编辑
hhdjz13813 发表于 2021-8-11 13:01
希捷企业盘质量这么差的嘛,才17个PE就涨ECC,我感觉这个涨ECC可能不是数据错了,有可能是后面几次强行断 ...

东芝的颗粒,涨ecc正常

然后,你正文最后一句有点意思

回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-11 13:06:50 | 显示全部楼层
海思麒麟 发表于 2021-8-11 13:04
东芝的颗粒,涨ecc正常

然后,你正文最后一句有点意思

因为那天晚上信了希捷的鬼话,以为企业级的盘就不会翻船,这辈子都对希捷无爱了,之前一块2T酷鱼也是2年主轴电机异响,后来用HGST的硬盘甚至盘片转动的震动都感觉不到。
回复 支持 反对

使用道具 举报

发表于 2021-8-11 13:07:32 | 显示全部楼层
把运存换了试试,可能运存有问题,运存问题导致的数据出错不会记录成坏块
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-11 13:09:04 | 显示全部楼层
拿糖糖换媳妇 发表于 2021-8-11 13:07
把运存换了试试,可能运存有问题,运存问题导致的数据出错不会记录成坏块 ...

出问题之前不涨ECC的,什么数据都很OK,读数据把运存读坏了的概率也太低了吧。。。
回复 支持 反对

使用道具 举报

发表于 2021-8-11 13:09:54 | 显示全部楼层
如果不要数据的话,可以考虑用磁盘精灵执行下TRIM试试?
不过执行中途千万别断电
回复 支持 反对

使用道具 举报

发表于 2021-8-11 13:13:43 | 显示全部楼层
本帖最后由 拿糖糖换媳妇 于 2021-8-11 13:18 编辑
hhdjz13813 发表于 2021-8-11 13:09
出问题之前不涨ECC的,什么数据都很OK,读数据把运存读坏了的概率也太低了吧。。。 ...

可以试试,没有什么不可能,ecc只是执行纠错的计数,说明进行了纠错,至于是什么原因出现的错误不一定,不同主控对运存的使用及存储的内容也是不同的,所以这个现限换运存试试,没合适的可以试试调换4颗运存的位置看故障现象有无变化,但这种调换只能猜测,因为不知道这个主控对运存的使用策略是什么
回复 支持 反对

使用道具 举报

发表于 2021-8-11 13:16:08 | 显示全部楼层
hhdjz13813 发表于 2021-8-11 13:01
希捷企业盘质量这么差的嘛,才17个PE就涨ECC,我感觉这个涨ECC可能不是数据错了,有可能是后面几次强行断 ...

从你的描述看,像是出现了坏块,然后不断涨ECC,如果你不强断电,BB项可能更高。我有一马牌的盘,把颗粒拆了还能看见容量和S.M.A.R.T.数据;就很神奇。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-11 13:25:34 | 显示全部楼层
拿糖糖换媳妇 发表于 2021-8-11 13:13
可以试试,没有什么不可能,ecc只是执行纠错的计数,说明进行了纠错,至于是什么原因出现的错误不一定,不 ...

刚才加焊了一遍运存,故障依旧
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-11 13:27:11 | 显示全部楼层
cheapjr 发表于 2021-8-11 13:16
从你的描述看,像是出现了坏块,然后不断涨ECC,如果你不强断电,BB项可能更高。我有一马牌的盘,把颗粒 ...

有可能,之前读写的时候偶尔也有小卡顿,但是没在意,现在看来估摸着确实有坏块,后来大量进行读操作的时候坏块爆掉了。 但是出现坏块就掉盘也太神奇了,不得不佩服SandForce的处理策略,活该倒闭卖身3次。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-11 13:30:24 | 显示全部楼层
海思麒麟 发表于 2021-8-11 13:09
如果不要数据的话,可以考虑用磁盘精灵执行下TRIM试试?
不过执行中途千万别断电 ...

无效,现在这个盘是没法读也没法写,就像没有量产的状态一样,任务管理器里面看读写速度都是0KB/秒
回复 支持 反对

使用道具 举报

发表于 2021-8-11 13:43:13 | 显示全部楼层
西数只要不买绿盘就没啥大问题,毕竟从闪迪转过来的。
用过很多块西数了没问题。
回复 支持 反对

使用道具 举报

发表于 2021-8-11 13:43:54 来自手机浏览器 | 显示全部楼层
那么多小姐姐惨死在狱中了:cry:
回复 支持 0 反对 1

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2024-5-29 19:34 , Processed in 0.265200 second(s), 17 queries , Redis On.

Powered by Discuz!

© 2006-2023 smzj.net

快速回复 返回顶部 返回列表