数码之家

 找回密码
 立即注册
搜索
查看: 812|回复: 2

硬盘检测工具Smartmontools安装、部署、使用

[复制链接]
发表于 2022-8-10 12:54:02 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册

x

在服务器管理的实际环境中,硬盘是最容易出现问题及发生故障的硬件,而且硬盘中存储着大量重要的数据,万一出现故障所造成的损失也是无法估计的,轻则需要化费大量的时间与精力去做数据恢复,重则硬盘报废,里面重要的数据也无法100%挽回,所以对硬盘健康状监控十分必要。

一:什么是Smartmontools?

Smartmontools是一种硬盘检测工具,通过控制和管理硬盘的SMART(Self Monitoring Analysis and Reporting Technology,自动检测分析及报告技术)技术来实现的,SMART技术可以对硬盘的磁头单元、盘片电机驱动系统、硬盘内部电路以及盘片表面介质材料等进行监测,当SMART监测并分析出硬盘可能出现问题时会及时向用户报警以避免计算机数据受损失。

SMART技术必须在主板支持的前提下才能发生作用,而且 SMART技术也不能保证能预报所有可能发生的硬盘故障。SMART(SFF-8035i) 是硬盘生产商们建立的一个工业标准,这个标准就是在硬盘上保存一个跟执行情况,可靠程度,读找错误率等属性的表格。所有属性都有一个1byte(大小范围1-253)的标准化值,还包含另一个1byte的关键阶段值,如果属性表格内某个数据接近小于或达到关键阶段值,表明硬盘工作不正常了。


二:安装部署


2.1:下载最新源码包安装


下载

wget http://down1.chinaunix.net/distfiles/smartmontools-6.0.tar.gz


解压

tar -xvf smartmontools-6.0.tar.gz


编译

cd smartmontools-6.0

./configure


安装

make && make install


2.2:使用yum安装部署

yum install smartmontools -y


三:

smartd是smartmontools软件包中的一个实用程序,可以单独运行,也可以注册为系统服务,

Windows上的注册命令为:>smartd install注册后,打开services.msc,可看到一个名叫“SmartD Service”服务,并设置为“自动”启动。

在linux 系统平台上可通过向/etc/init.d添加smartd脚本,其实在安装smartmontools软件包的时候通常会安装到这个位置,只需要在对应的启动级别下做一个软链接就可以了。

smartd的配置文件为smartd.conf(Windows和非Windows平台都叫这个名字,Windows平台与smartd.exe在同 一个目录下,非Windows平台位于/etc目录下),在这个配置文件中已经内置许多种监视方法和参数说明,值得一体的是-m参数,可以利用它将监视报 告以邮件的形式发送给指定的E-mail地址,这样设备管理员就可以坐在电脑前就可以掌控所有硬盘设备的健康状况了,利用smartd进行自动监控。


3.1:启动监控进程


cp -rp /usr/local/etc/rc.d/init.d/smartd /etc/init.d/

[root@cn-ptmind smartmontools-6.0]# /etc/init.d/smartd start

正在启动 smartd:[确定]

3.2:注册服务、添加开机启动

chkconfig --add smartd

chkconfig smartd on


四:使用方法简介

1、smartctl -a检查该设备是否已经打开SMART技术。

2、smartctl -s on如果没有打开SMART技术,使用该命令打开SMART技术。

3、smartctl -t short后台检测硬盘,消耗时间短;

smartctl -t long后台检测硬盘,消耗时间长;

smartctl -C -t short前台检测硬盘,消耗时间短;

smartctl -C -t long前台检测硬盘,消耗时间长。其实就是利用硬盘SMART的自检程序。

4、smartctl -X中断后台检测硬盘。

5、smartctl -l selftest显示硬盘检测日志。

6、smartctl -l error显示硬盘错误汇总。


五:检测方法案例介绍;


5.1:检查硬盘是否支持SMART

1993年以后出厂的硬盘基本上都支持SMART技术,使用如下命令可以来查看

[root@cn-ptmind smartmontools-6.0]# smartctl -i /dev/sda

sda   sda1  sda2  sda3  sda4  sda5  

[root@cn-ptmind smartmontools-6.0]# smartctl -i /dev/sda5

smartctl 6.0 2012-10-10 r3643 [x86_64-linux-2.6.32-220.el6.x86_64] (local build)

Copyright (C) 2002-12, Bruce Allen, Christian Franke, www.smartmontools.org


=== START OF INFORMATION SECTION ===

Model Family:     Western Digital RE4 Serial ATA

Device Model:     WDC WD5003ABYX-01WERA1

Serial Number:    WD-WMAYP2734314

LU WWN Device Id: 5 0014ee 0030d7592

Firmware Version: 01.01S02

User Capacity:    500,107,862,016 bytes [500 GB]

Sector Size:      512 bytes logical/physical

Rotation Rate:    7200 rpm

Device is:        In smartctl database [for details use: -P show]

ATA Version is:   ATA8-ACS (minor revision not indicated)

SATA Version is:  SATA 3.0, 3.0 Gb/s (current: 3.0 Gb/s)

Local Time is:    Wed Aug 14 18:14:23 2013 CST

SMART support is: Available - device has SMART capability.

SMART support is: Enabled

从返回的信息中,可以看到硬盘的生产厂家,型号,序列号,容量,是否支持SMART,目前SMART开启没有。

如果运行这个命令返回了类似“Device does not support SMART”的信息就说明目标硬盘不支持SMART,不能使用这套软件包进行测试和监控。

在上面的信息可以看到,该硬盘是支持SMART技术,且当前是开启的。如果SMART support is: Disabled表示SMART未启用,执行如下命令,启动SMART


smartctl --smart=on --offlineauto=on --saveauto=on /dev/sda5 或者 smartctl -s on -d ata /dev/sda5


这里的参数-s就是用来开关SMART特性的,如果加上参数值on就表示开启,如果参数值是off就表示关闭。


5.2:检查硬盘健康状态

[root@cn-ptmind smartmontools-6.0]# smartctl -H /dev/sda5

smartctl 6.0 2012-10-10 r3643 [x86_64-linux-2.6.32-220.el6.x86_64] (local build)

Copyright (C) 2002-12, Bruce Allen, Christian Franke, www.smartmontools.org


=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED

请注意result后边的结果:PASSED,这表示硬盘健康状态良好,如果这里显示Failure,那么最好立刻给服务器更换硬盘。

SMART只能报告磁盘已经不再健康,但是报警后还能继续运行多久是不确定的,通常,SMART报警参数是有预留的,磁盘报警后,不会当场坏掉,一般能坚持一段时间,有的硬盘SMART报警后还继续跑了好几年,有的硬盘SMART报错后几天就坏了,千万不要存在侥幸心理。

执行如下命令可以看到详细的参数:


# smartctl -A /dev/hdb


-a 显示设备所有的SMART信息。


-l error 列出硬盘错误日志。如果显示没有错误最好,如果显示了大量的错误信息,那就该着手准备替换硬盘了。


-l selftest 列出自行测试结果

[root@cn-ptmind smartmontools-6.0]# smartctl -A /dev/sda5

smartctl 6.0 2012-10-10 r3643 [x86_64-linux-2.6.32-220.el6.x86_64] (local build)

Copyright (C) 2002-12, Bruce Allen, Christian Franke, www.smartmontools.org


=== START OF READ SMART DATA SECTION ===

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0

3 Spin_Up_Time            0x0027   142   141   021    Pre-fail  Always       -       3900

4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       77

5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0

7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0

9 Power_On_Hours          0x0032   086   086   000    Old_age   Always       -       10783

10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0

11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0

12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       75

192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       70

193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       6

194 Temperature_Celsius     0x0022   109   107   000    Old_age   Always       -       34

196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0

197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0

198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0

199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0

200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

FLAG是标记,标准数值(VALUE)应当小于或等於关键值(THRESH)。WHEN_FAILED 代表错误信息,上面显示的WHEN_FAILED纵行是空行,说明硬盘没有故障。如果WHEN_FAILED显示数字,表明硬盘磁道可能有比较大的坏道。

5.3:对硬盘进行检测 手工对硬盘进行测试的方法有以下四种:

smartctl -t short     后台检测硬盘,消耗时间短

smartctl -t long       后台检测硬盘,消耗时间长

smartctl -C -t short  前台检测硬盘,消耗时间短

smartctl -C -t long   前台检测硬盘,消耗时间长


例如,在后台对硬盘进行详细的检查,命令如下:

smartctl -t long /dev/hdb

同时可以使用 smartctl -X 终止检查。终止硬盘检查命令的使用方法是:

smartctl -X /dev/hdb

查看硬盘错误日志:

#smartctl -l error /dev/hdb

以下是希捷的机械盘

/opt/smartmontools-6.0/sbin/smartctl --info --device=megaraid,1 /dev/sda


健康查询 :

DELL SAS 机械盘 :

/opt/smartmontools-6.0/sbin/smartctl -H -d megaraid,1 /dev/sda

smartctl 6.0 2012-10-10 r3643 [x86_64-linux-2.6.18-274.el5] (local build)

Copyright (C) 2002-12, Bruce Allen, Christian Franke, www.smartmontools.org


SMART Health Status: OK

DELL SATA SSD硬盘 :

/opt/smartmontools-6.0/sbin/smartctl -H -d sat+megaraid,2 /dev/sdb

smartctl 6.0 2012-10-10 r3643 [x86_64-linux-2.6.18-274.el5] (local build)

Copyright (C) 2002-12, Bruce Allen, Christian Franke, www.smartmontools.org


发表于 2022-8-10 13:43:14 | 显示全部楼层
现在已经是7.3的版本了
回复 支持 反对

使用道具 举报

发表于 2023-3-26 16:00:51 | 显示全部楼层
学习了,谢谢分享。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2024-3-28 21:16 , Processed in 0.218401 second(s), 12 queries , Redis On.

Powered by Discuz!

© 2006-2023 smzj.net

快速回复 返回顶部 返回列表