回覆  williamlaw


兩類紅色的sector count有料
實際raw value無寫, VALUE column係normalized 100% ...
pbodq 發表於 2024-11-10 12:33 AM

請問DSM7 要去到邊個階段先會報 fault ?

例如硬碟完全 detect唔到先報 ?

via HKEPC IR 5.1.14 - iOS(5.1.1F)

TOP

本帖最後由 pbodq 於 2024-11-11 15:17 編輯

回覆 11# williamlaw


1.pre-fail類型的attribute過threshold%佢會報fail
attributes分三column類, prefail (預告壞碟), aging(老化, 效能降), 跟前兩者無關(例如C7)
只有prefail類才會有廠方定義的%threshold

2.harddisk firmware非受HBA管控的簡測/長測fail,佢亦會報fail, 因為SMART有entries log fail

打一次smartctl就清楚晒, 事實上Scrunity對smartctl的調用及json解譯有時唔暢通, 我d碟在7.2.2佢係完全access唔到, 最後都係手動smartctl, 感覺佢只係介面靚及有通訊功能優點, 在可信準確度及可靠度來說, 感覺麻麻

--------
detect唔到, 就直頭報唔到

-------
紅色的兩項, 如果你無像我那樣的data correction的pools, 那些超時的sectors上的數據其實已經錯亂了, 即使日後它們重寫變為健康, 但在當下這刻, 是讀不出正確的data
但唔知你堆pools乜狀況, 有無開校檢推算等等 >> 同一個pool1, RAID5/6? RAID10? ?????????係的話就check一次

DSM7 > 硬碟self mode簡測 >> 如果fail, 就換碟
如果不是fail >> 行一次scrubbling修正數據 (假設是RAID), 如果結果無容錯功能, 你都係換碟rebuild。若能修正,可繼續用。

TOP

回覆  williamlaw


1.pre-fail類型的attribute過threshold%佢會報fail
attributes分三column類, prefail  ...
pbodq 發表於 2024-11-11 02:55 PM


"硬碟self mode簡測" 即 "SMART 快速檢測" ?

SMART 快速檢測 結果仲係"良好"

聽你地咁講, 真係要deploy番個 Scrntiny 去 monitor 住HDD 先得, DSM既 SMART 靠唔過

[attach]2451340[/attach]

002.jpg (60.54 KB)

002.jpg

TOP

"硬碟self mode簡測" 即 "SMART 快速檢測" ? >> yes

SMART 快速檢測 結果仲係"良好" >> 咁就行一次array data scrubbing, 大概3天左右, 已經包晒host mode full media read。正常當DSM detect到有silent corruption時, 會立即overwrite 修正, 並且發出emails/notifications。再看看統計表, 如果修正了, 基本可以繼續用。

pending(存疑) sectors的行為定義在大多數廠商firmware:

當該sector實體數據hash值不等同該sector ECC的checksum時, 代表數據已變質, 可能磁頭問題多或多數是顆粒感應問題, 這時會多花幾秒嘗試修正(撞/估), 如果不成功, 會在SMART記下一次該LBA的pending及uncorrectable (修正失敗)的count。這是harddisk firmware的處理行為

然後向DSM回報該sector出錯, 如果你是行array, DSM會從其他member disks推算出該sectors的正確值, 然後馬上overwrite一次, throw出"發現並修正"該LBA的notification / email (DSM7未改版之前), 這一步是OS層面的處理方法。這時候SMART唔會因為DSM overwrite左而減少SMART pending/uncorrectable 的counts, 因為即使重寫了, 亦唔代表能真係正確讀回, 只能算是努力嘗試

直至到該sector重新被讀取成功(合乎ECC checksum), firmware才會減少pending counts, 把這個LBA從watching list移除。

假若不好彩, 再次讀取該sector時, 仍然出錯checksum, 這就有趣了, firmware有兩種不同的處理情況
1.假若該sector是之前重寫過而又重讀失敗, 能滿足這個cycle達n次頻率, 就會把LBA撥到SMART的05健康sector。至於n值是多少? 不同廠不同grade的定義不同, 例如我圖中隻WD企業, 大概3次就會撥, 但home級如紫碟紅碟, 差不多要等足10次

2.假若數據無被重寫, 只是單純不停地重讀出同一個corrupted sector, 係唔會觸發firmware撥備, pending count亦唔會改變


如果你唔熟呢d野, 判斷唔到情況, 換碟當係最簡單, 6TB好鬼平, 不過最煩的反而係backup。
因為換碟時, 你又要確保其他array member disks無corruption。你最好都係先全面評估一下, 做一次array校驗再算

TOP

如果你唔熟呢d野, 判斷唔到情況, 換碟當係最簡單, 6TB好鬼平, 不過最煩的反而係backup。
因為換碟時, 你 ...
pbodq 發表於 2024-11-11 08:00 PM

請問「Array校檢」需要點做?

via HKEPC IR 5.1.14 - iOS(5.1.1F)

TOP

回覆 15# williamlaw


.............

d2.png

TOP

回覆  williamlaw


.............
pbodq 發表於 2024-11-11 08:37 PM

感謝

其實有需要定期run一次嗎 ?

via HKEPC IR 5.1.14 - iOS(5.1.1F)

TOP

本帖最後由 pbodq 於 2024-11-12 03:18 編輯

回覆 17# williamlaw


我就唔set schedule, 覺得有需要才manual run

1.full read所有碟, 太費時間, 而且utilization高, 其他I/O dependent的software會變得好慢, 甚致因太慢而halt

2.抽碟需要事前全面評估, 避免抽碟後, 有其他member disks同時出error, 所以最好掃一次silent corruption ; 平時齊碟, 當我讀到某個file的corruption, 係會被發現並自動修正重寫, 而我又覺得d碟仍然健壯, 我就唔會主動去掃corruption出來。呢樣野憑經驗, 你鍾意的話, 可以set schedule。好似body check咁樣, 有d人自問好健康, 好有信心, 係唔做body check, 除非有大徵兆。

***忘了說最重要的一個前題:假設你有enable self-healing
sss.png

而做一次full backup, 都係經過了一次full read scrubbing checksum, 但係你要搵18TB 空間儲起佢就睇下你想唔想賭呢個成本。

(單純兩三個pending sectors其實好濕碎自然的現象。 除非壞磁頭及servomotor, 由兩三個變幾百個, 咁就大鑊野。而壞磁頭及servomotor就唔止單純出05c5了, 連帶01, 07,200,205都會同時暴增。相對來說, 這四項的強性關聯會比05c5對於判別硬碟的健康及可靠度更具指標功能)

------

我其中一個post話兩項橙色無show raw data, 意思係叫你最好爆開個table detail, 了解一下, 因為佢表達好唔完整, 我見Google係有raw value screenshot。
假設04 (Start/Stop) 27% current value壽命, 20%警戒線, 咁你就真係好大鑊, 但呢樣通常係count馬達的起動次數, 通常單位係直觀十進制, WD係唔會define threshold%, 我就唔知Seagate點計。raw value太密即代表電源線鬆/金手指氧化/接觸不良/電壓不穩/紋波電流扞擾, 不停斷合。

我圖中有bs果隻WD, 行了7年,都只係斷合過80次咁大把 , 基本上就係開關機,sleep計一次, 全年幾乎無休。所以我極有信心自己3個bad sectors係非常自然合理健康無憂的現象, 唔使換碟 >> 換唔換碟不能只看05c5, 要綜合其他attributes去看, 有不同的結論。當然, 你可以有殺錯無放過, 盲換碟, 但假若真係供電出事, 隻新disk/其他member disks輪著好快又出事

至於你個case, 都係對比一下其他碟這項的raw value再算la, 最好搞清楚個full picture

TOP

回覆  williamlaw


我就唔set schedule, 覺得有需要才manual run

1.full read所有碟, 太費時間, 而且uti ...
pbodq 發表於 2024-11-12 03:04 AM


1)        run 完 data scrubbing, 原來 ID 197-198 變左pass (60-70% 變 3%), 但 ID 187 又變左 failed.
       
        - 其實代表要換硬嗎 ?
        - 另外Scrutiny入面最主要睇邊幾個值去決定HDD狀態 ?

001.jpg
002.jpg
003.jpg

2)        對比另外3隻碟, ID 3-4 數值都差不多
SATA1
sata01.jpg

SATA2
sata02.jpg

SATA3
sata04.jpg

TOP

1)        run 完 data scrubbing, 原來 ID 197-198 變左pass (60-70% 變 3%), 但 ID 187 又變左 failed.
       
        -  ...
williamlaw 發表於 2024-11-12 02:15 PM



- 其實代表要換硬嗎 ? >>
我就唔換著, 果幾個壞死的sectors已經被scrubbing rewrite返正確data上去並且能正確讀回後清零SMART, 如果由pending remap撥去ID 05 reallocation就更加安心, 永安唔會再touch到。

當然, 如果你要換就更安心, 其他3隻碟無bad sectors, 你就唔使驚rebuild 時lose data

但我始終搞唔清楚佢ID 04條數點走出來: 27,20,11%, 就咁表面比較數值, 我當佢fault alert, 唔似之前猜測關於通電接觸不良的問題, 只是單純碟片sectors的自然老化, 跟DSM7認為隻碟屬於健康狀態這個結論一致。

- 另外Scrutiny入面最主要睇邊幾個值去決定HDD狀態 ? >>
無認真用過Scrutiny, 答你唔到, 除左每個軟件都用的mechansim1 (這個由每間廠方提供, 絕對可靠) ; d人話佢仲識搵大數據的database做關係性比率的比對, 唔知係咪fail rate column的意思

https://github.com/AnalogJ/scrut ... ecomment-1125654536

TOP