Exadata Storage Server üzerindeki arızalı hard diskin değiştirilmesi
Exadata cellnode’lar üzerindeki hard disk değişimini, aşağıda belirtilen kontrolleri ve adımları uygulayarak yapabilirsiniz. Cellnode üzerindeki diskler, arıza anında otomatik olarak drop edilip , üzerindeki asm disk gruplarına ait diskler de silinecektir. Drop işlemi sonrasında ve disk değiştikten sonra otomatik olarak ASM disk gruplarında rebalance işlemi başlayacaktır.
Arızalı diski tespit edin :
CellCLI> LIST PHYSICALDISK WHERE diskType=HardDisk AND status LIKE ".*failure.*" DETAIL name: 20:11 deviceId: 8 diskType: HardDisk enclosureDeviceId: 20 errMediaCount: 980 errOtherCount: 0 foreignState: false luns: 0_11 makeModel: "SEAGATE ST360057SSUN600G" physicalFirmware: 0A25 physicalInsertTime: 2011-11-29T13:40:05+02:00 physicalInterface: sas physicalSerial: E1EY5Z physicalSize: 558.9109999993816G slotNumber: 11 status: predictive failure
Aynı zamanda arızalı diski , alert history çıktısından da tespit edebilirsiniz.
CellCLI> list alerthistory 1_1 2017-09-09T15:41:00+03:00 critical "Hard disk status changed to predictive failure. Status : PREDICTIVE FAILURE Manufacturer : SEAGATE Model Number : ST360057SSUN600G Size : 600GB Serial Number : E1EY5Z Firmware : 0A25 Slot Number : 11 Cell Disk : CD_11_orclcel08 Grid Disk : RECO_ORCL_CD_11_orclcel08, DBFS_DG_CD_11_orclcel08, DATA_ORCL_CD_11_orclcel08"
ASM disk gruplarındaki rebalance çalışan rebalance işlemini kontrol edin :
Çalışan bir rebalance işlemi varsa diski kesinlikle değiştirmeyin. İşlemin bitmesini bekleyin.
[root@orcldb01 ~]# su - oracle [oracle@orcldb01 ~]$ . oraenv ORACLE_SID = [oracle] ? +ASM1 The Oracle base has been set to /u01/app/oracle [oracle@orcldb01 ~]$ sqlplus / as sysasm SQL*Plus: Release 11.2.0.3.0 Production on Mon Sep 11 15:46:58 2017 Copyright (c) 1982, 2011, Oracle. All rights reserved. Connected to: Oracle Database 11g Enterprise Edition Release 11.2.0.3.0 - 64bit Production With the Real Application Clusters and Automatic Storage Management options SQL> select * from gv$asm_operation; no rows selected SQL> exit Disconnected from Oracle Database 11g Enterprise Edition Release 11.2.0.3.0 - 64bit Production With the Real Application Clusters and Automatic Storage Management options
Değiştirilecek diskin durumunu kontrol edin :
CellCLI> list celldisk where lun=0_11 CD_11_orclcel08 proactive failure CellCLI> list griddisk where celldisk=CD_11_orclcel08 attributes name,size,status,asmmodestatus DATA_ORCL_CD_11_orclcel08 423G proactive failure DROPPED DBFS_DG_CD_11_orclcel08 29.125G proactive failure DROPPED RECO_ORCL_CD_11_orclcel08 105.6875G proactive failure DROPPED
Arızalı diskteki asm disklerinin , disk gruplarından çıkarıldığından emin olun :
Aşağıdaki sorgu ile sorunlu disk ile ilişki asm disklerinin olmadığından emin olabilirsiniz. v$asm_disk görüntüsündeki name kolonundaki değerler büyük harfle olduğundan , cellcli üzerinden bakıldığında küçük harfle görülse de , sorgulama yaparken mutlaka büyük harfle yapılmalıdır.
SQL> select * from v$asm_disk where name like '%CD_11_ORCLCEL08%'
Her ne kadar gerekmese de aşağıdaki komut ile diski tamamen sistemden çıkarmakta fayda var. Bazı versiyonlarda bu komut syntax hatasına sebep olabilir. Yukarıdaki sorgudan değerler dönerse , mutlaka aşağıdaki komut çalıştırılmalıdır.
CellCLI> alter physicaldisk 20:11 drop for replacement Physical disk 20:3 was dropped for replacement. CellCLI> CellCLI> list physicaldisk 20:11 detail name: 20:11 deviceId: 8 diskType: HardDisk enclosureDeviceId: 20 errMediaCount: 980 errOtherCount: 0 foreignState: false luns: 0_11 makeModel: "SEAGATE ST360057SSUN600G" physicalFirmware: 0A25 physicalInsertTime: 2011-11-29T13:40:05+02:00 physicalInterface: sas physicalSerial: E1EY5Z physicalSize: 558.9109999993816G slotNumber: 11 status: warning - predictive failure - dropped for replacement
Arızalı diski değiştirin :
Bu aşamada diskin değişimi yapabilirsiniz. Diskin slottan tamamen çıkarmadan önce , butonuna tıklayıp, biraz çektikten sonra , üzerindeki ışıkların tamamen sönmesini bekleyin. Sonrasında diski tamamen slottan çıkarın.
Değişim sonrasında aşağıdaki kontrolleri yaparak herşeyin normal olduğunu görmenizde fayda var.
Disk değişimi yapıldıktan sonra asm disk gruplarında rebalance işlemi otomatik olarak başyalacaktır. Rebalance işleminin daha kısa sürmesi için power değerini yükseltebilirsiniz. Bu işlem için ASM rebalance işlemini hızlandırmak başlıklı makaleyi inceleyebilirsiniz.
Değişim sonrasında her şeyin yolunda gittiğinden emin olun :
CellCLI> list physicaldisk 20:11 detail name: 20:11 deviceId: 8 diskType: HardDisk enclosureDeviceId: 20 errMediaCount: 0 errOtherCount: 0 luns: 0_11 makeModel: "SEAGATE ST360057SSUN600G" physicalFirmware: E5AFNP physicalInsertTime: 2017-09-11T13:35:43+02:00 physicalInterface: sas physicalSerial: L89VNM physicalSize: 558.9109999993816G slotNumber: 11 status: normal CellCLI> list celldisk where lun=0_3 detail name: CD_11_orclcel08 comment: creationTime: 2017-09-11T13:35:43+02:00 deviceName: /dev/sdl devicePartition: /dev/sdl diskType: HardDisk errorCount: 0 freeSpace: 0 id: 51a96b02-82d6-4d1e-bc82-a8d6e8305c28 interleaving: none lun: 0_11 raidLevel: 0 size: 557.859375G status: normal CellCLI> list griddisk where celldisk=CD_11_orclcel08 attributes name,size,status,asmmodestatus DATA_ORCL_CD_11_orclcel08 423G active ONLINE DBFS_DG_CD_11_orclcel08 29.125G active ONLINE RECO_ORCL_CD_11_orclcel08 105.6875G active ONLINE
Disk değişimi sonrasında , megacli ile aşağıdaki gibi tüm disklerin online olduğunu kontrol edin.
[root@orclcel08 ~]# /opt/MegaRAID/MegaCli/MegaCli64 -pdlist -a0 |egrep 'Slot Number|Firmware state' Slot Number: 0 Firmware state: Online, Spun Up Slot Number: 1 Firmware state: Online, Spun Up Slot Number: 2 Firmware state: Online, Spun Up Slot Number: 3 Firmware state: Online, Spun Up Slot Number: 4 Firmware state: Online, Spun Up Slot Number: 5 Firmware state: Online, Spun Up Slot Number: 6 Firmware state: Online, Spun Up Slot Number: 7 Firmware state: Online, Spun Up Slot Number: 8 Firmware state: Online, Spun Up Slot Number: 9 Firmware state: Online, Spun Up Slot Number: 10 Firmware state: Online, Spun Up Slot Number: 11 Firmware state: Online, Spun Up