Exadata cellnode RS-7445 [Serv CELLSRV hang detected] [It will be restarted] sorununun çözümü
Exadata cellnode’lar üzerinde aşırı yük altında heartbeat gönderememesine bağlı olarak RS-7445 şeklinde hata alınabilmektedir. Bu hata Oracle Exadata Storage Server yazılımının 11.2.2.4.0 ve 11.2.3.2.1 arasındaki sürümlerinde görülmektedir.
Hata sonucunda CELLSRV servisi RS tarafından yeniden başlatılmaktadır. Cellnode aler.log incelendiğinde aşağıdaki gibi hatalar görülecektir.
/opt/oracle/cell11.2.3.1.1_LINUX.X64_120607/log/diag/asm/cell/<cellnode_hostname>/trace/alert.log :
State dump signal delivered to Cellsrv<9971> State dump signal delivered to Cellsrv<9971> by RS. Mon Jan 2 16:38:24 2017 State dump interrupted for Cellsrv<9971> by RS. It did not complete in 5 seconds. [RS] Stopped Service CELLSRV Errors in file /opt/oracle/cell11.2.3.1.1_LINUX.X64_120607/log/diag/asm/cell/sba4cel07/trace/rstrc_9957_4.trc (incident=17): RS-7445 [Serv CELLSRV hang detected] [It will be restarted] [] [] [] [] [] [] [] [] [] [] Incident details in: /opt/oracle/cell11.2.3.1.1_LINUX.X64_120607/log/diag/asm/cell/sba4cel07/incident/incdir_17/rstrc_9957_4_i17.trc Sweep [inc][17]: completed [RS] Detected service hang. Increasing heartbeat timeout to 8 seconds. [RS] Started monitoring process /opt/oracle/cell11.2.3.1.1_LINUX.X64_120607/cellsrv/bin/cellrsomt with pid 3109 Mon Jan 02 17:38:25 2017 Successfully setting event parameter - Mon Jan 02 17:38:25 2017 Successfully setting event parameter - CELLSRV process id=3110 CELLSRV cell host name=sba4cel07.saglik.lokal CELLSRV version=11.2.3.1.1,label=OSS_11.2.3.1.1_LINUX.X64_120607,Fri_Jun__8_12:49:44_PDT_2012 OS Hugepage status: Total/free hugepages available=4001/81; hugepage size=2048KB OS Stats: Physical memory: 23955 MB. Num cores: 24
Bu sorunun tekrarlamaması için RS ve CELLSRV arasındaki heartbeat timeout süresinin arttırılması gerekmektedir. Varsalına olarak heartbeat değeri 6 saniyedir. Bu değeri aşağıdaki adımları takip ederek yükseltebilirsiniz.
root ile ;
$OSSCONF/cellinit.ora dosyasına aşağıdaki satır eklenerek servisler yeniden başlatılır.
_cellrsdef_heartbeat_timeout=10
[root@oradbcel01 ~]# cellcli CellCLI: Release 11.2.3.1.1 - Production on Mon Jan 02 21:21:35 EET 2017 Copyright (c) 2007, 2011, Oracle. All rights reserved. Cell Efficiency Ratio: 488 CellCLI> alter cell RESTART SERVICES RS