Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Oracle Новый топик    Ответить
 RAC - проблема на ноде.  [new]
shamanoff
Member

Откуда: Moscow
Сообщений: 318
Без явных (на поверхностный взгляд) второй ноде в воскресенье поплохело - инстанс базы и листенер вывалились в офф.

alert.log на первой "здоровой" ноде.
>>> WAITED TOO LONG FOR A ROW CACHE ENQUEUE LOCK! pid=193
System State dumped to trace file /opt/oracle/10gr2/admin/docdb/udump/docdb1_ora_7684.trc

После попытки старта базы данных на "больной" ноде.
PRKO-2005 : Application error: Failure in getting Cluster Database Configuration for: docdb2

alert.log на второй "больной" ноде.
Sun Jul 13 17:59:41 2008
MTTR advisory is disabled because FAST_START_MTTR_TARGET is not set
Sun Jul 13 17:59:41 2008
ARC1: STARTING ARCH PROCESSES
Sun Jul 13 17:59:41 2008
ARC0: Becoming the 'no FAL' ARCH
ARC0: Becoming the 'no SRL' ARCH
Sun Jul 13 17:59:41 2008
SMON: enabling cache recovery
Sun Jul 13 17:59:41 2008
ARC2: Archival started
ARC1: STARTING ARCH PROCESSES COMPLETE
ARC1: Becoming the heartbeat ARCH
ARC2 started with pid=30, OS id=16462
Sun Jul 13 17:59:44 2008
Successfully onlined Undo Tablespace 4.
Sun Jul 13 17:59:44 2008
SMON: enabling tx recovery
Sun Jul 13 17:59:44 2008
Database Characterset is AL32UTF8
replication_dependency_tracking turned off (no async multimaster replication fou
nd)
Starting background process QMNC
QMNC started with pid=32, OS id=16568
Sun Jul 13 17:59:47 2008
Completed: ALTER DATABASE OPEN
Sun Jul 13 17:59:49 2008
ALTER SYSTEM SET service_names='docdb','docdb_PRECONNECT' SCOPE=MEMORY SID='docd
b2';
Sun Jul 13 17:59:49 2008
ALTER SYSTEM SET service_names='docdb' SCOPE=MEMORY SID='docdb2';
Sun Jul 13 18:05:40 2008
Shutting down archive processes
Sun Jul 13 18:05:45 2008
ARCH shutting down
ARC2: Archival stopped
Sun Jul 13 18:26:19 2008
Thread 2 advanced to log sequence 7460
  Current log# 5 seq# 7460 mem# 0: +DOC_DGROUP/docdb/onlinelog/group_5.256.62948
7715
Sun Jul 13 22:52:07 2008
IPC Send timeout detected. Receiver ospid 10685
Sun Jul 13 22:52:07 2008
Errors in file /opt/oracle/10gr2/admin/docdb/bdump/docdb2_lms1_10685.trc:
Sun Jul 13 22:52:09 2008
Trace dumping is performing id=[cdmp_20080713225208]
Sun Jul 13 22:53:48 2008
Waiting for clusterware split-brain resolution
Sun Jul 13 23:04:00 2008
Errors in file /opt/oracle/10gr2/admin/docdb/bdump/docdb2_lmon_10677.trc:
ORA-29740: evicted by member 0, group incarnation 6
Sun Jul 13 23:04:00 2008
LMON: terminating instance due to error 29740
Sun Jul 13 23:04:00 2008
Errors in file /opt/oracle/10gr2/admin/docdb/bdump/docdb2_lms1_10685.trc:
ORA-29740: evicted by member , group incarnation
Sun Jul 13 23:04:00 2008
Errors in file /opt/oracle/10gr2/admin/docdb/bdump/docdb2_lms0_10681.trc:
ORA-29740: evicted by member , group incarnation
Sun Jul 13 23:04:00 2008
Errors in file /opt/oracle/10gr2/admin/docdb/bdump/docdb2_lms3_10706.trc:
ORA-29740: evicted by member , group incarnation
Sun Jul 13 23:04:00 2008
Errors in file /opt/oracle/10gr2/admin/docdb/bdump/docdb2_lms2_10689.trc:
ORA-29740: evicted by member , group incarnation
Sun Jul 13 23:04:00 2008
Errors in file /opt/oracle/10gr2/admin/docdb/bdump/docdb2_lmd0_10679.trc:
ORA-29740: evicted by member , group incarnation
Sun Jul 13 23:04:00 2008
System state dump is made for local instance
System State dumped to trace file /opt/oracle/10gr2/admin/docdb/bdump/docdb2_dia
g_10673.trc
Sun Jul 13 23:04:01 2008
Trace dumping is performing id=[cdmp_20080713230400]
Sun Jul 13 23:04:05 2008
Instance terminated by LMON, pid = 10677

один из упомянутых в алерт.логе трэйс файлов (docdb2_lms1_10685.trc, хотя в остальных ошибка того же рода):
  #255 id 266 exid 8809  dests 00
kjctseventdump-end tail 92 heads 92 @ 18794854 0 @ 0
 DEFER MSG QUEUE ON LMS1 IS EMPTY
 SEQUENCES:
  0:6929.0  1:0.0
error 29740 detected in background process
ORA-29740: evicted by member , group incarnation
14 июл 08, 13:12    [5929627]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
shamanoff
Member

Откуда: Moscow
Сообщений: 318
Сбой, как понимаю был в работе LMON, или, другими словами, Global Enqueue Service Monitor'e. Но какая причина повлияла на некорректную его работу - мне непонятно.

Ребут обеих нод конечно все полечил, но хотелось бы разобраться.
14 июл 08, 13:14    [5929653]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
denix1
Member

Откуда: Киев
Сообщений: 4656
shamanoff
Сбой, как понимаю был в работе LMON, или, другими словами, Global Enqueue Service Monitor'e. Но какая причина повлияла на некорректную его работу - мне непонятно.

Ребут обеих нод конечно все полечил, но хотелось бы разобраться.
это не сбой LMON!

настоящий ждентельмен после "этого" должен жениться,
а LMON после "этого" отстреливает конкурентов, дабы не произошло непоправимого
Sun Jul 13 22:53:48 2008
Waiting for clusterware split-brain resolution
далее смотреть нужно в логи операционки + CSSD.log
14 июл 08, 13:33    [5929880]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
denix1
Member

Откуда: Киев
Сообщений: 4656
shamanoff
После попытки старта базы данных на "больной" ноде.
PRKO-2005 : Application error: Failure in getting Cluster Database Configuration for: docdb2
а кластерваре себя нормально чувствовало в это время ?
14 июл 08, 13:35    [5929903]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
shamanoff
Member

Откуда: Moscow
Сообщений: 318
denix1
а кластерваре себя нормально чувствовало в это время ?


ага, в момент сбоя команда srvctl status nodeapps -n <nodename> сказала, что все в running'e кроме Listener'a на второй ноде.
14 июл 08, 13:45    [5930008]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
denix1
Member

Откуда: Киев
Сообщений: 4656
shamanoff
denix1
а кластерваре себя нормально чувствовало в это время ?


ага, в момент сбоя команда srvctl status nodeapps -n <nodename> сказала, что все в running'e кроме Listener'a на второй ноде.
srvctl может много чего "лишнего" рассказать,
особенно когда check_interval для ресурсов еще не прошел
больше интересовала работоспособность CRS по результатам crsctl check crs
14 июл 08, 13:54    [5930114]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
shamanoff
Member

Откуда: Moscow
Сообщений: 318
вот в ocssd.log обнаружилось любопытное:
[    CSSD]2008-07-12 23:51:54.921 [1210108256] >TRACE:   clssnmPollingThread: node doc-db03 (2) missed(53) checkin(s)
[    CSSD]2008-07-12 23:51:55.923 [1210108256] >TRACE:   clssnmPollingThread: node doc-db03 (2) missed(54) checkin(s)
[    CSSD]2008-07-12 23:51:56.925 [1210108256] >TRACE:   clssnmPollingThread: node doc-db03 (2) missed(55) checkin(s)
[    CSSD]2008-07-12 23:51:57.927 [1210108256] >TRACE:   clssnmPollingThread: node doc-db03 (2) missed(56) checkin(s)
[    CSSD]2008-07-12 23:51:58.929 [1210108256] >TRACE:   clssnmPollingThread: node doc-db03 (2) missed(57) checkin(s)
[    CSSD]2008-07-12 23:51:59.931 [1210108256] >TRACE:   clssnmPollingThread: node doc-db03 (2) missed(58) checkin(s)
[    CSSD]2008-07-12 23:52:00.933 [1210108256] >TRACE:   clssnmPollingThread: node doc-db03 (2) missed(59) checkin(s)
[    CSSD]2008-07-12 23:52:01.935 [1210108256] >TRACE:   clssnmPollingThread: Eviction started for node doc-db03 (2), flags 0x000d, state 3, wt4c 0
[    CSSD]2008-07-12 23:52:01.935 [1231087968] >TRACE:   clssnmDoSyncUpdate: Initiating sync 5
[    CSSD]2008-07-12 23:52:01.935 [1231087968] >TRACE:   clssnmSetupAckWait: Ack message type (11)
[    CSSD]2008-07-12 23:52:01.935 [1231087968] >TRACE:   clssnmSetupAckWait: node(1) is ALIVE
[    CSSD]2008-07-12 23:52:01.935 [1231087968] >TRACE:   clssnmSetupAckWait: node(2) is ALIVE
[    CSSD]2008-07-12 23:52:01.935 [1231087968] >TRACE:   clssnmSendSync: syncSeqNo(5)
[    CSSD]2008-07-12 23:52:01.935 [1157658976] >TRACE:   clssnmHandleSync: Acknowledging sync: src[1] srcName[doc-db01] seq[9] sync[5]
[    CSSD]2008-07-12 23:52:01.935 [1231087968] >TRACE:   clssnmWaitForAcks: Ack message type(11), ackCount(2)
[    CSSD]2008-07-12 23:52:01.989 [2538031872] >USER:    NMEVENT_SUSPEND [00][00][00][06]
[    CSSD]2008-07-12 23:52:02.937 [1231087968] >TRACE:   clssnmWaitForAcks: node(2) is expiring, msg type(11)
[    CSSD]2008-07-12 23:52:02.938 [1231087968] >TRACE:   clssnmWaitForAcks: done, msg type(11)
[    CSSD]2008-07-12 23:52:02.938 [1231087968] >TRACE:   clssnmDoSyncUpdate: node(0) missCount(3904206) state(0)
[    CSSD]2008-07-12 23:52:02.938 [1231087968] >TRACE:   clssnmDoSyncUpdate: node(2) missCount(60) state(3)
[    CSSD]2008-07-12 23:52:02.938 [1231087968] >TRACE:   clssnmSetupAckWait: Ack message type (13)
[    CSSD]2008-07-12 23:52:02.938 [1231087968] >TRACE:   clssnmSetupAckWait: node(1) is ACTIVE
[    CSSD]2008-07-12 23:52:02.938 [1231087968] >TRACE:   clssnmSendVote: syncSeqNo(5)
[    CSSD]2008-07-12 23:52:02.938 [1231087968] >TRACE:   clssnmWaitForAcks: Ack message type(13), ackCount(1)
[    CSSD]2008-07-12 23:52:02.938 [1157658976] >TRACE:   clssnmSendVoteInfo: node(1) syncSeqNo(5)
[    CSSD]2008-07-12 23:52:03.633 [1115699552] >TRACE:   clssnmReadDskHeartbeat: node(2) is down. rcfg(5) wrtcnt(1982755) LATS(3910695424) Disk lastSeqNo(1982755)
[    CSSD]2008-07-12 23:52:03.636 [1136679264] >TRACE:   clssnmReadDskHeartbeat: node(2) is down. rcfg(5) wrtcnt(1982755) LATS(3910695424) Disk lastSeqNo(1982755)
[    CSSD]2008-07-12 23:52:03.700 [1126189408] >TRACE:   clssnmReadDskHeartbeat: node(2) is down. rcfg(5) wrtcnt(1982755) LATS(3910695494) Disk lastSeqNo(1982755)
[    CSSD]2008-07-12 23:52:03.939 [1231087968] >TRACE:   clssnmWaitForAcks: done, msg type(13)
[    CSSD]2008-07-12 23:52:03.939 [1231087968] >TRACE:   clssnmCheckDskInfo: Checking disk info...
[    CSSD]2008-07-12 23:52:04.639 [1115699552] >TRACE:   clssnmReadDskHeartbeat: node(2) is down. rcfg(5) wrtcnt(1982756) LATS(3910696434) Disk lastSeqNo(1982756)
[    CSSD]2008-07-12 23:52:04.642 [1136679264] >TRACE:   clssnmReadDskHeartbeat: node(2) is down. rcfg(5) wrtcnt(1982756) LATS(3910696434) Disk lastSeqNo(1982756)
14 июл 08, 14:01    [5930206]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
shamanoff
Member

Откуда: Moscow
Сообщений: 318
ах да, дело происходит в RHEL 4, Oracle 10.2.0.1
14 июл 08, 14:13    [5930346]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
denix1
Member

Откуда: Киев
Сообщений: 4656
shamanoff
вот в ocssd.log обнаружилось любопытное:
[    CSSD]2008-07-12 23:52:00.933 [1210108256] >TRACE:   clssnmPollingThread: node doc-db03 (2) missed(59) checkin(s)
[    CSSD]2008-07-12 23:52:01.935 [1210108256] >TRACE:   clssnmPollingThread: Eviction started for node doc-db03 (2), flags 0x000d, state 3, wt4c 0
чего любопытного то ?
ну не было связи по интерконнекту с узлом doc-db03 60 секунтд, за что его и отстрелили...

ПС.
а чего действительно интересно - так это разница по времени в час между логами
14 июл 08, 15:07    [5930826]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
Alex Roudnev
Member

Откуда: Валнут Крик, Калифорния
Сообщений: 5547
denix1
shamanoff
вот в ocssd.log обнаружилось любопытное:
[    CSSD]2008-07-12 23:52:00.933 [1210108256] >TRACE:   clssnmPollingThread: node doc-db03 (2) missed(59) checkin(s)
[    CSSD]2008-07-12 23:52:01.935 [1210108256] >TRACE:   clssnmPollingThread: Eviction started for node doc-db03 (2), flags 0x000d, state 3, wt4c 0
чего любопытного то ?
ну не было связи по интерконнекту с узлом doc-db03 60 секунтд, за что его и отстрелили...

ПС.
а чего действительно интересно - так это разница по времени в час между логами


Нет, а почему его обратно не оживили то??

А вообще ораклиные кластеры - еще та игрушка - настоящими кластерами назвать сложно.
14 июл 08, 22:33    [5932932]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
denix1
Member

Откуда: Киев
Сообщений: 4656
Alex Roudnev
Нет, а почему его обратно не оживили то??
тяжело сказать в отсутвиии логов
15 июл 08, 12:04    [5935126]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
shamanoff
Member

Откуда: Moscow
Сообщений: 318
Как не раз говорилось раньше - большинство проблем в оракловом кластере вызвано проблемами с интерконнектом. Вот и тут - оптический свитч глюканул.
15 июл 08, 15:53    [5937062]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
denix1
Member

Откуда: Киев
Сообщений: 4656
shamanoff
Как не раз говорилось раньше - большинство проблем в оракловом кластере вызвано проблемами с интерконнектом. Вот и тут - оптический свитч глюканул.
а у вас нитерконнект на оптическом свитче ?
15 июл 08, 16:50    [5937401]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
Alex Roudnev
Member

Откуда: Валнут Крик, Калифорния
Сообщений: 5547
denix1
Alex Roudnev
Нет, а почему его обратно не оживили то??
тяжело сказать в отсутвиии логов


По моему опыту, cssd перевызывает ноду в случае потери интерконнекта.Так что в результате все обратно оживляется.
15 июл 08, 21:31    [5938427]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
Alex Roudnev
Member

Откуда: Валнут Крик, Калифорния
Сообщений: 5547
shamanoff
Как не раз говорилось раньше - большинство проблем в оракловом кластере вызвано проблемами с интерконнектом. Вот и тут - оптический свитч глюканул.


Большинство проблем во ВСЕХ ораклиных кластерах вызвано отсутствием малейшей реданданси в интерконнектах (это касается и OCFSv2) - в итоге любой глюк сети вызывает кучу харакирей серверов. (Бондинг, как легко показать, проблему решить не способен). Для сравнения - VCS или heartbeat используют редандант интерконнекты и потому выдерживают потерю части связи без малейших проблем вообще.
15 июл 08, 21:33    [5938433]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
OlegLOM
Member

Откуда: Нижний Новгород
Сообщений: 51
Alex Roudnev

Большинство проблем во ВСЕХ ораклиных кластерах вызвано отсутствием малейшей реданданси в интерконнектах (это касается и OCFSv2) - в итоге любой глюк сети вызывает кучу харакирей серверов. (Бондинг, как легко показать, проблему решить не способен). Для сравнения - VCS или heartbeat используют редандант интерконнекты и потому выдерживают потерю части связи без малейших проблем вообще.


А по моему опыту надо чаще время синхрить по ntpdate!
15 июл 08, 23:00    [5938707]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
denix1
Member

Откуда: Киев
Сообщений: 4656
OlegLOM
А по моему опыту надо чаще время синхрить по ntpdate!
тут не вопрос в частоте,
согласованность времени на узлах - есть согласованной данной в БД
главное в этом деле не перескочить через 10 минут, если не ошибаюсь
иначе CSSD - перегрузит узел - что не есть хорошо
16 июл 08, 16:56    [5943654]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
denix1
Member

Откуда: Киев
Сообщений: 4656
denix1
...

пальцы заплетаются...
"есть согласованной данной в БД" -> "есть согласованность данный в БД"
16 июл 08, 17:00    [5943676]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
Alex Roudnev
Member

Откуда: Валнут Крик, Калифорния
Сообщений: 5547
denix1
OlegLOM
А по моему опыту надо чаще время синхрить по ntpdate!
тут не вопрос в частоте,
согласованность времени на узлах - есть согласованной данной в БД
главное в этом деле не перескочить через 10 минут, если не ошибаюсь
иначе CSSD - перегрузит узел - что не есть хорошо


Кто же мешает раннить xntpd на всех узлах?
16 июл 08, 22:09    [5945092]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
OlegLOM
Member

Откуда: Нижний Новгород
Сообщений: 51
Alex Roudnev

Кто же мешает раннить xntpd на всех узлах?


+1

не надо недооценивать, синронизацию времени, даже небольшой разброс может привести к потере интерконнекта.
17 июл 08, 02:25    [5945390]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
denix1
Member

Откуда: Киев
Сообщений: 4656
Alex Roudnev
Кто же мешает раннить xntpd на всех узлах?
чего-то тяжело у меня поутру с русским языком
можешь объяснить что имелось в виду ?
отстрел xntpd ? или совсем наоборот ?

OlegLOM
Alex Roudnev

Кто же мешает раннить xntpd на всех узлах?
+1

не надо недооценивать, синронизацию времени, даже небольшой разброс может привести к потере интерконнекта.
возможно у меня совсем тяжко поутру с пониманием...
но как доступность интерконнекта может вообще зависеть от "небольшого разброса"(по времени я так полагаю) ?

неплохо бы так же привести несколько примеров из жизни, подтверждающих теорию

ПС.
перегрузка узла демоном CSSD при большом скачке по времени
есть исключительно программная реализация причем исключительно локальная
к конкретному узлу
17 июл 08, 10:47    [5946369]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
Alex Roudnev
Member

Откуда: Валнут Крик, Калифорния
Сообщений: 5547
OlegLOM
Alex Roudnev

Кто же мешает раннить xntpd на всех узлах?


+1

не надо недооценивать, синронизацию времени, даже небольшой разброс может привести к потере интерконнекта.


Если раннить xntpd а сервер иметь скажем у себя на роутере, то и небольшого разброса времмени не будет - будет разница в десяток миллисекунд.

(Хотя писателям краборака нужно кое что поотрывать за разного рода интересные предположения, не имеющие на самом деле почвы под собой. И кто им мешает проверить синхронизацию времени??)
17 июл 08, 23:36    [5951026]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
OlegLOM
Member

Откуда: Нижний Новгород
Сообщений: 51
Alex Roudnev

Если раннить xntpd а сервер иметь скажем у себя на роутере, то и небольшого разброса времмени не будет - будет разница в десяток миллисекунд.

(Хотя писателям краборака нужно кое что поотрывать за разного рода интересные предположения, не имеющие на самом деле почвы под собой. И кто им мешает проверить синхронизацию времени??)


я и говорю +1 xntpd '
18 июл 08, 02:27    [5951336]     Ответить | Цитировать Сообщить модератору
 Re: RAC - проблема на ноде.  [new]
OlegLOM
Member

Откуда: Нижний Новгород
Сообщений: 51
denix1

неплохо бы так же привести несколько примеров из жизни, подтверждающих теорию

ПС.
перегрузка узла демоном CSSD при большом скачке по времени
есть исключительно программная реализация причем исключительно локальная
к конкретному узлу


Это не поддается разуму. Тут я пожалуй соглашусь что софт для рака у Oracle кривой. Иногда и 5 сек достаточно для отстрела ноды, а иногда и более 1 мин работает и не жужит, в общем запустил ntpdate раз в час (на всякий случай) и в rc.local добавил, теперь тьуф тьфу, ноды не отсыхают...
18 июл 08, 02:32    [5951343]     Ответить | Цитировать Сообщить модератору
Все форумы / Oracle Ответить