¿Por qué experimento caídas temporales de respuesta de ping en mi red?

Iniciado por lacv2k, 17 Octubre 2017, 22:24 PM

0 Miembros y 1 Visitante están viendo este tema.

lacv2k

Estimados todos,

Les cuento de un problema, y les pido ayuda o ideas de como resolverlo:

Tengo una red de comunicación industrial compuesta de varias estaciones, cada una de ellas con su switch. La mayoría tienen equipos conectados, tales como PLCs, UPS, etc.
Prácticamente todos los switches se interconectan mediante enlaces de radio, que finalmente llegan a un punto común, que es un swtich capa 3, el cual a su vez se conecta a una red corporativa con un sistema de supervisión y control (SCADA).
Nuestro cliente nos ha pedido que demostremos que el sistema de comunicación comprendido por los switches y radios tiene una disponibilidad de %99.95 en un periodo de tiempo determinado, empleando un sistema de monitoreo que se ha instalado paralelamente. La disponibilidad se calcula en base a la respuesta de ping que hace el sistema a cada uno de los equipos.

Ahora bien, la red tiene una topología algo complicada ya que consta de varios lazos y se ha configurado en RSTP para poder manejar la redundancia que se presenta. Por otra parte hay un segmento de estaciones que forman un lazo grande que genera bastante latencia en la estación más alejada. El funcionamiento le hemos estado afinando modificando los timers del protocolo hasta el máximo y se ha logrado cierta estabilidad.

Sin embargo pese a que la red ya no cae frecuentemente, se observa que algunos equipos (switches o radios) dejan de responder al ping en determinados momentos y por espacio de minutos hasta horas. Lo curiosos del caso es que dichas "caídas" en realidad no son tales porque los equipos que están conectados siguen respondiendo. Por ejemplo cuando deja de responder un switch, los equipos conectados a dicho switch siguen respondiendo. Así mismo, cuando una radio deja de responder, la otra radio del enlace sigue indicando que el enlace está OK y el tráfico no cae. Al parecer se trata de un problema de respuesta únicamente.

Ya que el resultado de disponibilidad depende de lo que arroje el sistema de monitoreo es importante tener un registro real como prueba que el equipo está funcionando, de otro modo la disponibilidad final va a diminuir poco a poco.

Alguien tienen idea de a qué se puede deber lo que explico? Como puedo mejorar la respuesta del monitoreo de los equipos de la red? Debo revisar o hacer alguna modificación en la configuración de los equipo o el sistema de monitoreo?

Si necesitan información adicional del sistema no duden en hacérmelo saber.

Gracias de antemano por su ayuda.