La verdadera razón de las caídas de sistema en las aerolíneas
- Es probable que un error humano esté detrás del colapso en el sistema que dejó varados los vuelos de la segunda mayor compañía aérea durante seis horas el lunes.
EE.UU. 15 agosto, 2016. ¿Por qué los colapsos informáticos siguen causando grandes problemas a las aerolíneas, dejando a cientos de miles de pasajeros varados en los aeropuertos? Las respuestas son muchas: Error humano. Equivocaciones. Clásicas metidas de pata .
Esa es la explicación ofrecida por los expertos en informática de aerolíneas el lunes pasado, después de que Delta Air Lines luchó por hacer frente a una enorme falla de sistema. La segunda aerolínea más grande del mundo se vio obligada a retrasar y cancelar el despegue de todos sus vuelos al menos durante seis horas en todo el mundo.
Delta atribuyó el problema a un corte de energía. Pero únicamente esa causa no debería haber sido la razón de la caída del sistema; existen respaldos que deberían haber mantenido el sistema de Delta en línea y funcionando.
“Básicamente están diciendo: ‘Tuvimos una falla de energía en una ubicación, pero desafortunadamente no pudimos continuar con las operaciones en un centro de datos secundario a pesar de que gastamos cientos de millones de dólares en él’”, dijo Gil Hecht, fundador y presidente ejecutivo de Continuity Software, un experto en recuperación de desastres informáticos.
Eso es esencialmente admitir un error humano, añadió Hecht.
Un portavoz de Delta no quiso comentar si la aerolínea tenía un suministro de respaldo de energía independiente; pero expertos opinaron que con seguridad la compañía tiene uno.
Pero no se trata solamente de Delta. Estas caídas de sistema son comunes.
El colapso del lunes pasado se produjo tres semanas después de un corte informático en Southwest Airlines, que condujo a la cancelación de más de 1.000 vuelos. En mayo, problemas informáticos de JetBlue forzaron a los pasajeros a hacer el registro de forma manual en algunos aeropuertos. Los problemas informáticos retrasaron los vuelos de United Airlines en todo el mundo en 2015.
¿Por qué siguen ocurriendo estas fallas informáticas en las aerolíneas?
“La complejidad del centro de datos se sale de las manos”, dijo Hecht.
Las líneas aéreas, al construir capas y capas de sistemas —cada una con una configuración y propósito distinto—, accidentalmente fomentan la amenaza de que algo falle en sus redes informáticas.
“De alguna manera, alguien creó una amenaza en la situación de Delta Air Lines que causó que su recuperación de desastres no funcionara. ¿Cómo lo sé? Debido a que su sistema de recuperación de desastres debería haber funcionado. Y no fue así”.
Expertos en aerolíneas dicen que hay tres razones por las cuales los sistemas se caen.
1) No hay redundancia. Una aerolínea podría haber optado por no protegerse con un sistema de respaldo. Sin embargo, eso es poco probable para una compañía grande como Delta.
2) Hackeo. El accidente fue causado por un atacante cibernético. Pero esa probablemente no es la causa de la falla informática de Delta del lunes pasado, dijo Hecht, debido a que un golpe intencional contra el sistema de Delta probablemente hubiera sido aislado y todo habría sido puesto en línea de nuevo con mayor rapidez, dijo.
3) Error humano. Capas y capas de sistemas que se acumulan con el tiempo crean algún tipo de problema técnico y de repente todo se viene abajo. Esa es la explicación más probable para lo que ocurrió con Delta.
Como alternativa ya no podemos recurrir a los registros en papel durante una emergencia como esta. Eso ya no es factible, dicen los expertos —especialmente en vuelos internacionales— porque las computadoras de las aerolíneas están vinculadas a redes de seguridad gubernamentales como listas de exclusión aérea y sistemas de documentos de visado.
Entonces, ¿qué pueden hacer las compañías aéreas para evitar que estas fallas informáticas sucedan con tanta frecuencia?
Para empezar pueden instalar sistemas de revisión más automatizados. También podrían realizar simulacros de emergencia al interrumpir sus sistemas durante periodos de poca actividad y recurrir a sus sistemas secundarios y de respaldo para asegurarse que funcionan correctamente. Y por supuesto, evitar el recurrente error de parchar el parche con el parche del parche.