Analítica de Datos para Ciberseguridad

El Machine Learning es una rama de la Inteligencia Artificial cuyo objetivo es extraer conocimiento de la experiencia (representada en Ciberseguridad por un conjunto de datos). El Machine Learning, junto con otras técnicas de Analítica de Datos de base estadística, es actualmente la herramienta más potente para la detección automática de ciberataques novedosos.

El uso de los sistemas de información genera ingentes cantidades de datos, como por ejemplo la tipología de los paquetes de datos que viajan por las redes, su itinerario y su frecuencia; o la cadencia de pulsado de teclas en un teclado; o las aplicaciones que un usuario ejecuta; o los sitios web que visita. Además, los sistemas informáticos presentan vulnerabilidades, algunas documentadas, otras mantenidas en secreto, y muchas por descubrir, cuya explotación genera unos datos caracterizables en muchos casos.

Esta abundancia de Big Data es aprovechada por los sistemas de Analítica de Datos y Machine Learning para Ciberseguridad con el objetivo de encontrar dinámicamente los patrones en los datos que separan los usos legítimos de los sistemas informáticos, de los usos no autorizados y de los ciberataques. Estos patrones en los datos son dinámicos, continuamente aparecen nuevos patrones y pierden su vigencia los anteriores, lo cual supone un reto adicional para las técnicas de Analítica de Datos y Machine Learning, que deben incorporar Online Learning, entendido como la capacidad de estar aprendiendo continuamente de los datos según se recogen. Además, el hecho de que los ciberataques generen patrones en los datos muy distintos, en función del tipo de ciberataque, requiere el uso de Machine Learning Distribuido, que contempla la generación de una multitud de modelos de Machine Learning que se equipara a la variedad de ciberataques, ambos en continua e imparable evolución temporal.

Las técnicas de Analítica de Datos usadas en Ciberseguridad han evolucionado siguiendo la siguiente secuencia.

 

Inesdi | Analítica de datos para Ciberseguridad

 

La técnica más básica consiste en el análisis a posteriori mediante búsquedas en conjuntos de datos recogidos de registros de la actividad de sistemas informáticos. Un paso adicional es el cálculo de correlaciones entre diversos eventos que ocurren durante un ciberataque, con la intención de encontrar correlaciones significativas anunciadoras, o explicativas, de los ciberataques. Mediante el uso de sentencias SQL (Structured Query Language) se pueden extraer selectivamente, de bases de datos relacionales, los registros de la actividad del sistema informático que cumplen unas condiciones sospechosas prefijadas por el Analista de Ciberseguridad. Un paso adicional de sofisticación consiste en emplear técnicas de estadística avanzada para encontrar los parámetros de las distribuciones estadísticas que modelan el comportamiento del sistema informático, pudiendo de este modo calcular valores esperados y desviaciones de los mismos (que pueden ser indicativas de la acción de un ciberataque).

El Machine Learning monolítico analiza los datos que genera la actividad de un sistema informático para extraer los patrones que diferencian el funcionamiento normal del sistema de la presencia de un ciberataque. El adjetivo “monolítico” se refiere a que el subsistema de Machine Learning es una única caja negra, en contraste con el caso del Machine Learning distribuido, que contiene múltiples sistemas monolíticos de Machine Learning que colaboran entre sí para, entre todos, proporcionar una detección de ciberataques más efectiva que la obtenida por un único sistema de Machine Learning monolítico actuando individualmente de forma aislada.

 

El Machine Learning monolítico analiza los datos que genera la actividad de un sistema informático para extraer los patrones que diferencian el funcionamiento normal del sistema de la presencia de un ciberataque.

 

Actualmente, las plataformas más modernas de Analítica de Datos de Ciberseguridad con funcionalidad de Machine Learning distribuido incorporada tienen a su disposición una capacidad de aprendizaje de patrones de ciberataques superior a la de los sistemas monolíticos.

La Detección de Anomalías en redes es un ejemplo ilustrativo de aplicación de las técnicas de Analítica de Datos para Ciberseguridad. Una anomalía en la serie temporal de una variable monitorizada que caracterice el tráfico en una red puede ser potencialmente indicativa de un ciberataque en curso o en preparación. Esta variable puede ser por ejemplo, el intervalo temporal medio entre dos paquetes entre un origen y destino concretos, o cualquiera de las variables monitorizadas por el protocolo NetFlow (127 en total en la versión 9), o atributos derivados de combinaciones, acumulaciones o agregaciones de variables “básicas”.

El tipo de anomalía más básico es la presencia de un outlier:

 

Inesdi | Analítica de Datos para Ciberseguridad

 

Un outlier es un valor claramente separado de la distribución de la serie temporal y ajeno a ella. Para detectar la presencia de un outlier podemos emplear técnicas de Analítica de Datos para calcular el valor esperado para la serie en el momento t, y que llamamos predictiont . El error relativo en el instante t, RelErrort , mide la desviación relativa entre el valor observado xt y el valor esperado predictiont. Cuando RelErrort supera el error de predicción atribuible a la técnica de Analítica de Datos podemos concluir que lo más probable es que estemos ante un outlier, en cuyo caso se generará la alerta correspondiente, para pasar a una segunda fase en la que un Analista de Ciberseguridad decidirá sobre las acciones a emprender.

 

Por  Ignacio Giráldez, Knowledgeworks S.L.

Ignacio es profesor del Posgrado en Customer Intelligence & Data Analytics de Inesdi.

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *