Hemos hablado con anterioridad del aprendizaje automático supervisado. Un sistema en el que los modelos se entrenan utilizando datos etiquetados para los que existen datos de salida correspondientes. Estos datos se denominan de entrenamiento. Pero puede haber muchos casos en los que no tengamos datos etiquetados y necesitemos encontrar los patrones existentes en un conjunto de datos dado. Es en estos casos cuando necesitamos técnicas de aprendizaje no supervisado.
Como su propio nombre sugiere, es una técnica de machine learning en la que los modelos no aprenden a partir de los llamados datos de entrenamiento. Son los propios modelos sin supervisión los que encuentran los patrones subyacentes en los datos a analizar. Este tipo de aprendizaje es comparable al proceso que tiene lugar en el cerebro humano cuando aprende cosas nuevas.
El aprendizaje no supervisado es un tipo de aprendizaje automático o machine learning en el que los modelos aprenden a partir de conjuntos de datos sin etiquetar sobre el que se les permite actuar sin supervisión.
No se puede aplicar directamente a un problema de clasificación o regresión porque, al contrario que en el aprendizaje supervisado, en el no supervisado disponemos de los datos de entrada, pero carecemos de los datos de salida. Su objetivo es encontrar la estructura oculta del conjunto de datos, agruparlos según sus semejanzas y devolver una representación útil del conjunto.
Imagina que el algoritmo de aprendizaje sin supervisión recibe un conjunto de datos de entrada que contiene imágenes de diferentes tipos de gatos y perros. Como no hay un entrenamiento con datos previos, el algoritmo no conoce las características del conjunto de datos. La tarea que este debe realizar es la de identificar las características de las diferentes imágenes. Tarea que ejecutará agrupándolas en función de las semejanzas que encuentre entre ellas.
Para comprender el funcionamiento del aprendizaje no supervisado a nivel básico, basta con echar un vistazo a esta imagen.
Como ves, hemos tomado datos de entrada sin etiquetar, lo que significa que no se les han aplicado categorías. Son datos en crudo, así que tampoco se dan las salidas correspondientes.
Estos datos de entrada sin etiquetar alimentan al modelo de aprendizaje automático para entrenarlo. En primer lugar, el modelo interpretará los datos sin procesar para encontrar los patrones ocultos que contengan. Cuando hablamos de patrones en este caso, nos referimos a diferencias y semejanzas. A continuación, aplicará los algoritmos adecuados y dividirá los datos en grupos según las similitudes y diferencias que encuentre entre ellos.
El agrupamiento es un método que reúne los objetos de modo que aquellos que presenten muchas similitudes permanezcan en un grupo. Este tipo de análisis, llamado de conglomerados, encuentra los puntos en común de los objetos que componen el conjunto de datos y los clasifica según la presencia o ausencia de esos puntos en común.
Una regla de asociación es un método de aprendizaje sin supervisión que se utiliza para encontrar las relaciones entre las variables en una gran base de datos. Esta solución de inteligencia artificial es perfecta para incluir en la estrategia de marketing. Por ejemplo, las personas que compran el artículo X (supongamos que un teléfono móvil) también tienden a comprar el artículo Y (un cargador o unos auriculares inalámbricos).
Estos son algunos de los algoritmos de aprendizaje sin supervisión más populares:
Tras esta lectura estamos seguros de que ya manejas las diferencias básicas entre el aprendizaje supervisado y el aprendizaje sin supervisión. No obstante, el tema es mucho más complejo. Si quieres dominarlo a la perfección y aprovechar todas las ventajas que ofrece, fórmate con nuestro Máster en Inteligencia Artificial y conviértete en experto en aprendizaje no supervisado y machine learning.