Las 3 diferencias clave entre Bagging y Boosting

Inteligencia Artificial

09/08/2022

Son muchos los términos que nos deja, hoy en día, la Inteligencia Artificial. Son muchos los conceptos que hacen posible que las máquinas puedan resolver problemas como lo haría una persona. El Bagging y el Boosting se basan en los algoritmos creados a partir de algoritmos simples y son muy prácticos en machine learning. A pesar de usarse con un mismo propósito, existen importantes diferencias que hacen que cada uno de ellos sean más adecuados para uno u otro momento o proyecto.

Algoritmos ensamblados en machine learning

Los algoritmos ensamblados son una clase de algoritmo utilizado para el machine learning que mejora la generalización usando distintas estrategias de combinación. Para que lo entendamos mejor, son la conjunción de varios algoritmos para conseguir crear uno más complejo y potente. Esto da lugar a increíbles ejemplos y aplicaciones cotidianos de inteligencia artificial que utilizamos y/o utilizaremos en nuestro día a día.

Algoritmos ensamblados en machine learning

¿Qué diferencia al Boosting del Bagging?

En primer lugar, vamos a conocer qué es exactamente cada uno de estos términos. De esta forma, aprenderemos que la principal diferencia entre ambos métodos es la forma en la que usan los modelos simples. El uso de este tipo de métodos es el principio de un futuro cada vez más cercano.

¿Qué es Boosting?

El Boosting es un método que se usa en machine learning para reducir errores en el análisis predictivo de los datos. Para poder llevarlo a cabo, los científicos de datos entrenan el software con datos etiquetados para llevar a cabo predicciones de datos no etiquetados. En este caso, los modelos simples usados van uno delante del otro, por lo que se utilizan de forma secuencial.

Al usar el método secuencial se aprovecha la dependencia de los modelos.

Las ventajas de este método son:

· Fácil implementación. Cuenta con algoritmos muy sencillos de comprender y de interpretar que aprenden de sus propios errores. No requieren de un procesamiento previo de los datos y cuenta con rutinas que manejan la falta de estos.

· Reducción del sesgo. El sesgo alto es uno de los mayores problemas del machine learning. Sin embargo, gracias al Boosting lo reduce de manera importante.

· Eficacia computacional. Los algoritmos del Boosting dan prioridad a la precisión predictiva durante el entrenamiento. Esto puede ayudar a minimizar los atributos de los datos y facilita el manejo de datos de forma más eficiente.

¿Qué es Bagging?

El Bagging es un método donde los algoritmos simples se usan en paralelo de forma que pueda aprovecharse de la independencia que hay entre los algoritmos simples, de esta forma, conseguimos reducir el error. Para entenderlo mejor es como si varios grupos independientes de personas traten de solucionar un problema y al final se da por válida la respuesta que más se repita.

El Bagging es una agregación Bootstrap que alcanza la combinación de diferentes modelos a partir de una familia principal. Este método se usa con lo que se conoce como árboles de decisión.

Los principales beneficios de este método son:

· Se remuestrea de forma repetida en el conjunto de datos con los que se entrena al machine learning.

· Con cada conjunto de datos se está entrenando a un modelo.

· La forma de obtener las predicciones es a través del promedio de las predicciones de los modelos.

· Gracias a este sistema es posible estimar la precisión de predicciones con lo que se conoce como el error out of bag.

Diferencias entre Bagging y Boosting

Analizamos ahora cuáles son las diferencias que hacen especiales a estos modelos:

1. Estrategia de combinación

Mientras que el Boosting utiliza una estrategia secuencial, el Bagging utiliza un sistema paralelo. Gracias al uso secuencial, el Boosting permite dar más peso a las observaciones que el que estimó el modelo anterior. El Bagging, por su parte, selecciona las muestras de datos de forma aleatoria, adquiriendo la misma probabilidad de selección para cualquier variable.

2. Corrección de errores predictivos

Mediante el Bagging conseguimos que los errores se compensen debido a que cada modelo se entrena con subconjuntos que eligen muestras de con repetición de una manera totalmente aleatoria.

Por su parte, el Boosting trata de reparar los errores de predicción de los modelos anteriores, ya que funciona de forma secuencial. Cada algoritmo dependerá del anterior.

3. Independencia vs correlación

El Bagging aprovecha la independencia de los algoritmos y el Boosting se basa en la correlación entre ellos. Dicho de otra forma, mientras que el primero trata de reducir la varianza, el segundo intenta minimizar el sesgo.