Random forest, la gran técnica de Machine Learning

Data

27/01/2023

Probablemente, hayas oído hablar del algoritmo random forest en machine learning. Sobre todo en contraposición al árbol de decisiones. Hoy vamos a hablar del primero, y trataremos de hacer comprensible su funcionamiento. Aunque, como siempre, la mejor manera de profundizar en todos estos conceptos es con una formación específica. Por ejemplo, nuestro Máster en Business Analytics & IA.

Random forest: qué es

Random forest es un algoritmo de aprendizaje automático supervisado que se usa para solucionar problemas de clasificación y regresión. Construye árboles de decisión a partir de diferentes muestras y toma su voto mayoritario para decidir la clasificación y el promedio en caso de regresión.

Una de las características más importantes del algoritmo de bosque aleatorio es que puede manejar un conjunto de datos que contenga variables continuas, como en el caso de la regresión, y variables categóricas, como en el caso de la clasificación. Por eso ofrece mejores resultados para problemas de clasificación.

Imagina el siguiente caso: un estudiante X quiere elegir un curso, pero no está seguro de cuál es el que más le conviene teniendo en cuenta sus habilidades y especialidades. Entonces decide consultar a varias personas de su entorno, como sus primos, maestros, padres y compañeros. Les hace preguntas variadas como por qué debería elegir un curso y no otro, qué oportunidades laborales ofrece el curso, precio, etc. Finalmente, después de consultar a varias personas, decide estudiar lo que han sugerido la mayoría de las personas.

random forest

Funcionamiento del algoritmo de bosque aleatorio

Antes de comprender el funcionamiento del algoritmo random forest en machine learning, debemos analizar la técnica Ensemble. Ensemble simplemente significa combinar varios modelos. Y lo que quiere decir es que se utiliza una colección de modelos para hacer predicciones en lugar de un modelo individual.

Ensemble utiliza dos tipos de métodos:

Embolsado: crea un subconjunto a partir de datos de muestra con reemplazo y el resultado final se basa en la votación por mayoría. Por ejemplo, random forest.
Impulso (boost): crea modelos secuenciales de modo que el modelo final tenga la mayor precisión. Por ejemplo, AdaBoost, XGBoost.

Como ya hemos mencionado, el algoritmo de bosque aleatorio funciona según el principio de embolsado.

Random Forest: qué es el embolsado

El embolsado, también conocido como Bootstrap Aggregation, elige una muestra aleatoria del conjunto de datos. Cada modelo se entrena de forma independiente, y el resultado final se basa en la votación por mayoría después de combinar los resultados de todos los modelos. Este paso que consiste en combinar todos los resultados y generar resultados basados en la votación por mayoría se conoce como agregación.

Pasos que da el algoritmo de random forest

El algoritmo toma “n” números de registros aleatorios del conjunto de datos.
Se construyen árboles de decisión individuales para cada muestra.
Cada árbol de decisión generará una salida.
El resultado final depende de la mayoría o el promedio para la clasificación y la regresión, respectivamente.

Random forest: ejemplo

Se utiliza mucho en comercio electrónico, banca, medicina, bolsa, etc.

Por ejemplo: en la industria bancaria, se puede usar para encontrar qué cliente no pagará el préstamo y decidir así si el préstamo se concede o no. Este es un caso de analítica predictiva.

random forest

Ventajas y desventajas del algoritmo de bosque aleatorio

Ventajas

Se puede utilizar en problemas de clasificación y regresión.
Resuelve el problema del sobreajuste ya que la salida se basa en la votación por mayoría o en el promedio.
Funciona bien incluso si los datos contienen valores nulos/ausentes.
Cada árbol de decisión creado es independiente del otro, por lo que muestra la propiedad de paralelización.
Es altamente estable, ya que se toman las respuestas promedio dadas por una gran cantidad de árboles.
Mantiene la diversidad, ya que no se consideran todos los atributos al tomar cada árbol de decisión.
Es inmune a la maldición de la dimensionalidad. Dado que cada árbol no considera todos los atributos, el espacio de características se reduce.
No tenemos que segregar los datos en entrenar y probar, ya que siempre habrá un 30 % de los datos que no se verán en el árbol de decisión.

Desventajas

El bosque aleatorio es muy complejo en comparación con los árboles de decisión en los que se pueden tomar decisiones siguiendo la ruta del árbol.
El tiempo de entrenamiento es mayor, en comparación con otros modelos, debido a su complejidad. Siempre que tenga que hacer una predicción, cada árbol de decisión ha de generar una salida para los datos.

Conclusión

Random Forest es una de las mejores técnicas de alto rendimiento y es ampliamente utilizada en diversas industrias debido precisamente a esa eficiencia. Puede manejar datos binarios, continuos y categóricos.

El bosque aleatorio es una excelente opción si alguien quiere construir el modelo de manera rápida y eficiente, ya que puede manejar los valores faltantes.

En general, el bosque aleatorio es un modelo rápido, simple, flexible y robusto con algunas limitaciones. Si quieres seguir aprendiendo sobre esta técnica y para qué sirve, te recomendamos que leas este artículo sobre Big Data Analytics.