Probablemente, hayas oído hablar del algoritmo random forest en machine learning. Sobre todo en contraposición al árbol de decisiones. Hoy vamos a hablar del primero, y trataremos de hacer comprensible su funcionamiento. Aunque, como siempre, la mejor manera de profundizar en todos estos conceptos es con una formación específica. Por ejemplo, nuestroMáster en Business Analytics & IA.
Random forest: qué es
Random forest es un algoritmo de aprendizaje automático supervisado que se usa para solucionar problemas de clasificación y regresión. Construye árboles de decisión a partir de diferentes muestras y toma su voto mayoritario para decidir la clasificación y el promedio en caso de regresión.
Una de las características más importantes del algoritmo de bosque aleatorio es que puede manejar un conjunto de datos que contenga variables continuas, como en el caso de la regresión, y variables categóricas, como en el caso de la clasificación. Por eso ofrece mejores resultados para problemas de clasificación.
Imagina el siguiente caso: un estudiante X quiere elegir un curso, pero no está seguro de cuál es el que más le conviene teniendo en cuenta sus habilidades y especialidades. Entonces decide consultar a varias personas de su entorno, como sus primos, maestros, padres y compañeros. Les hace preguntas variadas como por qué debería elegir un curso y no otro, qué oportunidades laborales ofrece el curso, precio, etc. Finalmente, después de consultar a varias personas, decide estudiar lo que han sugerido la mayoría de las personas.
Funcionamiento del algoritmo de bosque aleatorio
Antes de comprender el funcionamiento del algoritmo random forest en machine learning, debemos analizar la técnica Ensemble. Ensemble simplemente significa combinar varios modelos. Y lo que quiere decir es que se utiliza una colección de modelos para hacer predicciones en lugar de un modelo individual.
Ensemble utiliza dos tipos de métodos:
Embolsado: crea un subconjunto a partir de datos de muestra con reemplazo y el resultado final se basa en la votación por mayoría. Por ejemplo, random forest.
Impulso (boost): crea modelos secuenciales de modo que el modelo final tenga la mayor precisión. Por ejemplo, AdaBoost, XGBoost.
Como ya hemos mencionado, el algoritmo de bosque aleatorio funciona según el principio de embolsado.
Random Forest: qué es el embolsado
El embolsado, también conocido como Bootstrap Aggregation, elige una muestra aleatoria del conjunto de datos. Cada modelo se entrena de forma independiente, y el resultado final se basa en la votación por mayoría después de combinar los resultados de todos los modelos. Este paso que consiste en combinar todos los resultados y generar resultados basados en la votación por mayoría se conoce como agregación.
Pasos que da el algoritmo de random forest
El algoritmo toma “n” números de registros aleatorios del conjunto de datos.
Se construyen árboles de decisión individuales para cada muestra.
Cada árbol de decisión generará una salida.
El resultado final depende de la mayoría o el promedio para la clasificación y la regresión, respectivamente.
Random forest: ejemplo
Se utiliza mucho en comercio electrónico, banca, medicina, bolsa, etc.
Por ejemplo: en la industria bancaria, se puede usar para encontrar qué cliente no pagará el préstamo y decidir así si el préstamo se concede o no.Este es un caso de analítica predictiva.
Ventajas y desventajas del algoritmo de bosque aleatorio
Ventajas
Se puede utilizar en problemas de clasificación y regresión.
Resuelve el problema del sobreajuste ya que la salida se basa en la votación por mayoría o en el promedio.
Funciona bien incluso si los datos contienen valores nulos/ausentes.
Cada árbol de decisión creado es independiente del otro, por lo que muestra la propiedad de paralelización.
Es altamente estable, ya que se toman las respuestas promedio dadas por una gran cantidad de árboles.
Mantiene la diversidad, ya que no se consideran todos los atributos al tomar cada árbol de decisión.
Es inmune a la maldición de la dimensionalidad. Dado que cada árbol no considera todos los atributos, el espacio de características se reduce.
No tenemos que segregar los datos en entrenar y probar, ya que siempre habrá un 30 % de los datos que no se verán en el árbol de decisión.
Desventajas
El bosque aleatorio es muy complejo en comparación con los árboles de decisión en los que se pueden tomar decisiones siguiendo la ruta del árbol.
El tiempo de entrenamiento es mayor, en comparación con otros modelos, debido a su complejidad. Siempre que tenga que hacer una predicción, cada árbol de decisión ha de generar una salida para los datos.
Conclusión
Random Forest es una de las mejores técnicas de alto rendimiento y es ampliamente utilizada en diversas industrias debido precisamente a esa eficiencia. Puede manejar datos binarios, continuos y categóricos.
El bosque aleatorio es una excelente opción si alguien quiere construir el modelo de manera rápida y eficiente, ya que puede manejar los valores faltantes.
En general, el bosque aleatorio es un modelo rápido, simple, flexible y robusto con algunas limitaciones. Si quieres seguir aprendiendo sobre esta técnica y para qué sirve, te recomendamos que leas este artículo sobre Big Data Analytics.
¿Quién es el Responsable del tratamiento de sus datos?
THREEPOINTS EDUCATION, S.L.U, con CIF B-67187906, será la responsable de los datos
personales facilitados a través de la presente página web, así como de los facilitados
telefónicamente, a través de cualquiera de nuestros formularios en formato papel, de los obtenidos como
consecuencia de la relación que Usted mantenga con nosotros y de los derivados de sus hábitos de navegación
y consumo. Dicha compañía se encuentra ubicada en Av Diagonal, 662, 08034 Barcelona, pudiendo
ponerse en contacto con la misma a través de la dirección electrónica info@inesdi.com.
Igualmente, podrá ponerse en contacto con nuestro Delegado de Protección de Datos mediante escrito
dirigido a dpo@planeta.es o a Grupo Planeta, At.:
Delegado de Protección de Datos, Avda. Diagonal 662-664, 08034 Barcelona.
¿Con qué finalidad tratamos sus datos personales?
THREEPOINTS EDUCATION, S.L.U tratará sus datos personales con el fin de gestionar la relación que Usted
mantiene con nosotros, así como para enviarle comunicaciones comerciales por cualquier vía, incluso
finalizada la relación con usted, para mantenerle informado de aquellos de nuestros productos y servicios
similares a los contratados por Usted.
Asimismo, le informamos que, con el fin de poder ofrecerle productos y servicios de THREEPOINTS
EDUCATION, S.L.U o de terceras empresas adecuados a sus intereses, así como para mejorar su experiencia
de usuario de nuestra página Web, elaboraremos un “perfil comercial” en base tanto a la información
facilitada por usted como a aquella otra derivada de sus hábitos de consumo y navegación y la
obtenida de redes sociales.
Adicionalmente, sus datos personales y perfil comercial serán cedidos al resto de
sociedades del Grupo Planeta para que éstas le remitan comunicaciones comerciales sobre sus propios
productos y servicios o de terceras empresas pertenecientes o ajenas al Grupo Planeta, elaborando para ello,
a su vez, su propio perfil comercial con dichos datos y perfiles, así como con los datos y perfiles de usted
que ya tuviera u obtenga, todo ello, para que dichas comunicaciones sean de su interés por adecuarse a sus
gustos, hábitos de consumo y navegación y preferencias comerciales. Este tratamiento implicará, por tanto,
el cruce de bases de datos de las distintas empresas del Grupo Planeta y enriquecimiento de las
mismas.
Puede consultar el listado de empresas del Grupo Planeta en el siguiente link www.planeta.es. Dichas empresas desarrollan su actividad en
los sectores editorial, formación, cultura, ocio, coleccionismo, textil, seguros privados, gran consumo y
joyería.
En cualquier caso, las terceras empresas ajenas a nuestro grupo de las que, en su caso, le enviaremos
comunicaciones comerciales serán aquellas que desarrollen su actividad en los mismos sectores que las
empresas del Grupo Planeta y que han sido indicados anteriormente, o en los sectores de Telecomunicaciones,
bancario y financiero, viajes, tecnología y actividades jurídicas.
¿Por cuánto tiempo conservaremos sus datos?
Tanto los datos personales proporcionados, como los obtenidos de su navegación y hábitos de consumo,
así como el perfil comercial obtenido se conservarán mientras Usted no solicite su supresión.
¿Cuál es la legitimación para el tratamiento de sus datos?
La base legal para el tratamiento de sus datos personales es la ejecución y mantenimiento de la
relación mantenida con Usted, así como el consentimiento expreso que, en su caso, nos haya facilitado para
los tratamientos adicionales consistentes en el envío de comunicaciones comerciales propias y/o de terceros,
la elaboración de perfiles comerciales y la cesión de dichos datos y perfiles al resto de sociedades del Grupo Planeta
con las finalidades indicadas en el apartado “¿Con qué finalidad tratamos sus datos personales?”
anterior.
Le informamos que los datos personales que se solicitan en el momento de registrarse en la presente
página web, los solicitados telefónicamente o en cualquiera de nuestros formularios en formato papel, son
los estrictamente necesarios para formalizar y gestionar la relación con Usted, de manera que, en caso de no
facilitarlos, no podremos mantener dicha relación. En cualquier caso, dicha finalidad principal no está
supeditada al consentimiento para el tratamiento de los datos que no sean necesarios para dicha actividad
principal.
Como, hemos indicado anteriormente, la oferta prospectiva de productos y servicios propios y/o de
terceros, así como la elaboración de perfiles comerciales y la cesión de dichos perfiles y de sus datos
personales a terceras empresas del Grupo Planeta, son tratamientos adicionales que están basados en el
consentimiento que se le solicita, sin que en ningún caso la retirada de este consentimiento condicione el
mantenimiento de la relación que mantiene con nosotros.
¿A qué destinatarios se comunicarán sus datos?
Únicamente en el caso de que nos dé su consentimiento para ello, sus datos personales y, en su caso, su
perfil comercial, serán comunicados al resto de empresas del Grupo Planeta con las finalidades
indicadas en el punto “¿Con qué finalidad tratamos sus datos personales?”
de la presente política de privacidad. Puede consultar el listado de empresas del Grupo Planeta
en el siguiente link www.planeta.es.
¿Cuáles son sus derechos cuando nos facilita sus datos?
Cualquier persona tiene derecho a obtener confirmación sobre si en THREEPOINTS EDUCATION,
S.L.Uestamos tratando datos personales que les conciernan, o no.
Asimismo, las personas interesadas tienen derecho a acceder a sus datos personales, así como a
solicitar la rectificación de los datos inexactos o, en su caso, solicitar su supresión cuando, entre otros
motivos, los datos ya no sean necesarios para los fines que fueron recogidos.
En determinadas circunstancias, los interesados podrán solicitar la limitación del tratamiento de sus
datos, en cuyo caso únicamente los conservaremos para el ejercicio o la defensa de reclamaciones.
En determinadas circunstancias y por motivos relacionados con su situación particular, los interesados podrán
oponerse al tratamiento de sus datos. THREEPOINTS EDUCATION, S.L.Udejará de tratar los
datos, salvo por motivos legítimos imperiosos, o el ejercicio o la defensa de posibles reclamaciones.
Asimismo, los interesados tienen derecho a recibir, en un formato estructurado, de uso común y lectura
mecánica, los datos personales que le incumban que nos hayan facilitado, y a transmitirlos a otro
responsable.
Los interesados, podrán ejercer dichos derechos y la revocación en cualquier momento de los
consentimientos en su caso prestados, mediante carta dirigida a THREEPOINTS EDUCATION, S.L.U,
Apartado de Correos 221 de Barcelona o remitiendo un email a lopd@threepoints.com. En este sentido, le informamos que tiene a su disposición
modelos de ejercicio de los citados derechos en la página web de la Agencia Española de Protección de Datos
(https://www.aepd.es/reglamento/derechos/index.html).
Cuando el interesado lo
considere oportuno podrá presentar una reclamación ante la Agencia Española de protección de datos,
especialmente cuando aquél considere que no hemos satisfecho debidamente el ejercicio de sus derechos. Dicha
reclamación podrá presentarla ante la citada autoridad mediante las diferentes opciones que la sede
electrónica de la Agencia Española de Protección de datos ofrece.