Qué son los métodos de ensamble?
No hay un ganador absoluto; depende de los datos, la simulación y las circunstancias.
El “embolsado” Bootstrap agregattion(Bagging) y el “aumento” impulsar/propulsar (Boosting) reducen la varianza de su estimación única, ya que combinan varias estimaciones de diferentes modelos. Así que el resultado puede ser un modelo con mayor estabilidad.
Si el problema es que el modelo único obtiene un rendimiento muy bajo, Rara vez el embolsado obtendrá un mejor sesgo. Sin embargo, Boosting podría generar un modelo combinado con menos errores ya que optimiza las ventajas y reduce las dificultades del modelo único.
Por el contrario, si la dificultad del modelo único es el ajuste excesivo, entonces el Bagging es la mejor opción. El refuerzo por su parte no ayuda a evitar el sobreajuste; de hecho, esta técnica se enfrenta a este problema en sí. Por esta razón, el Embolsado es efectivo con más frecuencia que el Impulso.
Similitudes y Diferencias
Ambos son métodos conjuntos para obtener N alumnos de 1 alumno... pero, si bien se construyen de forma independiente para Bagging, Boosting intenta agregar nuevos modelos que funcionan bien donde fallan los modelos anteriores.
Ambos generan varios conjuntos de datos de entrenamiento por muestreo aleatorio... pero solo Boosting determina los pesos de los datos para inclinar la balanza a favor de los casos más difíciles.
Ambos toman la decisión final promediando los N alumnos (o tomando la mayoría de ellos) pero es un promedio igualmente ponderado para Bagging y un promedio ponderado para Boosting, más peso para aquellos con un mejor rendimiento en los datos de entrenamiento.
Ambos son buenos para reducir la varianza y proporcionan una mayor estabilidad... pero solo Boosting intenta reducir el sesgo. Por otro lado, el embolsado puede resolver el problema de sobreajuste.
Bagging: Qué tal si en lugar de depender de la opinión de un solo "experto" consultamos la opinión de varios expertos en paralelo e intentamos
lograr un consenso?
Modelos Ensamblados basados en Bagging:
• Random Forest.
• Voting Classifiers/Regressors.
• En general se puede aplicar sobre cualquier
familia de modelos de Machine Learning.
Boosting:
• Es un método secuencial.
• Busca fortalecer gradualmente un modelo de aprendizaje usando siempre el error residual
de las etapas anteriores.
• El resultado final también se consigue por consenso entre
todos los modelos.