Diferencia entre el sesgo de aprendizaje automático y la varianza
- 4747
- 640
- Benjamín Urrutia
Vivimos en un mundo donde los algoritmos están en todas partes y muchos de nosotros los usamos, tal vez incluso sin darse cuenta de que un algoritmo está involucrado. Para resolver un problema en una computadora, necesitamos un algoritmo. El aprendizaje automático depende de varios algoritmos para convertir los conjuntos de datos en modelos. El sesgo y la varianza son los dos conceptos fundamentales para el aprendizaje automático. Es importante comprender los dos cuando se trata de precisión en cualquier algoritmo de aprendizaje automático.
Que es el sesgo?
El error de predicción para cualquier algoritmo de aprendizaje automático se puede descomponer en tres partes: error de sesgo, error de varianza y error irreducible. El sesgo es un fenómeno que ocurre en el modelo de aprendizaje automático debido a supuestos incorrectos en el proceso de aprendizaje automático. El sesgo es como un error sistemático que ocurre cuando un algoritmo produce resultados que están sistemáticamente sesgados debido a algunos supuestos incorrectos en el proceso de aprendizaje automático. Son suposiciones hechas por un modelo para facilitar la función.
El sesgo alto significa que el error en el entrenamiento y los datos de prueba es mayor. Siempre se recomienda que un algoritmo esté bajo sesgado para evitar el problema de la falta. Supongamos que ha recogido un modelo que no puede derivar ni siquiera los patrones esenciales del conjunto de datos; esto se llama desordenado. Entonces, en pocas palabras, el sesgo ocurre en una situación en la que ha usado un algoritmo y no se ajusta correctamente.
Que es la varianza?
La varianza es el cambio en la precisión de la predicción del aprendizaje automático entre los datos de capacitación y los datos de prueba. Si la variación en el conjunto de datos genera un cambio en el rendimiento del modelo, se denomina error de varianza. Es la cantidad que cambiará la estimación de la función de destino si se utilizaron diferentes datos de entrenamiento. La función objetivo se supone a partir de los datos de capacitación mediante un algoritmo de aprendizaje automático, por lo que se espera alguna variación en el algoritmo.
La varianza depende de un solo conjunto de entrenamiento y determina la inconsistencia de diferentes predicciones utilizando diferentes conjuntos de entrenamiento. La baja varianza sugiere pequeños cambios en la estimación de la función objetivo con cambios en el conjunto de datos de entrenamiento, mientras que la alta varianza sugiere grandes cambios en la estimación de la función objetivo con cambios en el conjunto de datos de entrenamiento. Los algoritmos de aprendizaje automático con alta varianza están fuertemente influenciados por los detalles de los datos de entrenamiento.
Diferencia entre el sesgo y la varianza
Significado
- El sesgo es un fenómeno que ocurre en el modelo de aprendizaje automático en el que ha utilizado un algoritmo y no se ajusta correctamente. Esto significa que esa es la función utilizada aquí es de poca relevancia para el escenario y no puede extraer los patrones correctos. La varianza, por otro lado, especifica la cantidad de variación que la estimación de la función de destino cambiará si se usaron diferentes datos de entrenamiento. Dice acerca de cuánto se parece una variable aleatoria de su valor esperado.
Guión
- El sesgo es la diferencia entre los valores predichos y los valores reales. El bajo sesgo sugiere menos suposiciones sobre la forma de la función objetivo, mientras que el sesgo alto sugiere más suposiciones sobre la forma de la función objetivo. La instancia en la que el modelo no puede encontrar patrones en el conjunto de entrenamiento se denomina insuficiencia de. La varianza es cuando el modelo tiene en cuenta las fluctuaciones en los datos. El modelo funciona bien en los datos de las pruebas y obtiene una alta precisión, pero no funciona en datos nuevos e invisibles.
Sesgo de aprendizaje automático vs. Varianza: cuadro de comparación
Inclinación | Diferencia |
El sesgo es un fenómeno que ocurre en el modelo de aprendizaje automático en el que se usa un algoritmo y no se ajusta correctamente. | La varianza especifica la cantidad de variación que la estimación de la función de destino cambiará si se utilizaron diferentes datos de entrenamiento. |
El sesgo se refiere a la diferencia entre los valores predichos y los valores reales. | La varianza dice sobre cuánto se desea una variable aleatoria de su valor esperado. |
El modelo no puede encontrar patrones en el conjunto de datos de capacitación y falla para datos vistos e invisibles. | El modelo encuentra la mayoría de los patrones en el conjunto de datos e incluso aprende de los datos innecesarios o el ruido. |
Resumen
Cualquiera que sea el modelo que tenga, debe ser un equilibrio perfecto entre el sesgo y la varianza. El objetivo de cualquier algoritmo de aprendizaje automático supervisado es lograr un bajo sesgo y baja varianza. Sin embargo, este escenario no es posible porque ambos están inversamente conectados entre sí y es prácticamente imposible tener un modelo de aprendizaje automático con un sesgo bajo y una varianza baja. A diferencia del sesgo, la varianza es cuando el modelo tiene en cuenta las fluctuaciones en los datos e incluso el ruido. Si intenta alterar el algoritmo para adaptarse mejor a un conjunto de datos dado, puede convertirse en un sesgo bajo, pero aumentará la varianza.
¿Qué es el sesgo y la variación con el ejemplo??
El sesgo en el aprendizaje automático es un fenómeno que ocurre cuando se usa un algoritmo y no se ajusta correctamente. Algunos ejemplos de sesgo incluyen sesgo de confirmación, sesgo de estabilidad y sesgo de disponibilidad. Los algoritmos ML con baja varianza incluyen regresión lineal, regresión logística y análisis discriminante lineal.
¿Cuáles son los 3 tipos de sesgo de aprendizaje automático??
Tres tipos de sesgo son el sesgo de información, el sesgo de selección y la confusión.
¿Cómo puede el aprendizaje automático reducir el sesgo y la varianza??
Es imposible tener un modelo de aprendizaje automático con un sesgo bajo y una varianza baja. Para minimizar el sesgo en el aprendizaje automático, puede elegir el modelo de aprendizaje correcto o usar el conjunto de datos de capacitación correcto.
¿Cuáles son los cuatro tipos de sesgo en el aprendizaje automático??
Cuatro tipos de sesgo incluyen sesgo de selección, valores atípicos, sesgo de medición, sesgo de recuperación y más.