Taxonomía de las redes neuronales III: funciones de pérdida
En textos anteriores hemos hablado sobre las redes neuronales desde dos puntos de vista que pueden ayudarnos a distinguir entre la inmensa vastedad de las posibilidades que ofrecen estos modelos matemáticos, a saber las capas y la arquitectura de una red.
En esta edición vamos a continuar con la serie: Taxonomía de las redes neuronales. La característica en la que nos concentraremos serán las funciones que nos ayudan a medir el error que comete uno de estos modelos, ya sea durante el proceso de entrenamiento o en la evaluación en algún conjunto de prueba. De manera indistinta las llamaremos funciones de error o de pérdida.
Para simplificar la exposición únicamente presentaremos el cálculo del error en un solo registro, en algunos casos el error en un batch no es únicamente el promedio pero no es lo más común.
Cabe destacar que en la taxonomía por capas y en la que depende de la arquitectura, el énfasis estaba en el conjunto de los datos, ya sea para representar correctamente su geometría o para delimitar el alcance del modelo matemático. Cuando distinguimos a las redes neuronales por medio de su error, no estamos concentrados exactamente en el dataset sino en la métrica con la que hemos decidido evaluarnos. Esta decisión puede estar relacionada con el estado del arte de un problema o una estrategia de negocio.
Con el objetivo de simplificar la presentación vamos a concentrarnos en 5 funciones de error que no agotan las posibilidades sin embargo esperemos que nuestros lectores las encuentren lo suficientemente representativas. Existen muchas otras funciones de pérdida que no trataremos en este texto y las cuales le recomendamos estudiar a nuestros lectores, por ejemplo la medida de Kullback-Leiebler.
Además de presentar la fórmula matemática de la función de error vamos a sugerir un problema industrial en el que comúnmente se podría utilizar esta métrica durante el análisis de resultados.
Error cuadrático
Es la métrica comúnmente utilizada para problemas de regresión, se caracteriza por concentrarse en las distancias al cuadrado entre dos valores numéricos, la primera razón por la cual se consideran valores al cuadrado es para eliminar la posibilidad de que errores grandes negativos se anulen con errores grandes positivos.
Para entender mejor sobre cuál es la razón principal tendríamos que hablar sobre las técnicas del cálculo diferencial durante el entrenamiento de las redes.
Error del coseno
En algunos casos no será suficiente con calcular el error entre dos números, pensemos por ejemplo cuando la variable objetivo es más rica en estructura como las respuestas de un LLM a un prompt, en estos casos nos gustaría poder comparar dos vectores en lugar de comparar únicamente dos números.
El error del coseno compara la relación lineal que existe coordenada a coordenada la cual coincide con el ángulo entre los dos vectores.
Error de entropía cruzada
Cuando el tipo de variable que deseamos predecir es parecida a una categórica, así como en el caso de los textos, podría ser necesario utilizar métricas que se generalicen mejor para vectores, distintas clases como lo es la entropía cruzada.
La motivación de esta función de pérdida proviene del estudio de la información desde un punto de vista matemático el cual fue iniciado por Shannon.
Error hinge
Durante el algoritmo de entrenamiento también podríamos intentar mejorar algo respecto al desempeño del modelo, uno de los principales problemas de los modelos de machine learning es el del sobre-ajuste, utilizando la función de pérdida de hinge es posible intentar reducir el sobre-ajuste de un modelo.
Esta función de pérdida es muy importante para las máquinas de soporte vectorial de las que ya hemos platicado anteriormente.
Error disperso
En las redes neuronales profundas la sobre parametrización de un modelo puede tener graves consecuencias tanto para el proceso computacional como para la aproximación estadística de un buen desempeño del modelo. En algunos casos es posible incluir ciertas hipótesis sobre la naturaleza de nuestros datos, por ejemplo si son dispersos.
Esta es solo una de las posibilidades pues existen otras funciones que hacen algo muy parecido.
Oferta académica
- Track de Ciencia de Datos. (49 semanas).
- Machine Learning & AI for the Working Analyst ( 12 semanas).
- Matemáticas para Ciencia de Datos ( 24 semanas).
- Especialización en Deep Learning. (12 semanas).
- Track de Finanzas Cuantitativas (49 semanas)
- Aplicaciones Financieras De Machine Learning E IA ( 12 semanas).
- Las matemáticas de los mercados financieros (24 semanas).
- Deep Learning for Finance (12 semanas).