El nuevo modelo de análisis predictivo que todos los pronosticadores deberían usar

Al pasar del modelado tradicional de series de tiempo al análisis predictivo, uno de los aspectos clave es el uso de varias entradas causales en sus predicciones. No solo se basa en los datos de envío internos o el historial de pedidos, sino que también tiene en cuenta factores externos y muchas variables que pintan una imagen más completa.

Saber cómo incorporar estos nuevos datos y cuál puede ser desalentador y difícil, pero si se hace bien, es beneficioso y rentable.

Uno de los modelos nuevos más importantes que he visto en un tiempo es ayudar a cerrar la brecha entre los datos y las perspectivas, y transformar múltiples entradas en salidas valiosas y predecibles. Es un modelo poderoso que incluso los pronosticadores y científicos de datos sin experiencia pueden usar. Con esta nueva metodología, es casi seguro que tendrá las expectativas más altas de ajuste o r-cuadrado con poco esfuerzo o atención. Esta es una breve introducción a este nuevo método.

Se llama regresión imaginaria automática con un proceso de predicción lineal integrado y un estimador cuadrado normal más pequeño.

Aunque el nombre del modelo es largo (estoy seguro de que eventualmente encontrarán un buen acrónimo), el nombre realmente resalta exactamente lo que hace. Imagine un escenario en el que tiene muchas variables de predicción, o ni siquiera sabe qué variables hay y no está seguro de cómo incluirlas. Debido a que hay tantas variables de predicción, es posible que necesite ayuda para crear un buen modelo automáticamente. Lo hará experimentando y probando muchas variables ficticias durante las fases exploratorias y construyendo predicciones de regresión basadas en mínimos cuadrados normales para encontrar el mejor ajuste.

La forma en que esto se logra es mediante el uso de un tipo de regresión incremental que selecciona automáticamente un modelo, agregando o eliminando predictores individuales reales e imaginarios, un paso a la vez en función de su significación estadística. El resultado final de este proceso es un modelo de degradado único, que lo hace hermoso y simple. Lo que hace que este modelo sea tan especial es que cada vez que el modelo agrega o elimina predictores basados en una prueba estadística, también invoca un grado de libertad imaginario porque está aprendiendo algo de su conjunto de datos, pero no aparece como un grado de libertad. .

Estos grados de libertad fantasma no afectarán el número de sus observaciones por calificación de parámetro ni afectarán el R-cuadrado predicho. En cambio, permite que el modelo ejecute muchas pruebas estadísticas y pruebe muchos modelos basados en variables reales e imaginarias hasta que encuentre una combinación que parezca importante y le proporcione el cuadrado más alto.

Ahora hay serias preocupaciones y advertencias sobre este nuevo modelo revolucionario. Primero, al probar muchos modelos y variables diferentes, seguramente encontrará uno que se ajuste mejor a los datos pero que no se ajuste a la realidad. En segundo lugar, no existe una fórmula mágica cuando se trata de construir un modelo. Y tercero, si bien hay componentes reales y útiles, en realidad no conozco ninguna regresión fantasma automática con el proceso de predicción lineal integrado y el modelo de estimación de cuadrados por debajo de lo habitual, o, como se le conoce para abreviar, ¡APRILFOOLS!

Lecciones para aprender

Está entrenando un modelo, no enseñándole a guardar sus datos

Puede aprender mucho al experimentar con diferentes variables y al incorporar múltiples conjuntos de datos en su proceso de pronóstico. Pero ten cuidado. Cuando se utilizan modelos de regresión, el grado de libertad es una medida de cuánto ha aprendido. Su modelo usa estos grados de libertad para cada variable que estima. Si usa mucho, está preparado con el formulario. La conclusión es que los coeficientes de regresión, los valores p y los valores R cuadrado pueden ser engañosos y, aunque el modelo se ajusta a los datos, no funciona como una predicción útil.

Antes de arrojar datos sobre cada predictor potencial bajo el sol en su modelo de regresión, recuerde que puede que no lo mejore. Con la regresión, como con muchas cosas en la vida, llega un punto en el que agregar más simplemente no es mejor. De hecho, a veces agregar más factores al modelo de regresión no solo no aclara las cosas, ¡también hace que las cosas sean mucho más difíciles de entender!

No existe un modelo perfecto

Sí, necesitamos comenzar urgentemente a analizar varios insumos para mejorar nuestras expectativas. Todavía hay espacio para realizar una investigación previa sobre variables importantes y sus relaciones para ayudarlo a determinar el mejor modelo. Cuando utilice nuevas variables, recopile un tamaño de muestra lo suficientemente grande como para admitir el nivel de complejidad del modelo que necesita. Evite la minería de datos para qué quizás Trabaje y controle cuántos grados de libertad ilusorios aumenta antes de llegar a su modelo final.

No me importa si usa el modelo de serie de tiempo tradicional o el algoritmo complejo de aprendizaje automático, cuando escuche las palabras «mejor elección», tenga cuidado. Si evalúa su modelo con los mismos datos que utilizó para entrenarlo, es muy fácil que su modelo tenga un ajuste adicional. Para ayudar a evitar esto, establezca tiempos de espera de su conjunto de datos de prueba o de series de tiempo. Esto es parte del conjunto de datos general que usted deja de lado y utiliza para proporcionar una evaluación imparcial de la idoneidad del modelo final antes de que se ponga en producción.

Por último, si el modelo parece demasiado bueno para ser verdad y es demasiado sofisticado para comprenderlo por completo, es posible que no sea la plantilla adecuada. No hay sustituto para la experiencia, el conocimiento y el aprendizaje de lo que es correcto para su proceso de predicción.

Para obtener más información sobre cómo elegir el modelo de predicción correcto, haga clic en Aquí. En su lugar, compre una copia de mi nuevo libro, Análisis predictivo para la previsión empresarial.

Para obtener información sobre los verdaderos modelos de análisis predictivo que definen relaciones simbióticas significativas en sus datos, visite IBF Conferencia de planificación, pronóstico y análisis empresarial predictivo Del 20 al 22 de abril de 2021.