Le modèle bat les analystes de Wall Street dans la prévision des résultats financiers des entreprises
Connaître les ventes réelles d’une entreprise peut aider à déterminer sa valeur. Les investisseurs, par exemple, emploient souvent des analystes financiers pour prévoir les bénéfices à venir d’une entreprise en utilisant diverses données publiques, des outils de calcul et leur propre intuition. Les chercheurs du MIT ont maintenant mis au point un modèle automatisé qui surpasse considérablement les humains pour ce qui est de la prévision des ventes commerciales à l’aide de données très limitées et » bruyantes « .
En finance, on s’intéresse de plus en plus à l’utilisation de données de consommation imprécises mais fréquemment générées – appelées » données alternatives » – pour aider à prévoir les bénéfices d’une entreprise à des fins de négociation et d’investissement. Les données alternatives peuvent comprendre les achats par carte de crédit, les données de localisation des téléphones intelligents ou même les images satellites montrant combien de voitures sont garées dans le parking d’un détaillant. La combinaison de données de rechange avec des données financières plus traditionnelles mais peu fréquentes – comme les bénéfices trimestriels, les communiqués de presse et les cours des actions – peut donner une image plus claire de la santé financière d’une entreprise, même sur une base quotidienne ou hebdomadaire.
Mais, jusqu’à présent, il a été très difficile d’obtenir des estimations précises et fréquentes en utilisant d’autres données. Dans un article publié cette semaine dans le Actes de la conférence ACM SigmetricsLes chercheurs décrivent un modèle de prévision financière qui n’utilise que les transactions hebdomadaires anonymes par carte de crédit et les rapports sur les gains sur trois mois.
Chargé de prévoir les bénéfices trimestriels de plus de 30 sociétés, le modèle a surpassé les estimations combinées des analystes experts de Wall Street sur 57 pour cent des prévisions. Notamment, les analystes avaient accès à toutes les données privées ou publiques disponibles et à d’autres modèles d’apprentissage automatique, tandis que le modèle des chercheurs utilisait un très petit ensemble de données des deux types de données.
» Les données alternatives sont ces étranges signaux de substitution qui aident à suivre les finances sous-jacentes d’une entreprise « , explique le premier auteur Michael Fleder, un post-doctorant du Laboratoire des systèmes d’information et de décision (LIDS). Nous avons demandé : « Pouvez-vous combiner ces signaux bruyants avec les chiffres trimestriels pour estimer les véritables finances d’une société à haute fréquence ? Il s’avère que la réponse est oui. »
Le modèle pourrait donner un avantage aux investisseurs, aux négociateurs ou aux entreprises qui cherchent à comparer fréquemment leurs ventes avec celles de leurs concurrents. Au-delà de la finance, le modèle pourrait aider les chercheurs en sciences sociales et politiques, par exemple, à étudier des données agrégées et anonymes sur le comportement du public. « Ce sera utile à tous ceux qui veulent savoir ce que font les gens », dit Fleder.
Le professeur Devavrat Shah de l’EECS, directeur du Centre des statistiques et des sciences des données du MIT, membre du Laboratoire des systèmes d’information et de décision, chercheur principal à l’Institut des fondements des sciences des données du MIT et professeur adjoint à l’Institut de recherche fondamentale Tata, se joint à M. Fleder pour cet article.
S’attaquer au problème des » petites données
Pour le meilleur ou pour le pire, beaucoup de données sur les consommateurs sont à vendre. Les détaillants, par exemple, peuvent acheter des transactions par carte de crédit ou des données d’emplacement pour voir combien de personnes font leurs achats chez un concurrent. Les annonceurs peuvent utiliser les données pour voir comment leurs annonces ont un impact sur les ventes. Mais l’obtention de ces réponses dépend encore principalement des humains. Aucun modèle d’apprentissage par machine n’a été en mesure de réduire suffisamment les chiffres.
Contre toute attente, le problème est en fait le manque de données. Chaque donnée financière, comme un rapport trimestriel ou un total hebdomadaire de cartes de crédit, n’est qu’un seul chiffre. Les rapports trimestriels sur deux ans ne totalisent que huit points de données. Les données des cartes de crédit pour, disons, chaque semaine pendant la même période ne représentent qu’environ 100 autres points de données » bruyants « , ce qui signifie qu’elles contiennent des informations potentiellement ininterprétables.
Nous avons un problème de » petites données « , dit M. Fleder. « Vous n’obtenez qu’une infime partie de ce que les gens dépensent et vous devez extrapoler et déduire ce qui se passe vraiment à partir de cette fraction de données. »
Pour leur travail, les chercheurs ont obtenu d’un fonds de couverture les transactions par carte de crédit des consommateurs – généralement à des intervalles hebdomadaires et bihebdomadaires – et les rapports trimestriels de 34 détaillants de 2015 à 2018. Dans l’ensemble des entreprises, elles ont recueilli au total 306 trimestres de données.
Le calcul des ventes quotidiennes est assez simple dans son concept. Le modèle suppose que les ventes quotidiennes d’une entreprise restent similaires, ne diminuant ou n’augmentant que légèrement d’un jour à l’autre. Mathématiquement, cela signifie que les valeurs des ventes pour des jours consécutifs sont multipliées par une valeur constante plus une valeur de bruit statistique – qui saisit une partie du caractère aléatoire inhérent aux ventes d’une entreprise. Les ventes de demain, par exemple, sont égales aux ventes d’aujourd’hui multipliées par, disons, 0,998 ou 1,01, plus le nombre estimé pour le bruit.
Si l’on donne des paramètres de modèle précis pour la constante quotidienne et le niveau de bruit, un algorithme d’inférence standard peut calculer cette équation pour produire une prévision précise des ventes quotidiennes. Mais l’astuce consiste à calculer ces paramètres.
Démêler les chiffres
C’est là que les rapports trimestriels et les techniques de probabilité sont utiles. Dans un monde simple, un rapport trimestriel pourrait être divisé par, disons, 90 jours pour calculer les ventes quotidiennes (ce qui implique que les ventes sont à peu près constantes au jour le jour). En réalité, les ventes varient d’un jour à l’autre. De plus, l’inclusion de données alternatives pour aider à comprendre comment les ventes varient sur un trimestre complique les choses : En plus d’être bruyantes, les données des cartes de crédit achetées représentent toujours une fraction indéterminée du total des ventes. Il est donc très difficile de savoir comment les totaux des cartes de crédit entrent en ligne de compte dans l’estimation globale des ventes.
« Cela nécessite un peu de démêler les chiffres », dit Fleder. » Si nous observons 1 % des ventes hebdomadaires d’une entreprise par le biais des transactions par carte de crédit, comment savons-nous que c’est 1 % ? Et, si les données de la carte de crédit sont bruyantes, comment savez-vous à quel point elles le sont ? Nous n’avons pas accès à la vérité de terrain pour les totaux des ventes quotidiennes ou hebdomadaires. Mais les agrégats trimestriels nous aident à raisonner sur ces totaux. »
Pour ce faire, les chercheurs utilisent une variante de l’algorithme d’inférence standard, appelée filtrage de Kalman ou propagation des croyances, qui a été utilisée dans diverses technologies allant des navettes spatiales au GPS pour téléphone intelligent. Le filtrage de Kalman utilise des mesures de données observées au fil du temps, contenant des inexactitudes sur le bruit, pour générer une distribution de probabilité pour des variables inconnues sur une période désignée. Dans le travail des chercheurs, cela signifie estimer les ventes possibles d’une seule journée.
Pour former le modèle, la technique consiste d’abord à décomposer les ventes trimestrielles en un nombre de jours mesurés, disons 90 – ce qui permet de faire varier les ventes au jour le jour. Ensuite, il fait correspondre les données observées et bruyantes des cartes de crédit à des ventes quotidiennes inconnues. En utilisant les chiffres trimestriels et une certaine extrapolation, il estime la fraction des ventes totales que les données sur les cartes de crédit représentent probablement. Ensuite, il calcule la fraction des ventes observées chaque jour, le niveau de bruit et une estimation de l’erreur de ses prédictions.
L’algorithme d’inférence intègre toutes ces valeurs dans la formule pour prédire les totaux des ventes quotidiennes. Ensuite, il peut additionner ces totaux pour obtenir des chiffres hebdomadaires, mensuels ou trimestriels. Sur l’ensemble des 34 sociétés, le modèle a battu un consensus de référence – qui combine les estimations des analystes de Wall Street – sur 57,2 % des 306 prévisions trimestrielles.
Ensuite, les chercheurs conçoivent le modèle pour analyser une combinaison de transactions par carte de crédit et d’autres données de rechange, comme l’information sur l’emplacement. « Ce n’est pas tout ce qu’on peut faire. Ce n’est qu’un point de départ naturel « , dit M. Fleder.