Rejoignez-Nous sur

Le défi du surajustement dans l'analyse de la chaîne de blocs

sfbf3as6

News

Le défi du surajustement dans l'analyse de la chaîne de blocs

sfbf3as6

Les modèles d'apprentissage automatique ont tendance à sur-équiper lorsqu'ils sont utilisés avec des ensembles de données blockchain. Qu'est-ce que le sur-ajustement et comment y remédier?

L'idée d'utiliser l'apprentissage automatique pour analyser les ensembles de données de la chaîne de blocs semble incroyablement attrayante à première vue, mais c'est une route pleine de défis. Parmi ces défis, le manque d'ensembles de données étiquetés reste de loin le plus grand obstacle à surmonter lors de l'application de méthodes d'apprentissage automatique aux ensembles de données de la chaîne de blocs.

Ces limitations font que de nombreux modèles d'apprentissage automatique fonctionnent avec de très petits échantillons de données pour la formation et la sur-optimisation pour ceux qui provoquent un phénomène appelé surapprentissage. Aujourd'hui, je voudrais approfondir le défi du surajustement dans l'analyse de la blockchain et proposer quelques idées pour y remédier.

Le sur-ajustement est considéré comme l'un des plus grands défis des applications modernes d'apprentissage en profondeur. Sur le plan conceptuel, le surajustement se produit lorsqu'un modèle génère une hypothèse trop adaptée à un ensemble de données spécifique pour les données, ce qui rend impossible l'adaptation à de nouveaux ensembles de données.

Une analogie utile pour comprendre le surajustement est de le considérer comme des hallucinations dans le modèle. Essentiellement, un modèle hallucine / s'ajuste lorsqu'il déduit une hypothèse incorrecte à partir d'un ensemble de données.

Beaucoup de choses ont été écrites sur le surapprentissage depuis les premiers jours de l'apprentissage automatique, donc je ne présumerai pas avoir des moyens intelligents pour l'expliquer. Dans le cas des ensembles de données blockchain, le sur-ajustement est le résultat direct du manque de données étiquetées.

Les blockchains sont de grandes structures de données semi-anonymes dans lesquelles tout est représenté à l'aide d'un ensemble commun de constructions telles que les transactions, les adresses et les blocs.

De ce point de vue, il existe des informations minimales qui qualifient un enregistrement de chaîne de blocs. C’est une transaction, un virement ou un paiement? c'est une adresse d'un portefeuille d'investisseur individuel ou un portefeuille froid d'une bourse? Ces qualificatifs sont essentiels pour le modèle d'apprentissage automatique.

Imaginez que nous créons un modèle pour détecter l'adresse d'échange dans un ensemble de chaînes de blocs. Ce processus nous oblige à former le modèle avec un ensemble de données existant d'adresses de blockchain et nous savons tous que celles-ci ne sont pas très courantes. Si nous utilisons un petit ensemble de données d'EtherScan ou d'une autre source, le modèle est susceptible de s'ajuster et de faire des classifications erronées.

L'un des aspects qui rend le surapprentissage si difficile est qu'il est difficile de généraliser à travers différentes techniques d'apprentissage en profondeur. Les réseaux de neurones convolutifs ont tendance à développer des schémas de surapprentissage qui sont différents de ceux observés, les réseaux de neurones récurrents qui sont différents des modèles génératifs et ce schéma peut être extrapolé à n'importe quelle classe de modèles d'apprentissage profond.

Ironiquement, la propension à sur-ajuster a augmenté linéairement avec la capacité de calcul des modèles d'apprentissage en profondeur. Étant donné que les agents d'apprentissage en profondeur peuvent générer des hypothèses complexes à peu de frais, la propension à sur-ajuster augmente.

Le sur-ajustement est un défi constant dans les modèles d'apprentissage automatique, mais c'est presque une donnée lorsque vous travaillez avec des ensembles de données blockchain. La réponse évidente pour lutter contre le surajustement est d'utiliser des ensembles de données d'entraînement plus volumineux, mais ce n'est pas toujours une option. À IntoTheBlock, nous rencontrons régulièrement des défis de surajustement et nous comptons sur une série de recettes de base pour y répondre.

Trois stratégies simples pour lutter contre le sur-ajustement dans les ensembles de données Blockchain

La première règle pour lutter contre le surajustement est de le reconnaître. Bien qu'il n'y ait pas de balles d'argent pour empêcher le sur-ajustement, l'expérience pratique a montré des règles simples, presque de bon sens, qui aident à prévenir ce phénomène dans les applications d'apprentissage en profondeur.

Parmi les dizaines de meilleures pratiques publiées pour éviter le sur-ajustement, trois idées fondamentales englobent la plupart d'entre elles.

Le rapport données / hypothèses

Le sur-ajustement se produit généralement lorsqu'un modèle produit trop d'hypothèses sans les données correspondantes pour les valider. Par conséquent, les applications d'apprentissage en profondeur devraient essayer de maintenir un rapport décent entre les jeux de données de test et l'hypothèse qui devrait être évaluée. Cependant, ce n'est pas toujours une option.

Il existe de nombreux algorithmes d'apprentissage en profondeur tels que l'apprentissage inductif qui reposent sur la génération constante d'hypothèses nouvelles et parfois plus complexes. Dans ces scénarios, il existe certaines techniques statistiques qui peuvent aider à estimer le nombre correct d'hypothèses nécessaires pour optimiser les chances d'en trouver une proche de la bonne.

Bien que cette approche ne fournisse pas de réponse exacte, elle peut aider à maintenir un rapport statistiquement équilibré entre le nombre d'hypothèses et la composition de l'ensemble de données. Le professeur de Harvard Leslie Valiant explique avec brio ce concept dans son livre Probablement approximativement correct.
40ymA95p0lcRGbZcoWg7Dwyzpw62 j623ail

Le rapport données / hypothèses est très visible en matière d'analyse de blockchain. Imaginons que nous construisons un algorithme de prédiction basé sur une année de transactions blockchain.

Parce que nous ne savons pas quel modèle d'apprentissage automatique à tester, nous utilisons une approche de recherche d'architecture neuronale (NAS) qui teste des centaines de modèles par rapport à l'ensemble de données de la chaîne de blocs.

Étant donné que l'ensemble de données ne contient qu'une année de transactions, la méthode NAS est susceptible de produire un modèle qui est complètement sur-adapté pour l'ensemble de données de formation.

Favoriser des hypothèses plus simples

Une idée conceptuellement triviale mais techniquement difficile d'empêcher le sur-ajustement dans les modèles d'apprentissage profond est de générer en permanence une hypothèse plus simple. Bien sûr! Simple, c'est toujours mieux n'est-ce pas?

Mais quelle est une hypothèse plus simple dans le contexte des algorithmes d'apprentissage profond? Si nous devons le réduire à un facteur quantitatif, je dirais que le nombre d'attributs dans une hypothèse d'apprentissage profond est directement proportionnel à sa complexité.

Les hypothèses plus simples ont tendance à être plus faciles à évaluer que d'autres avec un grand nombre d'attributs à la fois sur le plan informatique et cognitif.

En conséquence, les modèles plus simples sont généralement moins rapides à sur-équiper que les modèles complexes. Génial! maintenant, le prochain casse-tête évident est de trouver comment générer une hypothèse plus simple dans les modèles d'apprentissage en profondeur.

Une technique non aussi évidente consiste à associer une forme de pénalité à un algorithme en fonction de sa complexité estimée. Ce mécanisme tend à privilégier des hypothèses plus simples et plus précises que des hypothèses plus complexes et parfois plus précises qui pourraient se désagréger lorsque de nouveaux ensembles de données apparaissent.

40ymA95p0lcRGbZcoWg7Dwyzpw62 r93d3a56

Pour expliquer cette idée dans le contexte de l'analyse de la blockchain, imaginons que nous construisons un modèle de classification des transactions de paiement dans la blockchain.

Le modèle utilise un réseau neuronal profond complexe qui génère 1 000 entités pour effectuer la classification. Si vous appliquez à une blockchain plus petite telle que Dash ou Litecoin, ce modèle est très susceptible de s'adapter.

L'équilibre biais / écart

Le biais et la variance sont deux estimateurs clés dans les modèles d'apprentissage profond. Conceptuellement, le biais est la différence entre la prédiction moyenne de notre modèle et la valeur correcte que nous essayons de prédire. Un modèle avec un biais élevé accorde très peu d'attention aux données d'entraînement et simplifie à l'excès le modèle. Cela conduit toujours à une erreur élevée sur les données de formation et de test.

Alternativement, la variance fait référence à la variabilité de la prédiction du modèle pour un point de données donné ou une valeur qui nous indique la propagation de nos données. Un modèle avec une grande variance accorde beaucoup d'attention aux données de formation et ne généralise pas sur les données qu'il n'a jamais vues auparavant. En conséquence, ces modèles fonctionnent très bien sur les données d'entraînement, mais présentent des taux d'erreur élevés sur les données de test.

Comment le biais et la variance sont-ils liés au sur-ajustement? En termes super simples, l'art de la généralisation peut être résumé en réduisant le biais d'un modèle sans augmenter sa variance.

Une bonne pratique en apprentissage profond permet de comparer régulièrement l'hypothèse produite avec les jeux de données de test et d'évaluer les résultats. Si l'hypothèse continue de produire les mêmes erreurs, alors nous avons un gros problème de biais et nous devons modifier ou remplacer l'algorithme. Si à la place il n'y a pas de schéma clair des erreurs, le problème est la variance et nous avons besoin de plus de données. En résumé:

  • Tout modèle de faible complexité sera sujet à un sous-ajustement en raison d'un biais élevé et d'une faible variance.
  • Tout modèle de haute complexité (réseaux de neurones profonds) – sera sujet à un sur-ajustement en raison d'un faible biais et d'une grande variance.
  • 40ymA95p0lcRGbZcoWg7Dwyzpw62 qb453afg

Dans le cadre de l'analyse blockchain, la friction biais-variance est présente partout. Revenons à notre algorithme qui tente de prédire le prix avec un certain nombre de facteurs blockchain. Si nous utilisons une méthode de régression linéaire simple, le modèle est susceptible de sous-adapter. Cependant, si nous utilisons un réseau neuronal super complexe avec un petit ensemble de données, le modèle est susceptible de s'adapter.

L'utilisation de l'apprentissage automatique pour analyser les données de la chaîne de blocs est un espace très naissant. En conséquence, la plupart des modèles rencontrent les défis traditionnels des applications d'apprentissage automatique.

Le sur-ajustement est l'un de ces défis omniprésents dans l'analyse de la blockchain, essentiellement en raison du manque de données étiquetées et de modèles formés. Il n'y a pas de solution magique pour lutter contre le surajustement, mais certains des principes énoncés dans cet article se sont révélés efficaces pour nous à IntoTheBlock.

(Avertissement: L'auteur est le CTO chez IntoTheBlock)



Traduction de l’article de Jesus Rodriguez : Article Original

BlockBlog

Le Meilleur de l'Actualité Blockchain Francophone & Internationale | News, Guides, Avis & Tutoriels pour s'informer et démarrer facilement avec Bitcoin, les Crypto-Monnaies et le Blockchain. En Savoir Plus sur L'Équipe BlockBlog

Commenter cet Article

Commenter cet Article

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Plus dans News

Les Plus Populaires

Acheter des Bitcoin

Acheter des Alt-Coins

Sécuriser vos Cryptos

Vêtements et Produits Dérivés

Top
ut ut eget diam lectus et, libero ante.