Analyse régressive à partir du corpus de Barbey d'Aurevilly

Ce projet préparé par une longue collaboration de dix ans entre le CELLF (Paris Sorbonne) et feu le LDI Cergy-Pontoise vise à renforcer la collaboration de ces deux partenaires. Le module proposé ici, qui s'intégrera dans une longue chaîne de traitement portée par différents chercheurs à travers le monde dans le cadre de prada,  voudrait contribuer par une analyse régressive sur le style de Barbey à l'identification automatique de fragments anonymes en prose. Le corpus d'entraînement a été réalisé à partir d'un modèle de 25 OOO phrases représentant statistiquement la dispersion de la prose de l'auteur et d'autant de phrases extraites de la prose romanesque du XIXe siècle.

On peut l'essayer sur un corpus très court en cliquant sur le lien.

Le Corpus

 La description du corpus qui nous est parvenue  reprend la typologie définie par P. Glaudes:
Les vingt-six volumes de l’ensemble intitulé Les Œuvres et les Hommes dont les séries successives – quatre au total – s’efforcent de réunir selon une logique thématique (les écrivains religieux et politiques, les historiens, les poètes, les romanciers...) la part la plus importante de la critique journalistique de Barbey d’Aurevilly. Puis les autres recueils publiés par Barbey d’Aurevilly ou par Louise Read en dehors de l’ensemble précédent. Enfin, u ne masse d’articles que Barbey d’Aurevilly et Louise Read, par la suite, ont oublié de reprendre, à moins qu’ils ne leur aient refusé le changement de statut impliqué par la mise en recueil.
L'outil d'entraînement
L'outil d'entraînement est un modèle programmé en Python à partir de la bibliothèque SciKit adossée sur le module Panda. Il a été entraîné sur le corpus de l'oeuvre de Barbey qui a été préparé et sur un contraste composé de plus de 25000 extraits de romans du XIXe siècle.