Copus – Wikipedia Wikipedia wiki

before-content-x4

Un article de Wikipédia, l’encyclopédie libre

after-content-x4

Base de données de l’entreprise

Le Enron corpus est une base de données de plus de 600 000 e-mails générés par 158 employés [d’abord] de l’Enron Corporation dans les années précédant l’effondrement de l’entreprise en décembre 2001. Le corpus a été généré à partir de serveurs de courrier électronique Enron par la Federal Energy Regulatory Commission (FERC) lors de son enquête ultérieure. [2] Une copie de la base de données des e-mails a ensuite été achetée pour 10 000 $ par Andrew McCallum, un informaticien de l’Université du Massachusetts Amherst. [3] Il a publié cette copie à des chercheurs, fournissant une trate de données qui a été utilisée pour des études sur les réseaux sociaux et la communication médiée par ordinateur.

Création [ modifier ]]

Dans l’enquête juridique sur l’effondrement d’Enron, le processus de découverte a nécessité la collecte et la préservation de grandes quantités de données, pour lesquelles la FERC a embauché Aspen Systems (qui fait maintenant partie de Lockheed Martin). Les e-mails ont été recueillis au siège social de l’Enron Corporation à Houston pendant deux semaines en mai 2002 par Joe Bartling, [4] Un entrepreneur en matière de support en litige et d’analyse des données pour Aspen. En plus des e-mails des employés d’Enron, tous les systèmes de base de données d’entreprise d’Enron, [5] Hébergé dans les bases de données Oracle sur les serveurs Sun Microsystems, ont été capturés et conservés, y compris sa plate-forme de trading d’énergie en ligne, Enrononline.

Une fois collectés, les e-mails d’Enron ont été traités et hébergés dans des plateformes de découverte électronique propriétaires (première concordance, puis iconecte) pour examen par les enquêteurs de la FERC, Commodity Futures Trading Commission et ministère de la Justice. À la fin de l’enquête et lors de la publication du rapport du personnel de la FERC, [6] Les e-mails et les informations collectés ont été considérés comme dans le domaine public, pour être utilisés à des fins de recherche historique et académique. Les archives de courrier électronique ont été rendues publiques et consultables via le Web à l’aide d’Iconect 24/7, mais le volume d’e-mail de plus de 160 Go l’a rendu peu pratique. Des copies des e-mails et bases de données collectés ont été mis à disposition sur les disques durs.

after-content-x4

Jitesh Shetty et Jafar Adibi de l’Université de Californie du Sud ont traité les données en 2004 et publié une version MySQL. [7] En 2010, Edrm.net a publié une version 2 révisée et élargie du Corpus, [8] contenant plus de 1,7 million de messages, qui a été mis à disposition sur Amazon S3 pour un accès facile aux chercheurs.

Exploitation [ modifier ]]

Une visualisation du réseau de messagerie dans l’Enron Corpus, avec une coloration représentant huit communautés

Le corpus est évalué comme l’une des rares collections de masse accessibles au public de véritables e-mails facilement disponibles pour l’étude; Ces collections sont généralement liées par de nombreuses restrictions de confidentialité et juridiques qui les rendent prohibitifs à accéder, tels que les accords de non-divulgation et la désinfection des données. [3] Shetty et Adibi, basés sur leur version MySQL, ont publié une analyse de liens des comptes d’utilisateurs envoyés par e-mail. [9] La comparaison linguistique avec les corpus de courrier électronique plus récents montre des changements dans le registre de messagerie en anglais. Il est également utilisé comme données de test ou de formation pour la recherche en matière de traitement du langage naturel et d’apprentissage automatique. [dix]

Les références [ modifier ]]

  1. ^ Klimt, Bryan; Yiming Yang (2004). “The Enron Corpus: un nouvel ensemble de données pour la recherche de classification des e-mails”: 217-226. Ciseerx 10.1.1.61.1645 .
  2. ^ Le corpus Enron Email Archivé 2011-03-08 sur la machine Wayback “récupérée le 5 mars 2011.
  3. ^ un b Markoff, John. ” Des armées d’avocats coûteux, remplacés par des logiciels moins chers “. New York Times 5 mars 2011. P A1.
  4. ^ Bartling, Joe (3 septembre 2015). “L’ensemble de données Enron – d’où vient-il?” . Bartling Forensic and Advisory . Récupéré 3 septembre, 2015 .
  5. ^ “FERC: Industries – Les bases de données et bases de données de trading d’énergie d’Enron” d’Enron ” . www.ferc.gov . Récupéré 2015-09-02 .
  6. ^ Rapport du personnel de la FERC – Manipulation des prix sur les marchés occidentaux – Résultats en un coup d’œil (3-26-2003)
  7. ^ Base de données traitée à Enron
  8. ^ Socha, George. “Ensemble de données par e-mail EDRM ENRON V2 maintenant disponible” . Edrm.net. Archivé de l’original le 2011-09-04 . Récupéré 2012-09-03 .
  9. ^ Shetty, Jitesh; Adibi, Jafar (2005). “Découvrir les nœuds importants via l’entropie du graphique Le cas de la base de données de messagerie Enron”. Actes du 3e atelier international sur la découverte des liens – LinkKDD ’05 . pp. 74–81. deux: 10.1145 / 1134271.1134282 . ISBN 978-1595932150 . S2cid 10122735 .
  10. ^ Friginal, Eric; Hardy, Jack (2013). Sociolinguistique basée sur les corpus: guide pour les étudiants . Routledge. p. 167. ISBN 978-1-13-136-29277-4 . Récupéré 29 mai 2020 .

Liens externes [ modifier ]]

after-content-x4