Retour aux projets
Dataset2025

Dataset Wikipedia EN

Dataset open-source de Wikipedia anglais pour entraînement de modèles NLP

Projet terminé

Description détaillée

Dataset massif extrait de Wikipedia anglais, le plus grand corpus encyclopédique au monde. Nettoyé, dédupliqué et structuré pour l'entraînement de modèles de langage. Inclut articles, résumés, infoboxes et références bibliographiques.

Points clés

  • Plus grand dataset Wikipedia disponible
  • Dédoublonnage et validation qualité
  • Sections structurées (intro, body, references)
  • Export multi-formats (Parquet, JSON, CSV)
  • Documentation et scripts de reproduction

Technologies utilisées

PythonScrapyPandasParquetHuggingFace