Dataset2025

Dataset Wikipedia EN

Dataset open-source de Wikipedia anglais pour entraînement de modèles NLP

Projet terminé

Description détaillée

Dataset massif extrait de Wikipedia anglais, le plus grand corpus encyclopédique au monde. Nettoyé, dédupliqué et structuré pour l'entraînement de modèles de langage. Inclut articles, résumés, infoboxes et références bibliographiques.

Points clés

Plus grand dataset Wikipedia disponible
Dédoublonnage et validation qualité
Sections structurées (intro, body, references)
Export multi-formats (Parquet, JSON, CSV)
Documentation et scripts de reproduction

Technologies utilisées

PythonScrapyPandasParquetHuggingFace