Retour aux projets
Dataset2025
Dataset Wikipedia EN
Dataset open-source de Wikipedia anglais pour entraînement de modèles NLP
Projet terminé
Description détaillée
Dataset massif extrait de Wikipedia anglais, le plus grand corpus encyclopédique au monde. Nettoyé, dédupliqué et structuré pour l'entraînement de modèles de langage. Inclut articles, résumés, infoboxes et références bibliographiques.
Points clés
- Plus grand dataset Wikipedia disponible
- Dédoublonnage et validation qualité
- Sections structurées (intro, body, references)
- Export multi-formats (Parquet, JSON, CSV)
- Documentation et scripts de reproduction
Technologies utilisées
PythonScrapyPandasParquetHuggingFace