Retour aux projets
Dataset2025

Dataset Wikipedia FR

Dataset open-source de Wikipedia français pour entraînement de modèles NLP

Projet terminé

Description détaillée

Dataset complet extrait de Wikipedia français, nettoyé et structuré pour l'entraînement de modèles de traitement du langage naturel (NLP). Contient des articles encyclopédiques en français avec métadonnées, catégories et liens internes préservés. Idéal pour le fine-tuning de LLMs francophones.

Points clés

  • Extraction complète de Wikipedia français
  • Nettoyage et normalisation du texte
  • Format optimisé Parquet pour ML
  • Métadonnées et catégories préservées
  • Compatible HuggingFace Datasets

Technologies utilisées

PythonScrapyPandasParquetHuggingFace