Dataset2025

Dataset Wikipedia FR

Dataset open-source de Wikipedia français pour entraînement de modèles NLP

Projet terminé

Description détaillée

Dataset complet extrait de Wikipedia français, nettoyé et structuré pour l'entraînement de modèles de traitement du langage naturel (NLP). Contient des articles encyclopédiques en français avec métadonnées, catégories et liens internes préservés. Idéal pour le fine-tuning de LLMs francophones.

Points clés

Extraction complète de Wikipedia français
Nettoyage et normalisation du texte
Format optimisé Parquet pour ML
Métadonnées et catégories préservées
Compatible HuggingFace Datasets

Technologies utilisées

PythonScrapyPandasParquetHuggingFace