Retour aux projets
Dataset2025
Dataset Wikipedia FR
Dataset open-source de Wikipedia français pour entraînement de modèles NLP
Projet terminé
Description détaillée
Dataset complet extrait de Wikipedia français, nettoyé et structuré pour l'entraînement de modèles de traitement du langage naturel (NLP). Contient des articles encyclopédiques en français avec métadonnées, catégories et liens internes préservés. Idéal pour le fine-tuning de LLMs francophones.
Points clés
- Extraction complète de Wikipedia français
- Nettoyage et normalisation du texte
- Format optimisé Parquet pour ML
- Métadonnées et catégories préservées
- Compatible HuggingFace Datasets
Technologies utilisées
PythonScrapyPandasParquetHuggingFace