Retour à la recherche

Création de Datasets pour LLMs

PythonScrapyBeautifulSoupPandasParquetHuggingFace Datasets

Objectif

Créer des datasets de haute qualité pour l'entraînement et le fine-tuning de modèles de langage. Focus sur le français (sous-représenté) et les données de code multi-langages.

Méthodologie

1. Scraping éthique avec respect des robots.txt et rate limiting 2. Nettoyage et déduplication des données 3. Structuration en format optimisé (Parquet) 4. Validation de la qualité avec échantillonnage 5. Publication sur HuggingFace Hub

Résultats

Wikipedia FR : 2M+ articles encyclopédiques (correction de la sous-représentation du français) Wikipedia EN : 6M+ articles encyclopédiques de haute qualité StackOverflow : 32.5M+ questions/réponses techniques (génération de code, debugging) Tous les datasets sont structurés en format Parquet optimisé avec métadonnées préservées, liens croisés et hiérarchies de catégories. Prêts pour le fine-tuning immédiat avec HuggingFace Transformers.

Bibliographie