Retour aux projets
AI2025

Web Scraper & Dataset Builder

Scraper intelligent pour créer des datasets d'entraînement IA

Projet terminé

Description détaillée

Framework de scraping web conçu pour collecter et nettoyer des données massives en vue de créer des datasets d'entraînement pour modèles de machine learning. Supporte le scraping parallèle, la détection de robots.txt et le respect des rate limits.

Points clés

  • Scraping parallèle haute performance
  • Nettoyage et normalisation automatique
  • Export multi-formats (CSV, JSON, Parquet)
  • Pipeline de validation de données

Technologies utilisées

PythonScrapyBeautifulSoupPandasMongoDB