Retour aux projets
AI2025
Web Scraper & Dataset Builder
Scraper intelligent pour créer des datasets d'entraînement IA
Projet terminé
Description détaillée
Framework de scraping web conçu pour collecter et nettoyer des données massives en vue de créer des datasets d'entraînement pour modèles de machine learning. Supporte le scraping parallèle, la détection de robots.txt et le respect des rate limits.
Points clés
- Scraping parallèle haute performance
- Nettoyage et normalisation automatique
- Export multi-formats (CSV, JSON, Parquet)
- Pipeline de validation de données
Technologies utilisées
PythonScrapyBeautifulSoupPandasMongoDB