Retour aux projets
Dataset2025

Dataset StackOverflow

Dataset de questions/réponses techniques pour entraînement de modèles de code

Projet terminé

Description détaillée

Dataset massif extrait de StackOverflow contenant 32.5 millions de questions et réponses techniques. Couvre tous les langages de programmation et frameworks majeurs. Idéal pour le fine-tuning de modèles de génération de code et d'assistance technique.

Points clés

  • 32.5 millions de Q&A techniques
  • Tous langages de programmation couverts
  • Métadonnées (votes, tags, accepted)
  • Format optimisé pour code generation
  • Compatible HuggingFace Datasets

Technologies utilisées

PythonScrapyPandasParquetHuggingFace