Création de mon propre LLM

PythonPyTorchTransformersCUDAHugging Face

Objectif

Comprendre en profondeur le fonctionnement des Large Language Models en en construisant un de toutes pièces. L'objectif n'est pas de rivaliser avec GPT ou Claude, mais d'acquérir une compréhension intime de chaque composant : tokenization, embeddings, attention mechanisms, et training loops.

Architecture & Dataset

Modèle v0.1 — Specifications • Paramètres : 58M (architecture compacte pour itération rapide) • Tokens d'entraînement : 1B tokens • Dataset : Mix personnalisé de mes datasets open-source : - Wikipedia FR (2M+ articles) - Wikipedia EN (6M+ articles) - StackOverflow (32.5M+ Q&A) - GitHub (repositories populaires à fort nombre de stars) Infrastructure • GPU : NVIDIA A100 40GB • Cloud : Modal.com (serverless GPU) • Framework : PyTorch + Transformers

Résultats & Défis

Métriques de Training • Loss finale : 6.5 (convergence stable) • Compute : A100 40GB sur Modal.com Défis Rencontrés • Hyperparameter tuning : Trouver le bon équilibre entre learning rate, batch size et warmup steps • Learning Rate Scheduler : Implémentation d'un scheduler progressif pour augmenter le LR avec le temps • Optimisation de l'apprentissage : Ajustements itératifs pour éviter le overfitting et améliorer la généralisation Prochaines Étapes • Augmenter à 150M+ paramètres • Ajouter des données de code structurées • Expérimenter avec différentes architectures (GPT-style vs LLaMA-style)

Création de mon propre LLM

Objectif

Architecture & Dataset

Résultats & Défis

Bibliographie