Création de mon propre LLM
Objectif
Comprendre en profondeur le fonctionnement des Large Language Models en en construisant un de toutes pièces. L'objectif n'est pas de rivaliser avec GPT ou Claude, mais d'acquérir une compréhension intime de chaque composant : tokenization, embeddings, attention mechanisms, et training loops.
Architecture & Dataset
Modèle v0.1 — Specifications • Paramètres : 58M (architecture compacte pour itération rapide) • Tokens d'entraînement : 1B tokens • Dataset : Mix personnalisé de mes datasets open-source : - Wikipedia FR (2M+ articles) - Wikipedia EN (6M+ articles) - StackOverflow (32.5M+ Q&A) - GitHub (repositories populaires à fort nombre de stars) Infrastructure • GPU : NVIDIA A100 40GB • Cloud : Modal.com (serverless GPU) • Framework : PyTorch + Transformers
Résultats & Défis
Métriques de Training • Loss finale : 6.5 (convergence stable) • Compute : A100 40GB sur Modal.com Défis Rencontrés • Hyperparameter tuning : Trouver le bon équilibre entre learning rate, batch size et warmup steps • Learning Rate Scheduler : Implémentation d'un scheduler progressif pour augmenter le LR avec le temps • Optimisation de l'apprentissage : Ajustements itératifs pour éviter le overfitting et améliorer la généralisation Prochaines Étapes • Augmenter à 150M+ paramètres • Ajouter des données de code structurées • Expérimenter avec différentes architectures (GPT-style vs LLaMA-style)