Accéder au contenu principal

Séries de Taylor : des approximations à l’optimisation

Découvrez comment les approximations polynomiales alimentent la descente de gradient, XGBoost et les fonctions que votre ordinateur calcule au quotidien.
Actualisé 4 mai 2026  · 14 min lire

Vous vous êtes déjà demandé comment un ordinateur calcule réellement une fonction comme sin(x) ou ?

Les ordinateurs ne peuvent pas évaluer directement la plupart des fonctions mathématiques. Ils savent seulement additionner, soustraire, multiplier et diviser. Donc, lorsque vous appelez math.sin(0.5) en Python, il faut convertir cet appel en une suite d’opérations arithmétiques de base. Cette conversion repose sur l’approximation polynomiale, dont les séries de Taylor constituent le socle mathématique.

Une série de Taylor permet de réécrire quasiment toute fonction régulière comme une somme infinie de termes plus simples, chacun construit à partir des dérivées de la fonction en un point donné. Une fois l’idée comprise, beaucoup de notions en data science et en apprentissage automatique deviennent plus claires : du fonctionnement de la descente de gradient au comportement de certaines fonctions d’activation.

Dans cet article, je vous présente ce que sont les séries de Taylor, leur fonctionnement mathématique, leurs usages en data science et en machine learning, ainsi que leurs liens avec d’autres types de séries.

Définition des séries de Taylor

Les séries de Taylor existent depuis des siècles. Brook Taylor les a introduites en 1715, et James Gregory ainsi que Colin Maclaurin y ont également apporté des contributions majeures.

L’objectif est de représenter des fonctions complexes par des polynômes, bien plus faciles à manipuler.

Une série de Taylor approxime une fonction en l’exprimant comme une somme infinie de termes, chacun dérivé des dérivées de la fonction en un point. Plus vous incluez de termes, plus l’approximation se rapproche de la fonction réelle.

La formule générale est la suivante :

General Taylor series formula

Formule générale des séries de Taylor

Chaque terme de la somme comporte trois éléments :

  • f⁽ⁿ⁾(a) - la n-ième dérivée de la fonction évaluée au point central a

  • n! - la factorielle de n, qui évite que les termes ne croissent sans contrôle

  • (x - a)ⁿ - le terme d’extension, qui mesure l’écart entre x et le point central

Le point central a est l’ancrage de la série. Lorsque a = 0, on obtient un cas particulier appelé série de Maclaurin — nous y reviendrons.

Un exemple concret : eˣ

La fonction exponentielle est un premier exemple idéal. Sa dérivée est elle-même, donc f⁽ⁿ⁾(0) = 1 pour tout n. Centrée en a = 0, la série de Taylor devient :

Concrete example

Exemple concret

Supposons que vous vouliez approximer e⁰·⁵. Il suffit d’injecter x = 0.5 dans les quatre premiers termes — voici un exemple en Python :

x = 0.5
approx = 1 + x + x**2/2 + x**3/6
print(approx)

Concrete example in Python

Exemple concret en Python

La valeur réelle de e⁰·⁵ est d’environ 1.6487. Avec seulement quatre termes, vous êtes déjà à moins de 0,2 % de l’exact. Ajoutez des termes, et l’approximation se resserre.

C’est toute la force des séries de Taylor.

Des fonctions comme , sin(x) et cos(x) sont difficiles à évaluer directement, mais leurs séries de Taylor les ramènent à de l’arithmétique de base — exactement ce qu’un ordinateur sait traiter.

Propriétés mathématiques des séries de Taylor

Une série de Taylor n’est utile que si elle converge effectivement vers la fonction que vous cherchez à approximer. Voyons ce que cela signifie et ce qui se passe quand ce n’est pas le cas.

Développement en série de Taylor

Développer une série de Taylor revient à construire un polynôme terme par terme. Chaque terme ajoute de l’information sur le comportement de la fonction au voisinage du point central a.

Prenons sin(x) centré en a = 0 :

Taylor series expansion

Développement en série de Taylor

Le premier terme, x, fournit une approximation linéaire grossière. Ajoutez le deuxième terme, la courbe se rapproche. Ajoutez-en d’autres, et le polynôme finit par épouser sin(x) près de x = 0.

En clair, le développement remplace une fonction exacte mais coûteuse à calculer par un polynôme exploitable en pratique.

Approximation par série de Taylor

Vous ne calculerez jamais une infinité de termes. En pratique, vous vous arrêtez après quelques-uns et acceptez une petite erreur. Le résultat s’appelle une série de Taylor tronquée, et l’erreur induite est l’erreur de troncature.

Le reste de Lagrange vous donne une borne supérieure sur cette erreur. Pour une série tronquée après n termes :

Lagrange remainder

Reste de Lagrange

c est un point entre x et a. Vous ne connaissez pas c exactement, mais vous pouvez borner f⁽ⁿ⁺¹⁾(c) si vous savez à quel point les dérivées de votre fonction peuvent croître.

Voici comment l’interpréter :

  • Plus x s’éloigne du point central a, plus l’erreur augmente

  • Plus vous conservez de termes, plus l’erreur diminue

  • Les fonctions avec des dérivées grandes et croissant rapidement sont plus difficiles à approximer avec précision

Supposons que vous approximez sin(0.1) avec trois termes :

x = 0.1
approx = x - x**3/6 + x**5/120
print(approx)       
print(np.sin(0.1))  

Approximation in Python

Approximation en Python

Trois termes vous donnent une précision à dix décimales lorsque x est proche de 0. C’est l’erreur de troncature à l’œuvre — faible, mais non nulle.

Convergence des séries de Taylor

Une série de Taylor converge en un point x si les sommes partielles se rapprochent d’une valeur fixe à mesure que vous ajoutez des termes. Cette valeur devrait être f(x) — mais ce n’est pas toujours garanti.

Le rayon de convergence R indique jusqu’où, à partir du point central, la série reste valable. À l’intérieur de ce rayon, la série converge. Au-delà, les termes grossissent au lieu de décroître et l’approximation s’effondre.

Convergence formula

Formule de convergence

Les fonctions ont des rayons différents :

  • , sin(x) et cos(x) convergent pour tout x, donc R = ∞

  • ln(1 + x) ne converge que pour -1 < x <= 1, donc R = 1

  • 1/1-x converge pour |x| < 1, donc R = 1

Une fonction peut aussi avoir un rayon de convergence infini sans pour autant coïncider avec sa série de Taylor en certains points. On parle alors de fonctions non analytiques — un cas limite à connaître, même s’il est rare en data science.

En résumé, vérifiez toujours si x se situe dans le rayon de convergence avant de faire confiance à une approximation de Taylor.

Séries de Taylor en data science et machine learning

Les séries de Taylor apparaissent bien plus souvent qu’on ne le pense — des simulations physiques à la résolution de équations différentielles. Mais leur impact le plus concret au quotidien pour un data scientist concerne l’optimisation et l’approximation de modèles.

Optimisation et descente de gradient

Chaque entraînement de modèle de machine learning implique une forme d’optimisation. Et les séries de Taylor sont souvent en coulisses.

La descente de gradient utilise une approximation de Taylor du premier ordre. Quand vous calculez le gradient d’une fonction de perte L(θ) au point courant θ, vous vous demandez en substance : « si je me déplace d’un petit pas dans cette direction, de combien la perte change-t-elle ? » C’est un développement de Taylor du premier ordre autour du point courant :

Taylor series in optimization

Séries de Taylor et optimisation

Cela fonctionne, mais ignore la courbure. Si la surface de perte est courbe, une approximation du premier ordre peut dépasser la cible ou avancer de manière inefficace.

La méthode de Newton corrige cela en incluant le terme du second ordre — la matrice hessienne H, qui capture la courbure :

Taylor series in optimization (2)

Séries de Taylor et optimisation (2)

En annulant la dérivée de cette expression, on obtient le pas optimal. En contrepartie, calculer la hessienne complète est coûteux pour les grands modèles. Des méthodes comme L-BFGS l’approximent et en retirent l’essentiel des bénéfices pour une fraction du coût.

Approximations des fonctions d’activation

Certaines fonctions d’activation sont coûteuses à calculer. Les séries de Taylor offrent des alternatives polynomiales moins chères, suffisamment précises dans la plupart des cas.

La fonction sigmoïde σ(x) = 1 / (1 + e⁻ˣ) nécessite de calculer une exponentielle, opération coûteuse. Au voisinage de x = 0, son développement de Taylor est :

Taylor series in approximation

Séries de Taylor et approximation

Dans des environnements contraints (edge, FPGA), ce type d’approximation polynomiale peut remplacer des calculs exacts par quelques opérations de type multiply-add.

GELU, utilisée dans les transformeurs comme BERT et GPT, est souvent implémentée via une approximation basée sur Taylor de la fonction d’erreur erf(x), la forme exacte impliquant une intégrale sans solution fermée.

XGBoost et optimisation du second ordre

XGBoost, l’une des bibliothèques de gradient boosting les plus utilisées, exploite un développement de Taylor du second ordre de la perte pour ajuster chaque nouvel arbre.

À chaque itération de boosting, XGBoost approxime la perte ainsi :

XGBoost loss approximation

Approximation de la perte dans XGBoost

g_i est le gradient du premier ordre et h_i le gradient du second ordre (hessien) de la perte par rapport à la prédiction courante. Utiliser les deux termes permet à XGBoost d’ajuster des arbres plus vite et plus précisément que les méthodes du premier ordre — une raison majeure de ses performances sur données tabulaires.

Défis et limites

Ce n’est pas parce que les séries de Taylor sont partout en data science qu’elles sont la solution universelle. Plusieurs écueils existent.

  • L’erreur d’approximation s’accumule : dans les réseaux profonds, vous enchaînez de nombreuses opérations. Une petite erreur d’approximation à une couche se propage et peut nuire à la stabilité de l’entraînement

  • Le rayon de convergence compte : les approximations de Taylor ne sont fiables qu’au voisinage du point de développement. Si vos entrées s’en éloignent — par exemple en inférence sur des données hors distribution — l’approximation peut s’effondrer

  • Les hessiennes en grande dimension coûtent cher : les méthodes du second ordre sont puissantes mais passent mal à l’échelle. Un modèle avec n paramètres a une hessienne n × n. Pour des millions de paramètres, stocker et inverser cette matrice est irréaliste sans approximations.

En comprenant ces compromis, vous saurez quand une approche basée sur Taylor vaut le coup et quand une méthode du premier ordre suffit.

Séries de Taylor incontournables

Quelques séries de Taylor reviennent partout en mathématiques, en physique et en machine learning. Voici celles à connaître si vous prenez la data science au sérieux.

Fonction exponentielle

La fonction exponentielle est la plus simple à développer, car chaque dérivée de est elle-même. Évalués en a = 0, tous les coefficients valent 1 :

Exponential function

Fonction exponentielle

Cette série converge pour tout x, ce qui la rend fiable et facile à utiliser. Elle sert de base aux fonctions sigmoïde et softmax en classification.

Fonction sinus

La fonction sinus ne contient que des puissances impaires, car sin(x) est une fonction impaire — sin(-x) = -sin(x) :

Sine function

Fonction sinus

Comme , elle converge pour tout x. Les signes alternent car les dérivées de sin(x) cyclent entre cos(x), -sin(x), -cos(x), puis reviennent.

Fonction cosinus

Le cosinus est le pendant pair du sinus — il ne contient que des puissances paires :

Cosine function

Fonction cosinus

En juxtaposant les séries du sinus et du cosinus, on voit leur complémentarité. Cette relation mène à la célèbre identité d’Euler : eⁱˣ = cos(x) + i·sin(x).

Logarithme népérien

Le logarithme népérien ln(1 + x) possède une série de Taylor centrée en x = 0 :

Natural logarithm function

Logarithme népérien

Contrairement aux trois précédentes, cette série ne converge que pour -1 < x <= 1. En dehors, elle diverge. On retrouve cette contrainte dans la perte d’entropie croisée, où les probabilités log doivent rester dans un intervalle valide.

Série géométrique

La série géométrique est l’un des résultats les plus anciens et les plus utilisés en mathématiques :

Geometric series

Série géométrique

Elle ne converge que pour |x| < 1. C’est le point de départ de nombreuses autres séries de Taylor, omniprésente en théorie des probabilités, en traitement du signal et partout où l’on somme des valeurs futures actualisées.

Aide-mémoire

Si vous cherchez quelque chose de concret, à imprimer et à afficher près de votre bureau, voici ce qu’il vous faut :

Taylor series quick reference

Aide-mémoire des séries de Taylor

Ces cinq séries couvrent la majorité des cas que vous rencontrerez en data science et en machine learning.

Séries de Taylor vs autres familles de séries

Taylor, Fourier et Maclaurin approximent toutes des fonctions, mais pour des problèmes et des contextes différents.

Séries de Taylor vs séries de Fourier

Taylor et Fourier représentent des fonctions comme des sommes infinies, mais selon des approches radicalement différentes.

Une série de Taylor construit la fonction à partir de polynômes — des puissances de (x - a). Elle zoome sur un point unique et capture le comportement local via les dérivées. Le résultat est précis près du point a, mais la précision décroît à mesure qu’on s’en éloigne.

Une série de Fourier utilise des sinus et cosinus comme briques de base :

Séries de Fourier

Plutôt que de capturer le comportement local, les séries de Fourier modélisent un comportement périodique global sur tout un intervalle. Elles sont conçues pour des fonctions qui se répètent — signaux audio, saisonnalités, tout ce qui oscille.

Voici une comparaison côte à côte :

Taylor vs. Fourier comparison

Comparaison Taylor vs Fourier

Le traitement du signal et l’analyse de séries temporelles recourent massivement aux séries de Fourier — analyse spectrale, décomposition fréquentielle, voire certaines architectures de réseaux comme FNet, qui remplace l’attention par des transformées de Fourier.

Si vous travaillez sur des données tabulaires, des images ou l’optimisation, les séries de Taylor sont l’outil le plus pertinent. Pour l’audio, les séries temporelles ou toute structure périodique, privilégiez Fourier.

Séries de Taylor vs séries de Maclaurin

C’est simple : une série de Maclaurin est une série de Taylor centrée en a = 0.

La formule générale de Taylor est :

Maclaurin series

Séries de Maclaurin

En posant a = 0, on obtient :

Maclaurin series at a = 0

Séries de Maclaurin pour a = 0

Colin Maclaurin a tellement utilisé ce cas spécifique qu’il a reçu un nom distinct, mais mathématiquement, ce n’est rien d’autre qu’une série de Taylor pour un point central particulier.

En pratique, la plupart des séries que vous verrez — , sin(x), cos(x), ln(1 + x) — sont des séries de Maclaurin, car centrer en zéro simplifie l’algèbre. Si vous devez approximer une fonction près d’un autre point, vous choisissez a ≠ 0 et obtenez une série de Taylor générale.

En conclusion, toute série de Maclaurin est une série de Taylor, mais l’inverse n’est pas vrai.

Séries de Taylor et modèles linéaires

Les séries de Taylor et les modèles linéaires peuvent sembler éloignés au premier abord, mais le lien vaut le détour — et il commence avec l’approximation de Taylor du premier ordre.

En tronquant une série de Taylor après le premier terme, vous obtenez une approximation linéaire de la fonction au voisinage d’un point a :

Taylor series and linear models (1)

Séries de Taylor et modèles linéaires (1)

C’est une droite, avec une pente (f'(a)) et une ordonnée à l’origine (f(a) - f'(a) ⋅ a). Cela vous rappelle un modèle de régression linéaire simple ?

Taylor series and linear models (2)

Séries de Taylor et modèles linéaires (2)

La différence réside dans l’origine des paramètres. En approximation de Taylor, la pente et l’ordonnée proviennent des dérivées de la fonction en un point. En régression linéaire, elles sont estimées sur des données pour minimiser l’erreur de prédiction. Structurellement, c’est la même idée.

Là où ce lien devient utile

Il explique pourquoi les modèles linéaires réussissent dans certains cas et échouent dans d’autres.

La régression linéaire suppose que la relation entrée-sortie est — ou peut être traitée comme — linéaire. Les séries de Taylor vous disent exactement quand cette hypothèse tient : quand vos entrées restent proches d’un point fixe et que la fonction est lisse. Si vous vous en éloignez, l’approximation linéaire se dégrade — comme la régression linéaire sur des données fortement non linéaires.

Les modèles linéaires généralisés (GLM) rendent le lien encore plus explicite.

La régression logistique, par exemple, modélise le log-odds d’un événement comme une fonction linéaire. Le lien entre le prédicteur linéaire et la probabilité passe par la sigmoïde — dont nous avons vu qu’elle possède un développement de Taylor bien comporté près de zéro.

Du linéaire au non linéaire

Si une approximation de Taylor du premier ordre donne un modèle linéaire, ajouter des termes fournit un modèle polynomial.

Une approximation du second ordre donne :

Second-order Taylor series

Série de Taylor du second ordre

C’est un quadratique — une régression polynomiale avec un terme au carré. Chaque terme supplémentaire correspond à un polynôme de degré plus élevé, ce qui permet à la régression polynomiale d’étendre la régression linéaire pour capturer des relations courbes.

Les séries de Taylor offrent ainsi un cadre rigoureux pour penser le compromis biais-variance en régression. Un premier ordre (modèle linéaire) est rapide et interprétable mais fortement biaisé si la relation vraie est non linéaire. Des ordres plus élevés ajustent mieux au voisinage du point de développement mais augmentent le risque de surapprentissage.

Pour approfondir la régression linéaire et ses conditions de succès, le tutoriel Essentials of Linear Regression in Python est une bonne prochaine étape. Pour les utilisateurs de R, le cours Intermediate Regression in R couvre en détail la régression polynomiale et le diagnostic de modèles.

Conclusion

Les séries de Taylor sont de ces outils mathématiques qui, une fois repérés, réapparaissent partout.

Vous avez vu comment elles permettent aux ordinateurs d’évaluer et sin(x) par de simples opérations arithmétiques, comment la convergence et l’erreur de troncature conditionnent la précision, et comment la même idée alimente la descente de gradient, XGBoost et les approximations de fonctions d’activation en ML moderne.

Les cinq séries phares — exponentielle, sinus, cosinus, logarithme, géométrique — valent la peine d’être mémorisées. Elles reviennent si souvent que les reconnaître d’emblée fait gagner un temps réel.

À partir d’ici, l’étape suivante consiste à se familiariser avec la pensée algorithmique qui accompagne ce type de mathématiques. Notre cours Data Structures and Algorithms in Python est un excellent point de départ pour consolider cette base — et comprendre comment ces idées mathématiques deviennent du code robuste et scalable.


Dario Radečić's photo
Author
Dario Radečić
LinkedIn
Scientifique de données senior basé en Croatie. Rédacteur technique de premier plan avec plus de 700 articles publiés, générant plus de 10 millions de vues. Auteur du livre Machine Learning Automation with TPOT.

FAQ sur les séries de Taylor

À quoi sert une série de Taylor&nbsp;?

Une série de Taylor approxime des fonctions complexes comme une somme infinie de termes polynomiaux construits à partir des dérivées de la fonction en un point. Cela rend des fonctions comme et sin(x) calculables via de l’arithmétique de base — c’est ainsi que votre ordinateur les évalue. En machine learning, les séries de Taylor alimentent des algorithmes d’optimisation comme la descente de gradient et des méthodes de boosting comme XGBoost.

En quoi une série de Taylor diffère-t-elle d’une série de Maclaurin&nbsp;?

Une série de Maclaurin est simplement une série de Taylor centrée en a = 0. Lorsque le point central est zéro, les calculs se simplifient, raison pour laquelle la plupart des séries connues — , sin(x), cos(x) — sont des séries de Maclaurin. Si vous devez approximer une fonction près d’un autre point, utilisez la série de Taylor générale avec a ≠ 0.

Quelles sont les propriétés de convergence d’une série de Taylor&nbsp;?

Une série de Taylor converge lorsque ses sommes partielles tendent vers une valeur fixe à mesure que l’on ajoute des termes. Le rayon de convergence indique jusqu’où, à partir du point central, la série reste fiable. Certaines fonctions comme convergent pour tout x, tandis que d’autres comme ln(1 + x) ne convergent que sur un intervalle donné.

Peut-on utiliser les séries de Taylor en machine learning&nbsp;?

Oui — la descente de gradient utilise une approximation de Taylor du premier ordre pour déterminer la direction de mise à jour, et XGBoost exploite explicitement des termes de Taylor du premier et du second ordre pour ajuster chaque arbre de boosting. Des fonctions d’activation comme GELU sont aussi implémentées via des approximations polynomiales issues de Taylor. La plupart des praticiens utilisent des séries de Taylor au quotidien sans s’en rendre compte.

Quelles sont les limites de l’utilisation des séries de Taylor&nbsp;?

L’erreur de troncature augmente à mesure que x s’éloigne du point central, rendant les approximations moins fiables loin de a. Certaines fonctions ne convergent que sur un intervalle limité — la série s’effondre en dehors. Les méthodes du second ordre sont plus précises, mais le calcul de la hessienne complète passe mal à l’échelle pour les grands modèles.

Sujets

Apprenez avec DataCamp

Cours

Prétraitement pour le Machine Learning en Python

4 h
65.9K
Veuillez découvrir comment nettoyer et préparer vos données pour l'apprentissage automatique.
Afficher les détailsRight Arrow
Commencer le cours
Voir plusRight Arrow
Contenus associés

blog

Comprendre les TPU et les GPU dans l'IA : Un guide complet

L'essor du développement de l'intelligence artificielle (IA) a entraîné une augmentation notable de la demande en matière de calcul, d'où la nécessité de disposer de solutions matérielles robustes. Les unités de traitement graphique (GPU) et les unités de traitement tensoriel (TPU) sont devenues des technologies essentielles pour répondre à ces demandes.
Kurtis Pykes 's photo

Kurtis Pykes

9 min

blog

Architecture de l'entrepôt de données : Tendances, outils et techniques

Apprenez l'essentiel de l'architecture d'un entrepôt de données, des composants clés aux meilleures pratiques, pour construire un système de données évolutif et efficace !
Kurtis Pykes 's photo

Kurtis Pykes

15 min

Tutoriel

Séquence de Fibonacci en Python : Apprenez et explorez les techniques de codage

Veuillez découvrir le fonctionnement de la suite de Fibonacci. Veuillez explorer ses propriétés mathématiques et ses applications concrètes.
Laiba Siddiqui's photo

Laiba Siddiqui

Tutoriel

Tableaux Python

Tableaux Python avec exemples de code. Découvrez comment créer et imprimer des tableaux à l'aide de Python NumPy dès aujourd'hui.
DataCamp Team's photo

DataCamp Team

Tutoriel

Cache Python : Deux méthodes simples

Apprenez à utiliser des décorateurs tels que @functools.lru_cache ou @functools.cache pour mettre en cache des fonctions en Python.
Stephen Gruppetta's photo

Stephen Gruppetta

Tutoriel

Tutoriel sur les boucles « for » en Python

Apprenez à implémenter des boucles « for » en Python pour itérer une séquence ou les lignes et colonnes d'un DataFrame pandas.
Aditya Sharma's photo

Aditya Sharma

Voir plusVoir plus