248) Mon excursion dans le royaume de l'IA === Comment ça marche, ChatGPT!

3 déc. 2025
3 min de lecture

Comment ça fonctionne ChatGPT?

Je résume en mes mots ce que je comprends de la mécanique de fonctionnement de Chat…

et vous allez être surpris, comme la plupart des élèves de ma classe d’introduction à l’IA.

Un ordinateur ne gère pas des mots en soi mais des chiffres. Alors, un texte soumis à ChatGPT est « codé » en chiffres. Le concept clé pour cette étape est celui d’un « Tokens » (une série de chiffres).

Chat GPT a environ 200,000 tokens. Un tokens peut être carrément un mot (en chiffre), ou encore un bout de mot comme « rack » et « et » dans « racket », ou encore comme « van », « qui », « sh » dans « vanquish ».

Naturellement, s’il y a un codeur pour la question, il y aura plus tard un décodeur qui convertit les tokens de la réponse trouvée par ChatGPT en langage (mots) compréhensible par le lecteur.

Jusqu’ici, intuitivement, nous avons des exemples qui s’apparentent à un processus similaire, ne serait-ce de la façon qu’un ordinateur code les chiffres décimaux en nombres binaires (0 ou 1) pour nous donner le résultat d’une addition en binaires puis en décimales.

L’idée qui suit, cependant, pour compléter le fonctionnement de ChatGPT est drôlement surprenante.

On parle de « transformer », soit une architecture entièrement basée sur le concept « d’attention ».

Le Transformer permet :

· Un entraînement massivement parallèle.

· Une performance supérieure en traduction machine.

· Une meilleure capture des relations longues dans les séquences.

· Une architecture plus simple à optimiser.

Mais tout a vraiment débuter avec la notion "d'attention". On utilise le mot « attention » parce que le mécanisme décrit dans le Transformer imite l’idée cognitive d’accorder plus d’importance à certaines informations qu’à d’autres — un peu comme quand vous lisez un texte et que votre esprit « se concentre » sur certains mots clés pour mieux comprendre une phrase.

Comment le modèle « se concentre-t-il »?

Avec des probabilités associées aux mots et qui donnent un poids à chacun des mots (tokens) dans le contexte donné.

Examinez la première photo plus bas. « Paris is the city …” est d’abord traduite en tokens puis soumise au modèle (qui a reçu un entrainement intensif à partir de mots, concepts, etc. en fait le Web au complet).

Le modèle découvre que le mot « of » est le plus fréquent dans sa base de données. Il va donc proposer "Paris is the city of…".

Le processus est repris à nouveau pour trouver le prochain mot.

Et de fil en aiguille, la phrase deviendra une phrase complète et avec un certain sens.

” Paris is the city of light”.

“Paris is the city of art and fashion”.

Entre ces deux phrases, le modèle prendra en compte le contexte du Prompt que vous lui avez donné.

Autre exemple. Si vous recherchiez l’âme sœur à Paris dans le Prompt, alors « Paris is the city of love » est également une phrase avec forte probabilité dans l’ensemble de la littérature (celle-là même qui a alimentée l’entrainement du modèle).

Comme disait une étudiante durant la session : « c’est presqu’incroyable que cela fonctionne bien! ».

De répliquer, le professeur mentionne que l’entrainement a été intensif et long pour améliorer le modèle à en faire un outil productif, d’où la spécialisation des modèles pour les photos, la reconnaissance des visages, la médecine, etc.

Si vous avez le goût d’explorer d’autres modèles, je vous suggère « GEMINI » de Google, « CLAUDE » de Anthropic, « GAMMA », « SUNO », « LOVABLE » et « HEYGEN ».

En général, on peut faire un bon bout de chemin dans les versions gratuites. Je suis un adepte de la stratégie des petits pas. Quelques minutes par jour sans plus mais à tous les jours. Cela peut mener loin...

Effectuez des recherches au sein du Blog en tapant un chiffre, un mot, des mots dans le rectangle au haut de la page d'accueil. Consultez les tables de matières, TMA et TMB, en tapant TMA dans le rectangle et en imprimant ces tables.

Je vous rappelle que je suis un investisseur. Je partage ma stratégie d'investissement dans le but de vous aider à réfléchir et développer votre propre stratégie.

2 commentaires

nickouelletc

04 déc. 2025

Je me demande si vous croyez que le système binaire 0 -1 (bits) pourra prochainement efficacement être remplacé par le système quantique (qubit). Si oui, est-ce que les actions de compagnies telles que Ionq, Regetti computing ou D-Wave peuvent être intéressantes à moyen - long terme ?

alainferland53

06 févr.

En réponse à

J'ai jeté un coup d'oeil à Rigetti. Intéressant n'est-ce pas? Le tout m'apparait comme du capital de risque. Drôlement complexe comme techno. Dépend de support gouvernementaux. Comme investisseur, c'est trop tôt pour me permettre d'injecter des sous. La société est au début de son cheminement.