From f15790f69daf3f0282f52fa201a68c4e796bfa8d Mon Sep 17 00:00:00 2001 From: lbourdois <58078086+lbourdois@users.noreply.github.com> Date: Fri, 6 Jan 2023 22:01:02 +0100 Subject: [PATCH 1/8] =?UTF-8?q?Adding=20descriptions=20of=20=F0=9F=A4=97?= =?UTF-8?q?=20Tasks=20videos?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- subtitles/fr/titles-and-descriptions.txt | 100 ++++++++++++++++++++++- 1 file changed, 97 insertions(+), 3 deletions(-) diff --git a/subtitles/fr/titles-and-descriptions.txt b/subtitles/fr/titles-and-descriptions.txt index ad102d6bf..3ff3a64c4 100644 --- a/subtitles/fr/titles-and-descriptions.txt +++ b/subtitles/fr/titles-and-descriptions.txt @@ -1005,9 +1005,9 @@ Vous n'avez pas de compte Hugging Face ? Inscrivez-vous maintenant : http://hugg -Traitement des données pour la modélisation causale du langage +Traitement des données pour la modélisation du langage causal -Dans cette vidéo, nous allons voir comment prétraiter un jeu de données pour une tâche de modélisation causale du langage. +Dans cette vidéo, nous allons voir comment prétraiter un jeu de données pour une tâche de modélisation du langage causal. Intervenant : Leandro von Werra Traduction : Loïck Bourdois Cette vidéo fait partie du cours Hugging Face : http://huggingface.co/course/fr/chapter7 @@ -1210,4 +1210,98 @@ Vidéos connexes : - Utilisation d'un débogueur dans un terminal : https://youtu.be/5PkZ4rbHL6c - Demander de l'aide sur les forums : https://youtu.be/S2EEG3JIt2A Vous avez une question ? Consultez le forum d’Hugging Face : https://discuss.huggingface.co/c/course/20 -Vous n'avez pas de compte Hugging Face ? Inscrivez-vous maintenant : http://huggingface.co/join \ No newline at end of file +Vous n'avez pas de compte Hugging Face ? Inscrivez-vous maintenant : http://huggingface.co/join + + + +🤗 Tasks : Classification de tokens + +Cette vidéo fait partie du cours d’Hugging Face : http://huggingface.co/course/fr +Intervenante : Merve Noyan +Traduction : Loïck Bourdois +Un aperçu de la tâche de classification de tokens. +Vous pouvez en savoir plus sur la classification de tokens dans cette section du cours : https://huggingface.co/course/fr/chapter7/2 +Vidéos connexes : +- Dans le pipeline de classification de tokens (PyTorch) : https://youtu.be/0E7ltQB7fM8 +- Dans le pipeline de classification de tokens (TensorFlow) : https://youtu.be/PrX4CjrVnNc +- Traitement des données pour la classification de tokens : https://youtu.be/iY2AZYdZAr0 +Vous n'avez pas de compte Hugging Face ? Inscrivez-vous maintenant : http://huggingface.co/join +Vous avez une question ? Consultez le forum d’Hugging Face : https://discuss.huggingface.co/c/course/20 + + + +🤗 Tasks : Réponse aux questions + +Cette vidéo fait partie du cours d’Hugging Face : http://huggingface.co/course/fr +Intervenante : Merve Noyan +Traduction : Loïck Bourdois +Un aperçu de la tâche de réponse aux questions. +Vous pouvez en savoir plus sur la réponse aux questions dans cette section du cours : https://huggingface.co/course/fr/chapter7/7 +Vidéos connexes : +- Dans le pipeline de réponse aux questions (PyTorch) : https://youtu.be/_wxyB3j3mk4 +- Dans le pipeline de réponse aux questions (TensorFlow) : https://youtu.be/b3u8RzBCX9Y +- Traitement des données pour la réponse aux questions : https://youtu.be/qgaM0weJHpA +- L'étape de post-traitement en réponse aux questions (PyTorch) : https://youtu.be/BNy08iIWVJM +- L'étape de post-traitement en réponse aux questions (TensorFlow) : https://youtu.be/VN67ZpN33Ss +Vous n'avez pas de compte Hugging Face ? Inscrivez-vous maintenant : http://huggingface.co/join +Vous avez une question ? Consultez le forum d’Hugging Face : https://discuss.huggingface.co/c/course/20 + + + +🤗 Tasks : Modélisation du langage causal + +Cette vidéo fait partie du cours d’Hugging Face : http://huggingface.co/course/fr +Intervenante : Merve Noyan +Traduction : Loïck Bourdois +Un aperçu de la tâche de modélisation du langage causal. +Vous pouvez en savoir plus sur la modélisation du langage causal dans cette section du cours : https://huggingface.co/course/fr/chapter7/6 +Vidéos connexes : +- Traitement des données pour la modélisation du langage causal : https://youtu.be/ma1TrR7gE7I +- Qu'est-ce que la perplexité ? : https://youtu.be/NURcDHhYe98 +Vous n'avez pas de compte Hugging Face ? Inscrivez-vous maintenant : http://huggingface.co/join +Vous avez une question ? Consultez le forum d’Hugging Face : https://discuss.huggingface.co/c/course/20 + + + +🤗 Tasks : Modélisation du langage masqué + +Cette vidéo fait partie du cours d’Hugging Face : http://huggingface.co/course/fr +Intervenante : Merve Noyan +Traduction : Loïck Bourdois +Un aperçu de la tâche de modélisation du langage masqué. +Vous pouvez en savoir plus sur la modélisation du langage masqué dans cette section du cours : https://huggingface.co/course/fr/chapter7/3 +Vidéos connexes : +- Traitement des données pour la modélisation du langage masqué : https://youtu.be/8PmhEIXhBvI +- Qu'est-ce que la perplexité ? : https://youtu.be/NURcDHhYe98 +Vous n'avez pas de compte Hugging Face ? Inscrivez-vous maintenant : http://huggingface.co/join +Vous avez une question ? Consultez le forum d’Hugging Face : https://discuss.huggingface.co/c/course/20 + + + +🤗 Tasks : Résumé de textes + +Cette vidéo fait partie du cours d’Hugging Face : http://huggingface.co/course/fr +Intervenante : Merve Noyan +Traduction : Loïck Bourdois +Un aperçu de la tâche de résumé de textes. +Vous pouvez en savoir plus sur le résumé de textes dans cette section du cours : https://huggingface.co/course/fr/chapter7/5 +Vidéos connexes : +- Traitement des données pour le résumé : https://youtu.be/1m7BerpSq8A +- Qu'est-ce que la métrique ROUGE ? https://youtu.be/TMshhnrEXlg +Vous n'avez pas de compte Hugging Face ? Inscrivez-vous maintenant : http://huggingface.co/join +Vous avez une question ? Consultez le forum d’Hugging Face : https://discuss.huggingface.co/c/course/20 + + + +🤗 Tasks : Traduction + +Cette vidéo fait partie du cours d’Hugging Face : http://huggingface.co/course/fr +Intervenante : Merve Noyan +Traduction : Loïck Bourdois +Un aperçu de la tâche de traduction. +Vous pouvez en savoir plus sur la traduction dans cette section du cours : https://huggingface.co/course/fr/chapter7/4 +Vidéos connexes : +- Traitement des données pour la traduction : https://youtu.be/XAR8jnZZuUs +- Qu'est-ce que la métrique BLEU ? : https://youtu.be/M05L1DhFqcw +Vous n'avez pas de compte Hugging Face ? Inscrivez-vous maintenant : http://huggingface.co/join +Vous avez une question ? Consultez le forum d’Hugging Face : https://discuss.huggingface.co/c/course/20 \ No newline at end of file From 0d72c4ed66f8d5b2ba72045e9a250b92a7b9e30a Mon Sep 17 00:00:00 2001 From: lbourdois <58078086+lbourdois@users.noreply.github.com> Date: Fri, 6 Jan 2023 22:09:28 +0100 Subject: [PATCH 2/8] Fix --- .../fr/63_data-processing-for-causal-language-modeling.srt | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/subtitles/fr/63_data-processing-for-causal-language-modeling.srt b/subtitles/fr/63_data-processing-for-causal-language-modeling.srt index ebf9da64e..c4d912776 100644 --- a/subtitles/fr/63_data-processing-for-causal-language-modeling.srt +++ b/subtitles/fr/63_data-processing-for-causal-language-modeling.srt @@ -116,11 +116,11 @@ et nous ne perdons aucune séquence car elles sont trop courtes. Jusqu'à prése 30 00:03:05,840 --> 00:03:10,720 -des entrées pour la modélisation causale du langage, mais pas des étiquettes nécessaires à l'entraînement supervisée. +des entrées pour la modélisation du langage causal, mais pas des étiquettes nécessaires à l'entraînement supervisée. 31 00:03:11,600 --> 00:03:16,480 -Lorsque nous effectuons une modélisation causale du langage, nous n'avons pas besoin d'étiquettes supplémentaires pour les séquences d'entrée +Lorsque nous effectuons une modélisation du langage causal, nous n'avons pas besoin d'étiquettes supplémentaires pour les séquences d'entrée 32 00:03:16,480 --> 00:03:22,080 @@ -168,4 +168,4 @@ Donc vous voyez qu'il n'y a pas de magie 43 00:04:21,600 --> 00:04:27,840 -impliquée dans le traitement des données pour la modélisation du langage causal et ne nécessite que quelques étapes simples ! \ No newline at end of file +impliquée dans le traitement des données pour la modélisation du langage causal et ne nécessite que quelques étapes simples ! From bddcf37b6743567d6b90e1f5d17bdb38308c9f67 Mon Sep 17 00:00:00 2001 From: lbourdois <58078086+lbourdois@users.noreply.github.com> Date: Fri, 6 Jan 2023 22:20:45 +0100 Subject: [PATCH 3/8] =?UTF-8?q?Update=20tasks=5F00=5F=F0=9F=A4=97-tasks-to?= =?UTF-8?q?ken-classification.srt?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...37\244\227-tasks-token-classification.srt" | 59 +++++++------------ 1 file changed, 21 insertions(+), 38 deletions(-) diff --git "a/subtitles/fr/tasks_00_\360\237\244\227-tasks-token-classification.srt" "b/subtitles/fr/tasks_00_\360\237\244\227-tasks-token-classification.srt" index 7120d4f6e..bf391083f 100644 --- "a/subtitles/fr/tasks_00_\360\237\244\227-tasks-token-classification.srt" +++ "b/subtitles/fr/tasks_00_\360\237\244\227-tasks-token-classification.srt" @@ -1,35 +1,30 @@ 1 00:00:04,520 --> 00:00:07,400 -Bienvenue dans la série de tâches Hugging Face ! +Bienvenue dans la série d'Hugging Face sur les tâches ! 2 00:00:07,400 --> 00:00:11,870 -Dans cette vidéo, nous allons examiner la -tâche de classification des jetons. +Dans cette vidéo, nous allons jeter un coup d'œil à la tâche de classification de tokens. 3 00:00:11,870 --> 00:00:17,900 -La classification des jetons consiste à attribuer -une étiquette à chaque jeton dans une phrase. +La classification de tokens consiste à attribuer une étiquette à chaque token d'une phrase 4 00:00:17,900 --> 00:00:23,310 -Il existe diverses tâches de classification de jetons -et les plus courantes sont la reconnaissance d'entités nommées et le balisage de la +Il existe plusieurs tâches de classification de tokens, les plus courantes étant la reconnaissance d’entités nommées 5 00:00:23,310 --> 00:00:26,430 -partie du discours. +et le « part-of-speech ». 6 00:00:26,430 --> 00:00:31,640 -Jetons un coup d'œil à la -tâche de reconnaissance d'entité nommée. +Jetons un coup d'œil rapide à la tâche de reconnaissance d'entités nommées 7 00:00:31,640 --> 00:00:38,400 -L'objectif de cette tâche est de trouver les entités -dans un morceau de texte, telles qu'une personne, un lieu +L'objectif de cette tâche est de trouver les entités dans un texte, comme une personne, un lieu 8 00:00:38,400 --> 00:00:40,210 @@ -37,56 +32,47 @@ ou une organisation. 9 00:00:40,210 --> 00:00:45,250 -Cette tâche consiste à étiqueter chaque -jeton avec une classe pour chaque entité et +Cette tâche est formulée comme l'étiquetage de chaque token avec une classe pour chaque entité, 10 00:00:45,250 --> 00:00:51,719 -une autre classe pour les jetons qui n'ont pas d'entité. +et une autre classe pour les tokens qui n'ont pas d'entité. 11 00:00:51,719 --> 00:00:55,670 -Une autre tâche de classification des jetons est le balisage des parties du discours -. +Une autre tâche de classification de tokens est le « part-of-speech ». 12 00:00:55,670 --> 00:01:01,399 -Le but de cette tâche est d'étiqueter les mots -pour une partie particulière d'un discours, comme le +L'objectif de cette tâche est d'étiqueter les mots pour une partie particulière du texte, comme 13 00:01:01,399 --> 00:01:05,900 -nom, le pronom, l'adjectif, le verbe et ainsi de suite. +un nom, un pronom, un adjectif, un verbe, etc. 14 00:01:05,900 --> 00:01:11,270 -Cette tâche consiste à étiqueter chaque -jeton avec des parties du discours. +Cette tâche est formulée comme l'étiquetage de chaque token avec les parties du texte. 15 00:01:11,270 --> 00:01:19,659 -Les modèles de classification de jetons sont évalués -sur l'exactitude, le rappel, la précision et le score F1. +Les modèles de classification de tokens sont évalués sur l'exactitude, le rappel, la précision et le score F1. 16 00:01:19,659 --> 00:01:22,950 -Les métriques sont calculées pour chacune des -classes. +Les métriques sont calculées pour chacune des classes. 17 00:01:22,950 --> 00:01:28,040 -Nous calculons les vrais positifs, les vrais négatifs -et les faux positifs pour calculer la précision +Nous calculons les vrais positifs, les vrais négatifs et les faux positifs pour calculer la précision 18 00:01:28,040 --> 00:01:31,829 -et le rappel, et prenons leur moyenne harmonique pour -obtenir le F1-Score. +et le rappel, et prenons leur moyenne harmonique pour obtenir le score F1. 19 00:01:31,829 --> 00:01:42,329 -Ensuite, nous le calculons pour chaque classe et prenons -la moyenne globale pour évaluer notre modèle. +Ensuite, nous les calculons pour chaque classe et prenons la moyenne globale pour évaluer notre modèle. 20 00:01:42,329 --> 00:01:45,680 @@ -94,8 +80,7 @@ Un exemple de jeu de données utilisé pour cette tâche est ConLL2003. 21 00:01:45,680 --> 00:01:51,750 -Ici, chaque jeton appartient à une certaine -classe d'entités nommées, désignées par les indices de la +Ici, chaque token appartient à une certaine classe d'entités nommées, désignées par les indices de la 22 00:01:51,750 --> 00:01:55,380 @@ -103,8 +88,7 @@ liste contenant les étiquettes. 23 00:01:55,380 --> 00:02:00,720 -Vous pouvez extraire des informations importantes des -factures à l'aide de modèles de reconnaissance d'entités nommées, +Vous pouvez extraire des informations importantes de factures à l'aide de modèles de reconnaissance d'entités nommées, 24 00:02:00,720 --> 00:02:07,070 @@ -112,5 +96,4 @@ telles que la date, le nom de l'organisation ou l'adresse. 25 00:02:07,070 --> 00:02:16,840 -Pour plus d'informations sur la tâche de classification des jetons -, consultez le cours Hugging Face. +Pour plus d'informations sur la tâche de classification de tokens, consultez le cours d'Hugging Face. From 8890bdee4f21a4e15f674d30d2798c521ebc1fb7 Mon Sep 17 00:00:00 2001 From: lbourdois <58078086+lbourdois@users.noreply.github.com> Date: Fri, 6 Jan 2023 22:20:50 +0100 Subject: [PATCH 4/8] =?UTF-8?q?Update=20tasks=5F01=5F=F0=9F=A4=97-tasks-qu?= =?UTF-8?q?estion-answering.srt?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...\237\244\227-tasks-question-answering.srt" | 50 +++++++------------ 1 file changed, 17 insertions(+), 33 deletions(-) diff --git "a/subtitles/fr/tasks_01_\360\237\244\227-tasks-question-answering.srt" "b/subtitles/fr/tasks_01_\360\237\244\227-tasks-question-answering.srt" index 19ee1a8b8..da7060062 100644 --- "a/subtitles/fr/tasks_01_\360\237\244\227-tasks-question-answering.srt" +++ "b/subtitles/fr/tasks_01_\360\237\244\227-tasks-question-answering.srt" @@ -1,36 +1,30 @@ 1 00:00:04,400 --> 00:00:06,480 -Bienvenue dans la série de tâches Hugging Face. +Bienvenue dans la série d'Hugging Face sur les tâches ! 2 00:00:07,200 --> 00:00:10,080 -Dans cette vidéo, nous allons examiner -la tâche de réponse aux questions. +Dans cette vidéo, nous allons examiner la tâche de réponse aux questions. 3 00:00:13,120 --> 00:00:17,200 -La réponse aux questions consiste à -extraire une réponse dans un document donné. +La réponse aux questions consiste à extraire une réponse dans un document donné. 4 00:00:21,120 --> 00:00:25,600 -Les modèles de réponse aux questions prennent un contexte, -qui est le document dans lequel vous souhaitez effectuer une recherche, +Les modèles de réponse aux questions prennent un contexte, qui est le document dans lequel vous souhaitez effectuer une recherche, 5 00:00:26,240 --> 00:00:31,440 -et une question et renvoient une réponse. -Notez que la réponse n'est pas générée, +et une question et renvoient une réponse. Notez que la réponse n'est pas générée, 6 00:00:31,440 --> 00:00:37,600 -mais extraite du contexte. Ce type -de réponse aux questions est appelé extractif. +mais extraite du contexte. Ce type de réponse aux questions est appelé extractive. 7 00:00:42,320 --> 00:00:46,960 -La tâche est évaluée sur deux -statistiques, la correspondance exacte et le score F1. +La tâche est évaluée sur deux statistiques, la correspondance exacte et le score F1. 8 00:00:49,680 --> 00:00:52,320 @@ -38,50 +32,40 @@ Comme son nom l'indique, la correspondance exacte recherche une 9 00:00:52,320 --> 00:00:57,840 -correspondance exacte entre la -réponse prédite et la bonne réponse. +correspondance exacte entre la réponse prédite et la bonne réponse. 10 00:01:00,080 --> 00:01:05,520 -Une métrique couramment utilisée est le F1-Score, qui -est calculé sur des jetons prédits +Une métrique couramment utilisée est le F1-Score, qui est calculé sur des tokens prédits 11 00:01:05,520 --> 00:01:10,960 -correctement et incorrectement. Il est calculé -sur la moyenne de deux métriques appelées +correctement et incorrectement. Il est calculé sur la moyenne de deux métriques appelées 12 00:01:10,960 --> 00:01:16,560 -précision et rappel, qui sont des métriques -largement utilisées dans les problèmes de classification. +précision et rappel, qui sont des métriques largement utilisées dans les problèmes de classification. 13 00:01:20,880 --> 00:01:28,240 -Un exemple d'ensemble de données utilisé pour cette tâche est appelé -SQuAD. Cet ensemble de données contient des contextes, des questions +Un exemple de jeu de données utilisé pour cette tâche est appelé SQuAD. Ce jeu de données contient des contextes, des questions 14 00:01:28,240 --> 00:01:32,080 -et les réponses obtenues à -partir d'articles de Wikipédia en anglais. +et les réponses obtenues à partir d'articles de Wikipédia en anglais. 15 00:01:35,440 --> 00:01:39,520 -Vous pouvez utiliser des modèles de questions-réponses pour -répondre automatiquement aux questions posées +Vous pouvez utiliser des modèles de réponse aux questions pour répondre automatiquement aux questions posées 16 00:01:39,520 --> 00:01:46,480 -par vos clients. Vous avez simplement besoin d'un document -contenant des informations sur votre entreprise +par vos clients. Vous avez simplement besoin d'un document contenant des informations sur votre entreprise 17 00:01:47,200 --> 00:01:53,840 -et interrogez ce document avec -les questions posées par vos clients. +et interrogez ce document avec les questions posées par vos clients. 18 00:01:55,680 --> 00:02:06,160 -Pour plus d'informations sur la tâche Question Answering -, consultez le cours Hugging Face. +Pour plus d'informations sur la tâche de réponse aux questions, consultez le cours d'Hugging Face. From 40715656f84ff4649cd3da47a62f11edcdf3e58d Mon Sep 17 00:00:00 2001 From: lbourdois <58078086+lbourdois@users.noreply.github.com> Date: Fri, 6 Jan 2023 22:20:56 +0100 Subject: [PATCH 5/8] =?UTF-8?q?Update=20tasks=5F02=5F=F0=9F=A4=97-tasks-ca?= =?UTF-8?q?usal-language-modeling.srt?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...44\227-tasks-causal-language-modeling.srt" | 38 +++++++------------ 1 file changed, 13 insertions(+), 25 deletions(-) diff --git "a/subtitles/fr/tasks_02_\360\237\244\227-tasks-causal-language-modeling.srt" "b/subtitles/fr/tasks_02_\360\237\244\227-tasks-causal-language-modeling.srt" index f2a509484..27e05d726 100644 --- "a/subtitles/fr/tasks_02_\360\237\244\227-tasks-causal-language-modeling.srt" +++ "b/subtitles/fr/tasks_02_\360\237\244\227-tasks-causal-language-modeling.srt" @@ -1,63 +1,51 @@ 1 00:00:04,560 --> 00:00:06,640 -Bienvenue dans la série de tâches Hugging Face ! +Bienvenue dans la série d'Hugging Face sur les tâches ! 2 00:00:07,200 --> 00:00:10,400 -Dans cette vidéo, nous allons jeter un œil -à la modélisation du langage causal. +Dans cette vidéo, nous allons jeter un œil à la modélisation du langage causal. 3 00:00:13,600 --> 00:00:16,880 -La modélisation du langage causal consiste à -prédire le +La modélisation du langage causal consiste à prédire le 4 00:00:16,880 --> 00:00:21,920 -mot suivant dans une phrase, compte tenu de tous les -mots précédents. Cette tâche est très +mot suivant dans une phrase, compte tenu de tous les mots précédents. Cette tâche est très 5 00:00:21,920 --> 00:00:29,920 -similaire à la fonction de correction automatique -que vous pourriez avoir sur votre téléphone. +similaire à la fonction de correction automatique que vous pourriez avoir sur votre téléphone. 6 00:00:29,920 --> 00:00:34,720 -Ces modèles prennent une séquence à -compléter et génèrent la séquence complète. +Ces modèles prennent une séquence à compléter et génèrent la séquence complète. 7 00:00:38,640 --> 00:00:44,160 -Les statistiques de classification ne peuvent pas être utilisées, car il n'y a -pas de réponse correcte unique pour l'achèvement. +Les métriques de classification ne peuvent pas être utilisées, car il n'y a pas de réponse correcte unique pour la complétion. 8 00:00:44,960 --> 00:00:49,280 -Au lieu de cela, nous évaluons la distribution -du texte complété par le modèle. +Au lieu de cela, nous évaluons la distribution du texte complété par le modèle. 9 00:00:50,800 --> 00:00:55,440 -Une mesure courante pour ce faire est la -perte d'entropie croisée. La perplexité est +Une métrique courante pour ce faire est la perte d'entropie croisée. La perplexité est 10 00:00:55,440 --> 00:01:01,280 -également une mesure largement utilisée et elle est calculée -comme l'exponentielle de la perte d'entropie croisée. +aussi une métrique largement utilisée et elle est calculée comme l'exponentielle de la perte d'entropie croisée. 11 00:01:05,200 --> 00:01:11,840 -Vous pouvez utiliser n'importe quel ensemble de données avec du texte brut -et segmenter le texte pour préparer les données. +Vous pouvez utiliser n'importe quel jeu de données avec du texte brut et tokeniser le texte pour préparer les données. 12 00:01:15,040 --> 00:01:18,240 -Les modèles de langage causal peuvent -être utilisés pour générer du code. +Les modèles de langage causal peuvent être utilisés pour générer du code. 13 00:01:22,480 --> 00:01:33,200 -Pour plus d'informations sur la -tâche Modélisation du langage causal, consultez le cours Hugging Face. +Pour plus d'informations sur la tâche de modélisation du langage causal, consultez le cours d'Hugging Face. From bec4efa1dfae96aeb67ea9e9e0f49331e2c3bc51 Mon Sep 17 00:00:00 2001 From: lbourdois <58078086+lbourdois@users.noreply.github.com> Date: Fri, 6 Jan 2023 22:21:01 +0100 Subject: [PATCH 6/8] =?UTF-8?q?Update=20tasks=5F03=5F=F0=9F=A4=97-tasks-ma?= =?UTF-8?q?sked-language-modeling.srt?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...44\227-tasks-masked-language-modeling.srt" | 46 +++++++------------ 1 file changed, 16 insertions(+), 30 deletions(-) diff --git "a/subtitles/fr/tasks_03_\360\237\244\227-tasks-masked-language-modeling.srt" "b/subtitles/fr/tasks_03_\360\237\244\227-tasks-masked-language-modeling.srt" index 47686d9b0..ca32dc906 100644 --- "a/subtitles/fr/tasks_03_\360\237\244\227-tasks-masked-language-modeling.srt" +++ "b/subtitles/fr/tasks_03_\360\237\244\227-tasks-masked-language-modeling.srt" @@ -1,16 +1,14 @@ 1 00:00:04,660 --> 00:00:07,589 -Bienvenue dans la série de tâches Hugging Face ! +Bienvenue dans la série d'Hugging Face sur les tâches ! 2 00:00:07,589 --> 00:00:13,730 -Dans cette vidéo, nous allons jeter un œil à la -modélisation du langage masqué. +Dans cette vidéo, nous allons jeter un œil à la modélisation du langage masqué. 3 00:00:13,730 --> 00:00:20,720 -La modélisation du langage masqué consiste à prédire -quels mots doivent remplir les blancs d'une +La modélisation du langage masqué consiste à prédire quels mots doivent remplir les blancs d'une 4 00:00:20,720 --> 00:00:23,500 @@ -18,57 +16,47 @@ phrase. 5 00:00:23,500 --> 00:00:32,870 -Ces modèles prennent un texte masqué en entrée -et génèrent les valeurs possibles pour ce masque. +Ces modèles prennent un texte masqué en entrée et génèrent les valeurs possibles pour ce masque. 6 00:00:32,870 --> 00:00:37,550 -La modélisation en langage masqué est pratique avant d'affiner -votre modèle pour votre tâche. +La modélisation en langage masqué est pratique avant de finetuner votre modèle pour votre tâche. 7 00:00:37,550 --> 00:00:43,579 -Par exemple, si vous devez utiliser un modèle dans -un domaine spécifique, par exemple des documents biomédicaux, des +Par exemple, si vous devez utiliser un modèle dans un domaine spécifique, par exemple des documents biomédicaux, des 8 00:00:43,579 --> 00:00:49,050 -modèles comme BERT traiteront vos mots spécifiques à un domaine -comme des jetons rares. +modèles comme BERT traiteront vos mots spécifiques à un domaine comme des tokens rares. 9 00:00:49,050 --> 00:00:54,220 -Si vous entraînez un modèle de langage masqué à l'aide de -votre corpus biomédical, puis affinez +Si vous entraînez un modèle de langage masqué à l'aide de votre corpus biomédical, puis finetunez 10 00:00:54,220 --> 00:01:02,929 -votre modèle sur une tâche en aval, vous -obtiendrez de meilleures performances. +votre modèle sur une tâche en aval, vous obtiendrez de meilleures performances. 11 00:01:02,929 --> 00:01:07,799 -Les métriques de classification ne peuvent pas être utilisées car -il n'y a pas de réponse correcte unique aux +Les métriques de classification ne peuvent pas être utilisées car il n'y a pas de réponse correcte unique aux 12 00:01:07,799 --> 00:01:08,799 -valeurs de masque. +valeurs du masque. 13 00:01:08,799 --> 00:01:12,900 -Au lieu de cela, nous évaluons la distribution des -valeurs de masque. +Au lieu de cela, nous évaluons la distribution des valeurs du masque. 14 00:01:12,900 --> 00:01:16,590 -Une métrique courante pour ce faire est la -perte d'entropie croisée. +Une métrique courante pour ce faire est la perte d'entropie croisée. 15 00:01:16,590 --> 00:01:22,010 -La perplexité est également une métrique largement utilisée et -elle est calculée comme l'exponentielle de la +La perplexité est aussi une métrique largement utilisée et elle est calculée comme l'exponentielle de la 16 00:01:22,010 --> 00:01:27,240 @@ -76,10 +64,8 @@ perte d'entropie croisée. 17 00:01:27,240 --> 00:01:35,680 -Vous pouvez utiliser n'importe quel jeu de données avec du texte brut et -marquer le texte pour masquer les données. +Vous pouvez utiliser n'importe quel jeu de données avec du texte brut et tokeniser le texte pour masquer les données. 18 00:01:35,680 --> 00:01:44,710 -Pour plus d'informations sur la -modélisation du langage masqué, consultez le cours Hugging Face. +Pour plus d'informations sur la modélisation du langage masqué, consultez le cours d'Hugging Face. From acc4495678ad6a610e7efdcf16f4f43e669573ff Mon Sep 17 00:00:00 2001 From: lbourdois <58078086+lbourdois@users.noreply.github.com> Date: Fri, 6 Jan 2023 22:21:06 +0100 Subject: [PATCH 7/8] =?UTF-8?q?Update=20tasks=5F04=5F=F0=9F=A4=97-tasks-su?= =?UTF-8?q?mmarization.srt?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ..._\360\237\244\227-tasks-summarization.srt" | 43 +++++++------------ 1 file changed, 15 insertions(+), 28 deletions(-) diff --git "a/subtitles/fr/tasks_04_\360\237\244\227-tasks-summarization.srt" "b/subtitles/fr/tasks_04_\360\237\244\227-tasks-summarization.srt" index a8bc6e3bd..8a19f28bd 100644 --- "a/subtitles/fr/tasks_04_\360\237\244\227-tasks-summarization.srt" +++ "b/subtitles/fr/tasks_04_\360\237\244\227-tasks-summarization.srt" @@ -1,68 +1,55 @@ 1 00:00:04,560 --> 00:00:06,640 -Bienvenue dans la série de tâches Hugging Face. +Bienvenue dans la série d'Hugging Face sur les tâches ! 2 00:00:07,280 --> 00:00:10,720 -Dans cette vidéo, nous allons -examiner la tâche de synthèse de texte. +Dans cette vidéo, nous allons examiner la tâche de résumé de texte. 3 -00:00:13,680 --> 00:00:16,480 -Le résumé consiste à -produire une version plus courte +00:00:13,200 --> 00:00:16,480 +Le résumé consiste à produire une version plus courte 4 00:00:16,480 --> 00:00:21,600 -d'un document tout en préservant les informations pertinentes -et importantes du document. +d'un document tout en préservant les informations pertinentes et importantes dans le document. 5 00:00:25,040 --> 00:00:29,840 -Les modèles de synthèse prennent un document à -résumer et génèrent le texte résumé. +Les modèles de résumé prennent un document à résumer et génèrent le texte résumé. 6 00:00:33,360 --> 00:00:40,240 -Cette tâche est évaluée sur le score ROUGE. Il est -basé sur le chevauchement entre la séquence produite +Cette tâche est évaluée sur le score ROUGE. Il est basé sur le chevauchement entre la séquence produite 7 00:00:40,240 --> 00:00:48,000 -et la séquence correcte. -Vous pouvez voir cela comme ROUGE-1, +et la séquence correcte. Vous pouvez voir ceci comme ROUGE-1, 8 00:00:48,000 --> 00:00:55,600 -qui est le chevauchement de jetons uniques et ROUGE-2, -le chevauchement des paires de jetons suivantes. ROUGE-N +qui est le chevauchement de tokens uniques et ROUGE-2, le chevauchement de paires de tokens successives. ROUGE-N 9 00:00:55,600 --> 00:01:02,960 -fait référence au chevauchement de n jetons suivants. -Ici, nous voyons un exemple de la façon dont les chevauchements ont lieu. +fait référence au chevauchement de N tokens successifs. Ici, nous voyons un exemple de la façon dont les chevauchements ont lieu. 10 00:01:06,160 --> 00:01:11,280 -Un exemple d'ensemble de données utilisé pour cette tâche -s'appelle Extreme Summarization, XSUM. Cet +Un exemple de jeu de données utilisé pour cette tâche s'appelle Extreme Summarization (XSUM). 11 00:01:11,280 --> 00:01:14,480 -ensemble de données contient des textes et -leurs versions résumées. +Ce jeu de données contient des textes et leurs versions résumées. 12 00:01:17,680 --> 00:01:21,280 -Vous pouvez utiliser des modèles -de synthèse pour résumer les articles de recherche, ce +Vous pouvez utiliser des modèles de résumé pour résumer les articles de recherche, ce 13 00:01:21,280 --> 00:01:25,680 -qui permettrait aux chercheurs de choisir facilement des -articles pour leur liste de lecture. +qui permettrait aux chercheurs de choisir facilement des articles pour leur liste de lecture. 14 00:01:29,040 --> 00:01:39,520 -Pour plus d'informations sur la -tâche de synthèse , consultez le cours Hugging Face. +Pour plus d'informations sur la tâche de résumé de textes, consultez le cours d'Hugging Face. From ab3ed611a41cf2a7ea764c7571fe67f298e8b1c0 Mon Sep 17 00:00:00 2001 From: lbourdois <58078086+lbourdois@users.noreply.github.com> Date: Fri, 6 Jan 2023 22:21:12 +0100 Subject: [PATCH 8/8] =?UTF-8?q?Update=20tasks=5F05=5F=F0=9F=A4=97-tasks-tr?= =?UTF-8?q?anslation.srt?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...05_\360\237\244\227-tasks-translation.srt" | 43 +++++++------------ 1 file changed, 15 insertions(+), 28 deletions(-) diff --git "a/subtitles/fr/tasks_05_\360\237\244\227-tasks-translation.srt" "b/subtitles/fr/tasks_05_\360\237\244\227-tasks-translation.srt" index 7473cadd6..06a851321 100644 --- "a/subtitles/fr/tasks_05_\360\237\244\227-tasks-translation.srt" +++ "b/subtitles/fr/tasks_05_\360\237\244\227-tasks-translation.srt" @@ -1,21 +1,18 @@ 1 00:00:04,569 --> 00:00:07,529 -Bienvenue dans la série de tâches Hugging Face. +Bienvenue dans la série d'Hugging Face sur les tâches ! 2 00:00:07,529 --> 00:00:11,840 -Dans cette vidéo, nous allons jeter un œil à la -tâche de traduction. +Dans cette vidéo, nous allons jeter un œil à la tâche de traduction. 3 00:00:11,840 --> 00:00:19,420 -La traduction est la tâche de traduire un texte -d'une langue à une autre. +La traduction est la tâche de traduire un texte d'une langue à une autre. 4 00:00:19,420 --> 00:00:24,420 -Ces modèles prennent un texte dans la langue source -et génèrent la traduction de ce texte dans +Ces modèles prennent un texte dans la langue source et génèrent la traduction de ce texte dans 5 00:00:24,420 --> 00:00:28,609 @@ -27,8 +24,7 @@ La tâche est évaluée sur le score BLEU. 7 00:00:31,619 --> 00:00:38,430 -Le score varie de 0 à 1, où 1 signifie que -la traduction correspond parfaitement et 0 ne +Le score varie de 0 à 1, où 1 signifie que la traduction correspond parfaitement et 0 ne 8 00:00:38,430 --> 00:00:40,110 @@ -36,22 +32,19 @@ correspond pas du tout. 9 00:00:40,110 --> 00:00:45,320 -BLEU est calculé sur les jetons suivants -appelés n-grammes. +BLEU est calculé sur les tokens successifs appelés n-grammes. 10 00:00:45,320 --> 00:00:51,629 -Unigram fait référence à un seul jeton tandis que bi-gramme -fait référence à des paires de jetons et n-grammes fait référence à +« unigram » fait référence à un seul token tandis que bi-gramme fait référence à des paires de tokens et n-grammes fait référence à 11 00:00:51,629 --> 00:00:56,219 -n jetons suivants. +n tokens successifs. 12 00:00:56,219 --> 00:01:01,859 -Les ensembles de données de traduction automatique contiennent des paires -de texte dans une langue et la traduction du +Les jeux de données de traduction automatique contiennent des paires de texte dans une langue et la traduction du 13 00:01:01,859 --> 00:01:05,910 @@ -59,13 +52,11 @@ texte dans une autre langue. 14 00:01:05,910 --> 00:01:11,290 -Ces modèles peuvent vous aider à créer des -agents conversationnels dans différentes langues. +Ces modèles peuvent vous aider à créer des agents conversationnels dans différentes langues. 15 00:01:11,290 --> 00:01:16,110 -Une option consiste à traduire les données de formation -utilisées pour le chatbot et à former un +Une option consiste à traduire les données d'entraînement utilisées pour le chatbot et à entraîner un 16 00:01:16,110 --> 00:01:19,970 @@ -73,18 +64,15 @@ chatbot séparé. 17 00:01:19,970 --> 00:01:24,950 -Vous pouvez mettre un modèle de traduction de -la langue de votre utilisateur vers la langue dans laquelle votre chatbot +Vous pouvez mettre un modèle de traduction de la langue de votre utilisateur vers la langue dans laquelle votre chatbot 18 00:01:24,950 --> 00:01:31,360 -est formé, traduire les entrées de l'utilisateur et -effectuer une classification d'intention, prendre la sortie +est entraîné, traduire les entrées de l'utilisateur et effectuer une classification d'intention, prendre la sortie 19 00:01:31,360 --> 00:01:39,399 -du chatbot et la traduire de la langue dans laquelle -votre chatbot a été formé vers la +du chatbot et la traduire de la langue dans laquelle votre chatbot a été entraîné vers la 20 00:01:39,399 --> 00:01:40,850 @@ -92,5 +80,4 @@ langue de l'utilisateur. 21 00:01:40,850 --> 00:01:49,720 -Pour plus d'informations sur la -tâche de traduction, consultez le cours Hugging Face. +Pour plus d'informations sur la tâche de traduction, consultez le cours d'Hugging Face.