devsite/vault-grasbot/20-Competences/transcription-audio-fgc-transcription.md
2026-05-10 11:10:06 +02:00

110 lines
5.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: Transcription audio (FGC transcription)
slug: transcription-audio-fgc-transcription
type: competence
source: manual
domains: [ia, web, devops]
tags:
- transcription
- whisper
- stt
- pyannote
- diarisation
- fastapi
- nextjs
- ollama
- mistral-small
- structured-summary
aliases:
- transcription audio fgc
- fgc transcription
- transcription-audio-fgc-transcription
- faster-whisper
- pyannote
- mistral-small3.2
- mistralsmall3.2:24b
- résumé structuré transcription
- json transcription
- transcription fernandgrascalvet
- url application transcription
answers:
- Parle-moi du projet de transcription audio FGC.
- Qu'est-ce que le projet FGC transcription ?
- Quelle est l'URL ou le lien de l'application web de transcription ?
- Où accéder à la transcription en ligne fernandgrascalvet ?
- Quel problème pour les réunions et enregistrements longs ?
- La diarisation et pyannote sont-ils utilisés ?
- Comment sont générés les résumés après transcription ?
- Quel modèle LLM pour les résumés JSON et Markdown ?
- Mistral small 24b sert à quoi dans le pipeline ?
- Différence résumé avec ou sans diarisation ?
- Quelle stack technique FastAPI Next transcription ?
priority: 7
linked:
- "[[MOC-Competences]]"
- "[[MOC-Ia]]"
related:
- "[[ia]]"
- "[[transcription-video]]"
- "[[fernandgrascalvet-com]]"
- "[[grasbot]]"
updated: 2026-05-10
visibility: public
# Segment URL publique : /competences/{route_parent}/{slug} (sinon /competences/{slug} par défaut).
route_parent: ia
---
**Slug :** `transcription-audio-fgc-transcription`
**Ordre d'affichage :** _(Strapi `order` — typiquement après la domotique)_
---
## Présentation
Ce projet est une **application web** dédiée à la **transcription** de l'audio en texte structuré et exportable. L'interface est accessible publiquement sur **https://transcription.fernandgrascalvet.com** ; l'usage en **priorité** reste le **poste de travail ou le réseau local** (machine **Ubuntu** avec **RTX 4090** pour le calcul lourd), avec possibilité de service derrière **HTTPS** et **authentification** lorsqu'un périmètre fermé s'impose.
L'ambition produit dépasse un simple script : **interface Next.js**, API **FastAPI**, **file de jobs** avec suivi de progression, **plusieurs formats de sortie**. La **diarisation** (qui parle quand) est **en place** via **pyannote**. La **structuration métier** (compte-rendu, schémas **JSON**, rendu **Markdown**) s'appuie sur un LLM local **Ollama** (**mistral-small3.2:24b**), avec **prompts et templates** adaptés au cas **avec** ou **sans** diarisation ; sur textes longs, une stratégie **map-reduce** peut être employée selon le budget tokens.
---
## Problème adressé
Les réunions, cours et entretiens produisent des **enregistrements longs** ; les transformer en **texte éditable**, **horodatable** et **réutilisable** (sous-titres, notes, archives) demande à la fois un moteur de reconnaissance performant et une **chaîne logicielle** fiable : ingestion, traitement, erreurs, téléchargements.
---
## Fonctionnalités principales (périmètre documenté)
- **Entrées** : dépôt de **fichier audio** (et conteneurs vidéo lorsque le worker extrait la piste audio) ou **enregistrement depuis le navigateur** — le tout converge vers la même API de **création de job**.
- **Transcription** : **faster-whisper** sur GPU, avec réglages de modèle et de précision progressivement exposés dans l'UI.
- **Diarisation** : **pyannote**, fusion transcript / locuteurs dans le pipeline.
- **Suivi** : états de job visibles ; exports au minimum en **TXT**, **SRT**, **VTT**, **JSON** (segments).
- **Résumés structurés** : **templates métier** et appels **Ollama** (**mistral-small3.2:24b**) pour livrables **JSON** et **Markdown**.
---
## Architecture et contraintes
Le navigateur s'appuie sur **Next.js** ; les routes métier sont proxifiées vers **FastAPI**. L'**authentification JWT** et les comptes utilisateurs sont prévus pour les phases où l'API ne doit plus être ouverte publiquement. Le **micro** en production impose une origine **HTTPS** (ou localhost), ce qui s'aligne avec une terminaison TLS devant l'application.
---
## Positionnement
Le dépôt formalise une compétence **IA appliquée au signal audio** : concevoir un **produit** — pas seulement entraîner ou invoquer un modèle — avec documentation (**cahier des charges**, **architecture des flux**, **roadmap**) pensée pour **reprendre le développement** entre deux sessions ou avec un assistant.
---
## En bref
**Transcription audio**, c'est transformer la parole en **données utiles** : qualité de reconnaissance, **hygiène** des pipelines (jobs, erreurs, exports), **diarisation**, puis **comptes rendus** assistés par LLM — avec l'application sur **https://transcription.fernandgrascalvet.com** et la fiche portfolio **https://fernandgrascalvet.com/competences/transcription-audio-fgc-transcription**.
---
## Liens
- [[MOC-Competences]] — vue densemble des compétences
- [[MOC-Ia]] — domaine intelligence artificielle
- [[ia]] — parcours IA et infra locale
- [[transcription-video]] — autre chantier transcription / média
- [[fernandgrascalvet-com]] — portfolio où la fiche est exposée