devsite/vault-grasbot/20-Competences/transcription-audio-fgc-transcription.md
2026-05-10 11:10:06 +02:00

5.2 KiB
Raw Blame History

title slug type source domains tags aliases answers priority linked related updated visibility route_parent
Transcription audio (FGC transcription) transcription-audio-fgc-transcription competence manual
ia
web
devops
transcription
whisper
stt
pyannote
diarisation
fastapi
nextjs
ollama
mistral-small
structured-summary
transcription audio fgc
fgc transcription
transcription-audio-fgc-transcription
faster-whisper
pyannote
mistral-small3.2
mistralsmall3.2:24b
résumé structuré transcription
json transcription
transcription fernandgrascalvet
url application transcription
Parle-moi du projet de transcription audio FGC.
Qu'est-ce que le projet FGC transcription ?
Quelle est l'URL ou le lien de l'application web de transcription ?
Où accéder à la transcription en ligne fernandgrascalvet ?
Quel problème pour les réunions et enregistrements longs ?
La diarisation et pyannote sont-ils utilisés ?
Comment sont générés les résumés après transcription ?
Quel modèle LLM pour les résumés JSON et Markdown ?
Mistral small 24b sert à quoi dans le pipeline ?
Différence résumé avec ou sans diarisation ?
Quelle stack technique FastAPI Next transcription ?
7
MOC-Competences
MOC-Ia
ia
transcription-video
fernandgrascalvet-com
grasbot
2026-05-10 public ia

Slug : transcription-audio-fgc-transcription
Ordre d'affichage : (Strapi order — typiquement après la domotique)


Présentation

Ce projet est une application web dédiée à la transcription de l'audio en texte structuré et exportable. L'interface est accessible publiquement sur https://transcription.fernandgrascalvet.com ; l'usage en priorité reste le poste de travail ou le réseau local (machine Ubuntu avec RTX 4090 pour le calcul lourd), avec possibilité de service derrière HTTPS et authentification lorsqu'un périmètre fermé s'impose.

L'ambition produit dépasse un simple script : interface Next.js, API FastAPI, file de jobs avec suivi de progression, plusieurs formats de sortie. La diarisation (qui parle quand) est en place via pyannote. La structuration métier (compte-rendu, schémas JSON, rendu Markdown) s'appuie sur un LLM local Ollama (mistral-small3.2:24b), avec prompts et templates adaptés au cas avec ou sans diarisation ; sur textes longs, une stratégie map-reduce peut être employée selon le budget tokens.


Problème adressé

Les réunions, cours et entretiens produisent des enregistrements longs ; les transformer en texte éditable, horodatable et réutilisable (sous-titres, notes, archives) demande à la fois un moteur de reconnaissance performant et une chaîne logicielle fiable : ingestion, traitement, erreurs, téléchargements.


Fonctionnalités principales (périmètre documenté)

  • Entrées : dépôt de fichier audio (et conteneurs vidéo lorsque le worker extrait la piste audio) ou enregistrement depuis le navigateur — le tout converge vers la même API de création de job.
  • Transcription : faster-whisper sur GPU, avec réglages de modèle et de précision progressivement exposés dans l'UI.
  • Diarisation : pyannote, fusion transcript / locuteurs dans le pipeline.
  • Suivi : états de job visibles ; exports au minimum en TXT, SRT, VTT, JSON (segments).
  • Résumés structurés : templates métier et appels Ollama (mistral-small3.2:24b) pour livrables JSON et Markdown.

Architecture et contraintes

Le navigateur s'appuie sur Next.js ; les routes métier sont proxifiées vers FastAPI. L'authentification JWT et les comptes utilisateurs sont prévus pour les phases où l'API ne doit plus être ouverte publiquement. Le micro en production impose une origine HTTPS (ou localhost), ce qui s'aligne avec une terminaison TLS devant l'application.


Positionnement

Le dépôt formalise une compétence IA appliquée au signal audio : concevoir un produit — pas seulement entraîner ou invoquer un modèle — avec documentation (cahier des charges, architecture des flux, roadmap) pensée pour reprendre le développement entre deux sessions ou avec un assistant.


En bref

Transcription audio, c'est transformer la parole en données utiles : qualité de reconnaissance, hygiène des pipelines (jobs, erreurs, exports), diarisation, puis comptes rendus assistés par LLM — avec l'application sur https://transcription.fernandgrascalvet.com et la fiche portfolio https://fernandgrascalvet.com/competences/transcription-audio-fgc-transcription.


Liens