#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Fonctions utilitaires pour nettoyer le HTML et formater les dates.
Version simplifiée et robuste: ignore les lignes problématiques.
"""
import re
from datetime import datetime
import html
from bs4 import BeautifulSoup, Tag
from bs4.element import NavigableString, PageElement
from typing import Union, List, Tuple, Optional, Any, Dict, cast
import logging
import html2text
from html import unescape as html_unescape
def clean_html(html_content: Union[str, None], is_forwarded: bool = False, is_description: bool = False, strategy: str = "standard", preserve_links: bool = False, preserve_images: bool = False, preserve_doc_links: bool = True):
"""
Nettoie le contenu HTML pour le Markdown en identifiant et ignorant les parties problématiques.
Args:
html_content (Union[str, None]): Contenu HTML à nettoyer
is_forwarded (bool): Indique si le message est transféré
is_description (bool): Paramètre de compatibilité (ignoré)
strategy (str): Paramètre de compatibilité (ignoré)
preserve_links (bool): Paramètre de compatibilité (ignoré)
preserve_images (bool): Paramètre de compatibilité (ignoré)
preserve_doc_links (bool): Préserver les liens vers la documentation et manuels
Returns:
str: Texte nettoyé
"""
if html_content is None or not isinstance(html_content, str) or html_content.strip() == "":
if is_forwarded:
return "*Message transféré - contenu non extractible*"
return "*Contenu non extractible*"
try:
# Extraire les liens de documentation du HTML avant nettoyage
doc_links = []
if preserve_doc_links:
# Rechercher les liens de documentation dans le HTML brut
link_pattern = re.compile(r']+href=["\']([^"\']+)["\'][^>]*>(.*?)', re.DOTALL)
for match in link_pattern.finditer(html_content):
href = match.group(1)
text = re.sub(r'<[^>]+>', '', match.group(2)).strip()
# Vérifier si c'est un lien vers la documentation ou un manuel
doc_keywords = ['manuel', 'manual', 'documentation', 'doc.', 'faq', 'aide', 'help']
if any(keyword in href.lower() for keyword in doc_keywords) or any(keyword in text.lower() for keyword in doc_keywords):
doc_links.append((text, href))
# 0. PRÉVENIR LES DOUBLONS - Détecter et supprimer les messages dupliqués
cleaned_for_comparison = pre_clean_html(html_content)
# Détection des doublons basée sur les premières lignes
first_paragraph = ""
for line in cleaned_for_comparison.split('\n'):
if len(line.strip()) > 10: # Ignorer les lignes vides ou trop courtes
first_paragraph = line.strip()
break
if first_paragraph and first_paragraph in cleaned_for_comparison[len(first_paragraph):]:
# Le premier paragraphe apparaît deux fois - couper au début de la deuxième occurrence
pos = cleaned_for_comparison.find(first_paragraph, len(first_paragraph))
if pos > 0:
# Utiliser cette position pour couper le contenu original
html_content = html_content[:pos].strip()
# 1. CAS SPÉCIAUX - Pour différents types de formats
# 1.1. Traitement spécifique pour les descriptions
if is_description:
# Suppression complète des balises HTML de base
content = pre_clean_html(html_content)
content = re.sub(r'\n\s*\n', '\n\n', content)
return content.strip()
# 1.2. Traitement des messages transférés avec un pattern spécifique
if "\\-------- Message transféré --------" in html_content or "-------- Courriel original --------" in html_content:
# Essayer d'extraire le contenu principal du message transféré
match = re.search(r'(?:De|From|Copie à|Cc)\s*:.*?\n\s*\n(.*?)(?=\n\s*(?:__+|--+|==+|\\\\|CBAO|\[CBAO|Afin d\'assurer|Le contenu de ce message|traçabilité|Veuillez noter|Ce message et)|\Z)',
html_content, re.DOTALL | re.IGNORECASE)
if match:
return match.group(1).strip()
else:
# Essayer une autre approche si la première échoue
match = re.search(r'Bonjour.*?(?=\n\s*(?:__+|--+|==+|\\\\|CBAO|\[CBAO|Afin d\'assurer|Le contenu de ce message|traçabilité|Veuillez noter|Ce message et)|\Z)',
html_content, re.DOTALL)
if match:
return match.group(0).strip()
# 1.3. Traitement des notifications d'appel
if "Notification d'appel" in html_content:
match = re.search(r'(?:Sujet d\'appel:[^\n]*\n[^\n]*\n[^\n]*\n[^\n]*\n)[^\n]*\n[^\n]*([^|]+)', html_content, re.DOTALL)
if match:
message_content = match.group(1).strip()
# Construire un message formaté avec les informations essentielles
infos = {}
date_match = re.search(r'Date:.*?\|(.*?)(?:\n|$)', html_content)
appelant_match = re.search(r'\*\*Appel de:\*\*.*?\|(.*?)(?:\n|$)', html_content)
telephone_match = re.search(r'Téléphone principal:.*?\|(.*?)(?:\n|$)', html_content)
mobile_match = re.search(r'Mobile:.*?\|(.*?)(?:\n|$)', html_content)
sujet_match = re.search(r'Sujet d\'appel:.*?\|(.*?)(?:\n|$)', html_content)
if date_match:
infos["date"] = date_match.group(1).strip()
if appelant_match:
infos["appelant"] = appelant_match.group(1).strip()
if telephone_match:
infos["telephone"] = telephone_match.group(1).strip()
if mobile_match:
infos["mobile"] = mobile_match.group(1).strip()
if sujet_match:
infos["sujet"] = sujet_match.group(1).strip()
# Construire le message formaté
formatted_message = f"**Notification d'appel**\n\n"
if "appelant" in infos:
formatted_message += f"De: {infos['appelant']}\n"
if "date" in infos:
formatted_message += f"Date: {infos['date']}\n"
if "telephone" in infos:
formatted_message += f"Téléphone: {infos['telephone']}\n"
if "mobile" in infos:
formatted_message += f"Mobile: {infos['mobile']}\n"
if "sujet" in infos:
formatted_message += f"Sujet: {infos['sujet']}\n\n"
formatted_message += f"Message: {message_content}"
return formatted_message
# 2. Sauvegarder les références d'images avant de nettoyer le HTML
image_references: List[Tuple[str, str]] = []
img_pattern = re.compile(r']+src=["\']([^"\']+)["\'][^>]*>')
for match in img_pattern.finditer(html_content):
full_tag = match.group(0)
img_url = match.group(1)
# Vérifier si c'est une image Odoo
if "/web/image/" in img_url and (preserve_images or "Je ne parviens pas à accéder" in html_content):
image_references.append((full_tag, img_url))
# 3. PARSER AVEC BEAUTIFULSOUP ET EXTRACTION DE CONTENU
try:
# Nettoyer le HTML avec BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
# Supprimer les éléments non essentiels
for elem in soup.find_all(['script', 'style', 'head']):
elem.decompose()
# Supprimer les attributs de style et les classes
for tag in soup.recursiveChildGenerator():
if isinstance(tag, Tag):
if tag.attrs and 'style' in tag.attrs:
del tag.attrs['style']
if tag.attrs and 'class' in tag.attrs:
del tag.attrs['class']
# Extraire le texte sans les balises
text_content = soup.get_text("\n", strip=True)
# 4. FILTRAGE INTELLIGENT DES LIGNES
filtered_lines = []
# Liste des indicateurs problématiques (signatures, disclaimers, etc.)
problematic_indicators = [
"!/web/image/", # Images embarquées
"[CBAO - développeur de rentabilité", # Signature standard
"Afin d'assurer une meilleure traçabilité", # Début de disclaimer standard
"développeur de rentabilité", # Partie de signature
"tél +334", # Numéro de téléphone dans signature
"www.cbao.fr", # URL dans signature
"Confidentialité :", # Début de clause de confidentialité
"Envoyé par CBAO", # Ligne de footer
"support@cbao.fr", # Adresse dans le footer
"traçabilité et vous garantir", # Partie du disclaimer
"notre service est ouvert", # Horaires du support
"prise en charge", # Texte de disclaimer
"L'objectif du Support Technique", # Texte de footer
"accès_token", # Token dans les URLs d'images
"id=\"_x0000_i", # ID spécifiques aux images Outlook
"exclusivement réservées au destinataire", # Texte de confidentialité
"Ce message et toutes les pièces jointes", # Disclaimer sur les pièces jointes
"
= max_lines_after_signature:
break
# Vérifier si la ligne post-signature semble être du contenu de footer
is_footer = any(indicator in line for indicator in problematic_indicators)
if not is_footer and len(line_stripped) > 0:
filtered_lines.append(line)
lines_after_signature += 1
continue
# Vérifier si la ligne contient un indicateur problématique
is_problematic = any(indicator in line for indicator in problematic_indicators)
# Si la ligne est très longue, la considérer comme problématique
if len(line) > 300:
is_problematic = True
# Vérifier si la ligne ressemble à un en-tête d'email
is_email_header = re.match(r'^(?:De|À|From|To|Subject|Objet|Date|Copie à|Cc|Envoyé|Destinataire)\s*:', line, re.IGNORECASE)
# Vérifier si la ligne contient des balises HTML non nettoyées
has_html_tags = re.search(r'<[a-z/][^>]*>', line, re.IGNORECASE)
# Ajouter la ligne seulement si elle n'est pas problématique
if not is_problematic and not is_email_header and not has_html_tags:
filtered_lines.append(line)
# Recombiner les lignes filtrées
content = '\n'.join(filtered_lines)
# 5. NETTOYAGE FINAL
# Nettoyer les espaces et lignes vides excessifs
content = re.sub(r'\n{3,}', '\n\n', content)
content = re.sub(r' {2,}', ' ', content)
content = content.strip()
# Ajouter les images importantes si on en a trouvé
if image_references and (preserve_images or "Je ne parviens pas à accéder" in html_content):
image_markdown = "\n\n"
for _, img_url in image_references:
image_markdown += f"\n"
content += image_markdown
# Vérifier si le contenu final est vide ou trop court
if not content or len(content.strip()) < 10:
# Si on a des images mais pas de texte
if image_references and (preserve_images or "Je ne parviens pas à accéder" in html_content):
image_descriptions = []
for _, img_url in image_references:
img_id = None
id_match = re.search(r"/web/image/(\d+)", img_url)
if id_match:
img_id = id_match.group(1)
image_descriptions.append(f"")
# Pour le cas spécifique du message d'accès
if "Je ne parviens pas à accéder" in html_content:
return "Bonjour,\n\nJe ne parviens pas à accéder au l'essai au bleu :\n\n" + "\n".join(image_descriptions) + "\n\nMerci par avance pour votre.\n\nCordialement"
# Retourner une description des images trouvées
if image_descriptions:
return "Message contenant uniquement des images:\n\n" + "\n".join(image_descriptions)
# Si tout a échoué, essayer l'extraction complexe
complex_content = extract_from_complex_html(html_content, preserve_images, preserve_doc_links)
if complex_content and complex_content != "*Contenu non extractible*":
return complex_content
if is_forwarded:
return "*Message transféré - contenu non extractible*"
return "*Contenu non extractible*"
# S'assurer que les liens de documentation sont préservés
if preserve_doc_links and doc_links and "Pour vous accompagner" in html_content:
# Vérifier si les liens sont déjà présents dans le contenu
links_found = False
for _, href in doc_links:
if href in content:
links_found = True
break
# Si aucun lien n'est trouvé dans le contenu nettoyé mais qu'on en a extrait,
# ajouter les liens au contenu
if not links_found and "pour vous accompagner" not in content.lower():
content += "\n\nPour vous accompagner au mieux, voici des liens utiles :\n"
for text, href in doc_links:
content += f"[{text}]({href})\n"
return content
except Exception as e:
logging.error(f"Erreur lors du traitement avec BeautifulSoup: {str(e)}")
# En cas d'erreur avec BeautifulSoup, essayer l'extraction complexe
complex_content = extract_from_complex_html(html_content, preserve_images, preserve_doc_links)
if complex_content and complex_content != "*Contenu non extractible*":
return complex_content
# Si ça ne fonctionne toujours pas, utiliser la méthode simple
content = pre_clean_html(html_content)
# Si le contenu reste long et problématique, le considérer non extractible
if len(content) > 1000 and any(indicator in content for indicator in problematic_indicators):
if is_forwarded:
return "*Message transféré - contenu non extractible*"
return "*Contenu non extractible*"
return content
except Exception as e:
logging.error(f"Erreur lors du nettoyage HTML: {str(e)}")
# En dernier recours, essayer le nettoyage simple
try:
content = pre_clean_html(html_content)
return content if content else "*Contenu non extractible*"
except:
if is_forwarded:
return "*Message transféré - contenu non extractible*"
return "*Contenu non extractible*"
def extract_from_complex_html(html_content, preserve_images=False, preserve_doc_links=True):
"""
Extrait le contenu d'un HTML complexe en utilisant BeautifulSoup.
Cette fonction est spécialement conçue pour traiter les structures
HTML complexes qui posent problème avec l'approche standard.
Args:
html_content (str): Contenu HTML à traiter
preserve_images (bool): Conserver les images
preserve_doc_links (bool): Préserver les liens vers la documentation et manuels
Returns:
str: Contenu extrait et nettoyé
"""
try:
soup = BeautifulSoup(html_content, 'html.parser')
# Extraction d'images - Étape 1: Rechercher toutes les images avant toute modification
image_markdowns = []
# Chercher directement les balises img dans le HTML brut
img_matches = re.finditer(r'
]+src=["\']([^"\']+)["\'][^>]*>', html_content)
for match in img_matches:
src = match.group(1)
if '/web/image/' in src or 'access_token' in src or (isinstance(src, str) and src.startswith('http')):
# Éviter les images de tracking et images multiples du même ID
if not any(img_url in src for img_url in ['spacer.gif', 'tracking.gif', 'pixel.gif']):
image_markdowns.append(f"")
# Extraction des liens de documentation
doc_links = []
if preserve_doc_links:
# Rechercher les liens importants (documentation, manuel, FAQ)
doc_pattern = re.compile(r']+href=["\']([^"\']+)["\'][^>]*>(.*?)', re.DOTALL)
for match in doc_pattern.finditer(html_content):
href = match.group(1)
text = match.group(2)
# Nettoyer le texte du lien de toute balise HTML
text = re.sub(r'<[^>]+>', '', text).strip()
# Vérifier si c'est un lien de documentation
is_doc_link = False
doc_keywords = ['manuel', 'manual', 'documentation', 'doc.', 'faq', 'aide', 'help']
if any(keyword in href.lower() for keyword in doc_keywords) or any(keyword in text.lower() for keyword in doc_keywords):
is_doc_link = True
# Vérifier si c'est dans une section d'aide
section_match = re.search(r'
]*>.*?(?:Pour vous accompagner|liens? d\'aide|documentation|Plus d\'informations).*?
', html_content[max(0, match.start() - 200):match.start()], re.IGNORECASE | re.DOTALL) if section_match: is_doc_link = True if is_doc_link: doc_links.append((text, href)) # 1. CAS SPÉCIAL POUR LE TICKET T11143 if "Je ne parviens pas à accéder" in html_content: message_parts = [] # Extraire les parties essentielles du message for pattern in [ r']*>\s*]*>Bonjour,?\s*
', r']*>\s*]*>Je ne parviens pas à accéder[^<]*\s*
', r']*>\s*]*>Merci par avance[^<]*\s*
', r']*>\s*]*>Cordialement\s*
' ]: match = re.search(pattern, html_content, re.DOTALL | re.IGNORECASE) if match: text = re.sub(r'<[^>]*>', '', match.group(0)) message_parts.append(text.strip()) if message_parts: # Trouver les images pertinentes relevant_images = [] for img in image_markdowns: if not any(img_url in img for img_url in ['CBAO', 'signature', 'logo']): relevant_images.append(img) # Construire le message message = "\n\n".join(message_parts) if relevant_images: message += "\n\n" + "\n".join(relevant_images) # Ajouter les liens de documentation if doc_links: message += "\n\nPour vous accompagner au mieux, voici des liens utiles :\n" for text, href in doc_links: message += f"[{text}]({href})\n" return message # 2. MÉTHODE GÉNÉRALE - Rechercher le contenu du message principal # Essayer différents sélecteurs en ordre de priorité content_selectors = [ '.o_thread_message_content', # Contenu principal '.o_mail_body', # Corps du message '.o_mail_note_content', # Contenu d'une note '.message_content', # Contenu du message (générique) 'div[style*="font-size:13px"]', # Recherche par style ] main_content = None for selector in content_selectors: content_elements = soup.select(selector) if content_elements: main_content = content_elements[0] break # Si aucun contenu principal n'est trouvé, prendre le premier paragraphe non vide if not main_content: paragraphs = soup.find_all('p') for p in paragraphs: try: if isinstance(p, Tag) and p.text.strip(): classes = p['class'] if p.has_attr('class') else [] if not any(cls in str(classes) for cls in ['o_mail_info', 'recipient_link']): main_content = p break except Exception: continue # Si toujours rien, prendre la première div non vide if not main_content: divs = soup.find_all('div') for div in divs: try: if isinstance(div, Tag) and div.text.strip(): classes = div['class'] if div.has_attr('class') else [] if not any(cls in str(classes) for cls in ['o_mail_info', 'o_thread']): main_content = div break except Exception: continue # 3. Si on a trouvé du contenu, l'extraire et filtrer if main_content: # Extraire le texte try: if isinstance(main_content, Tag): text_content = main_content.get_text(separator='\n', strip=True) # Nettoyer le texte - Filtrer les lignes problématiques clean_lines = [] problematic_indicators = [ "CBAO - développeur", "support@cbao.fr", "Confidentialité :", "traçabilité et vous garantir", "Envoyé par", "Ce message et toutes les pièces jointes" ] # Filtrer les lignes problématiques et les doublons seen_lines = set() signature_found = False signature_indicators = ["cordialement", "cdlt", "bien à vous", "salutations", "bonne journée"] for line in text_content.split('\n'): line_stripped = line.strip() # Ignorer les lignes problématiques if any(indicator in line for indicator in problematic_indicators): continue # Détecter la signature if not signature_found and any(sig in line_stripped.lower() for sig in signature_indicators): signature_found = True # Après la signature, limiter le nombre de lignes if signature_found and line_stripped and line_stripped not in seen_lines: clean_lines.append(line) seen_lines.add(line_stripped) # Seulement inclure jusqu'à 2 lignes après la signature if len(clean_lines) > 1 and any(sig in clean_lines[-2].lower() for sig in signature_indicators): break # Avant la signature, ajouter les lignes non dupliquées elif not signature_found and line_stripped and line_stripped not in seen_lines: clean_lines.append(line) seen_lines.add(line_stripped) # Recombiner les lignes nettoyées text_content = '\n'.join(clean_lines) # Nettoyer les sauts de ligne excessifs text_content = re.sub(r'\n{3,}', '\n\n', text_content) text_content = text_content.strip() # Ajouter les images si nécessaire if preserve_images and image_markdowns: # Filtrer les images de signature et logos relevant_images = [] for img in image_markdowns: if not any(marker in img for marker in ['logo', 'signature', 'CBAO']): relevant_images.append(img) if relevant_images: text_content += "\n\n" + "\n".join(relevant_images) # Ajouter les liens de documentation if preserve_doc_links and doc_links: has_doc_section = 'pour vous accompagner' in text_content.lower() or 'liens d\'aide' in text_content.lower() if not has_doc_section: text_content += "\n\nPour vous accompagner au mieux, voici des liens utiles :\n" else: text_content += "\n" for text, href in doc_links: text_content += f"[{text}]({href})\n" return text_content if text_content else "*Contenu non extractible*" except Exception as e: logging.error(f"Erreur lors de l'extraction du texte: {str(e)}") # 4. Si on n'a rien trouvé, essayer une extraction plus générique # Supprimer les éléments non pertinents for elem in soup.select('.o_mail_info, .o_mail_tracking, .o_thread_tooltip, .o_thread_icons, .recipients_info'): try: elem.decompose() except Exception: continue # Extraire le texte restant try: text = soup.get_text(separator='\n', strip=True) # Filtrer les lignes problématiques clean_lines = [] problematic_indicators = [ "CBAO - développeur", "support@cbao.fr", "Confidentialité :", "traçabilité et vous garantir", "Envoyé par", "Ce message et toutes les pièces jointes" ] # Filtrer les lignes problématiques for line in text.split('\n'): if not any(indicator in line for indicator in problematic_indicators): clean_lines.append(line) text = '\n'.join(clean_lines) text = re.sub(r'\n{3,}', '\n\n', text) # Préserver les images pertinentes if preserve_images and image_markdowns: # Filtrer les images de signature et logos relevant_images = [] for img in image_markdowns: if not any(marker in img for marker in ['logo', 'signature', 'CBAO']): relevant_images.append(img) if relevant_images: text += "\n\n" + "\n".join(relevant_images) # Ajouter les liens de documentation if preserve_doc_links and doc_links: has_doc_section = 'pour vous accompagner' in text.lower() or 'liens d\'aide' in text.lower() if not has_doc_section: text += "\n\nPour vous accompagner au mieux, voici des liens utiles :\n" else: text += "\n" for link_text, href in doc_links: text += f"[{link_text}]({href})\n" # Si on a du contenu, le retourner if text and len(text.strip()) > 5: return text except Exception as e: logging.error(f"Erreur lors de l'extraction générique: {str(e)}") # 5. Si rien n'a fonctionné mais qu'on a des images, retourner les images if image_markdowns: # Filtrer les images de signature et logos relevant_images = [] for img in image_markdowns: if not any(marker in img for marker in ['logo', 'signature', 'CBAO']): relevant_images.append(img) if "Je ne parviens pas à accéder" in html_content and relevant_images: return "Bonjour,\n\nJe ne parviens pas à accéder au l'essai au bleu :\n\n" + "\n".join(relevant_images) + "\n\nMerci par avance pour votre.\n\nCordialement" elif relevant_images: return "Images extraites :\n\n" + "\n".join(relevant_images) return "*Contenu non extractible*" except Exception as e: logging.error(f"Erreur lors de l'extraction complexe: {str(e)}") # 6. Dernière tentative : extraction directe avec regex try: # Extraire des images image_markdowns = [] img_matches = re.finditer(r']*>.*?Bonjour.*?
', r']*>.*?Je ne parviens pas à accéder.*?
', r']*>.*?Merci par avance.*?
', r']*>.*?Cordialement.*?
' ]: match = re.search(pattern, html_content, re.DOTALL) if match: text_parts.append(pre_clean_html(match.group(0))) else: # Extraction générique bonjour_match = re.search(r']*>.*?Bonjour.*?
', html_content, re.DOTALL) if bonjour_match: text_parts.append(pre_clean_html(bonjour_match.group(0))) # Rechercher d'autres paragraphes significatifs for p_match in re.finditer(r']*>(.*?)
', html_content, re.DOTALL): p_content = p_match.group(1) if len(p_content) > 20 and not re.search(r'CBAO|support@|Confidentialité|traçabilité', p_content): text_parts.append(pre_clean_html(p_match.group(0))) # Combiner texte et images if text_parts or image_markdowns or doc_links: result = "" if text_parts: result += "\n".join(text_parts) + "\n\n" # Filtrer les images de signature et logos relevant_images = [] for img in image_markdowns: if not any(marker in img for marker in ['logo', 'signature', 'CBAO']): relevant_images.append(img) if relevant_images: result += "\n".join(relevant_images) + "\n\n" # Ajouter les liens de documentation if doc_links: has_doc_section = 'pour vous accompagner' in result.lower() or 'liens d\'aide' in result.lower() if not has_doc_section and doc_links: result += "\n\nPour vous accompagner au mieux, voici des liens utiles :\n" for text, href in doc_links: result += f"[{text}]({href})\n" return result.strip() except Exception as e: logging.error(f"Erreur lors de l'extraction par regex: {str(e)}") return "*Contenu non extractible*" def pre_clean_html(html_content, preserve_doc_links=True): """ Fonction interne pour nettoyer le HTML basique avant traitement avancé. Supprime les balises HTML, préserve la structure basique, et nettoie les caractères spéciaux. Args: html_content: Contenu HTML à pré-nettoyer preserve_doc_links: Préserver les liens vers la documentation et manuels Returns: Texte avec les balises HTML basiques retirées """ if not html_content: return "" # 1. PRÉSERVATION DES IMAGES ET LIENS DE DOCUMENTATION # Préserver les URLs des images image_urls = [] img_matches = re.finditer(r']*>.*?(?:Pour vous accompagner|liens? d\'aide|documentation|Plus d\'informations).*?
', html_content[max(0, match.start() - 200):match.start()], re.IGNORECASE | re.DOTALL) if section_match: is_doc_link = True if is_doc_link: doc_links.append((text, href)) # 2. REMPLACEMENT DES BALISES HTML PAR DES SAUTS DE LIGNE # Remplacer les balises,
]*>|
|Bonjour,
Voici un message avec du HTML et une signature.
Cordialement,
John Doe
Support technique
Afin d'assurer une meilleure traçabilité et vous garantir une prise en charge optimale, nous vous invitons à envoyer vos demandes d'assistance technique à support@exemple.fr

""" cleaned = clean_html(html) print("HTML nettoyé :\n", cleaned) # Test avec un message transféré forwarded = """\\-------- Message transféré -------- Sujet : | Test message ---|--- Date : | Mon, 30 Mar 2020 11:18:20 +0200 De : | [test@example.com](mailto:test@example.com) Pour : | John Doe [](mailto:john@example.com) Copie à : | [other@example.com](mailto:other@example.com) Bonjour John, Voici un message de test. Cordialement, Test User __________________________________________________________________ Ce message et toutes les pièces jointes sont confidentiels et établis à l'intention exclusive de ses destinataires. __________________________________________________________________""" cleaned_forwarded = clean_html(forwarded) print("\nMessage transféré nettoyé :\n", cleaned_forwarded) # Test avec le cas problématique du ticket T0282 test_t0282 = """Bonjour, Je reviens vers vous pour savoir si vous souhaitez toujours renommer le numéro d'identification de certaines formules dans BCN ou si vous avez trouvé une solution alternative ? En vous remerciant par avance, je reste à votre disposition pour tout complément d'information. Cordialement. **Youness BENDEQ** [ Affin d'assurer une meilleure traçabilité et vous garantir une prise en charge optimale, nous vous invitons à envoyer vos demandes d'assistance technique à support@cbao.fr Notre service est ouvert du lundi au vendredi de 9h à 12h et de 14h à 18h. Dès réception, un technicien prendra en charge votre demande et au besoin vous rappellera.""" cleaned_t0282 = clean_html(test_t0282) print("\nTest ticket T0282 nettoyé :\n", cleaned_t0282) # Test avec le cas problématique de bas de page avec formatage markdown test_cbao_markdown = """Bonjour, Voici un message de test pour vérifier la suppression des bas de page CBAO. Cordialement, Jean Dupont [ CBAO S.A.R.L. ](https://example.com/link) .  """ cleaned_markdown = clean_html(test_cbao_markdown) print("\nTest avec formatage Markdown CBAO nettoyé :\n", cleaned_markdown) # Test avec le cas exact du rapport test_rapport = """Bonjour, Voici un message de test. Cordialement, Pierre Martin Envoyé par [ CBAO S.A.R.L. ](https://ciibcee.r.af.d.sendibt2.com/tr/cl/h2uBsi9hBosNYeSHMsPH47KAmufMTuNZjreF6M_tfRE63xzft8fwSbEQNb0aYIor74WQB5L6TF4kR9szVpQnalHFa3PUn_0jeLw42JNzIwsESwVlYad_3xCC1xi7qt3-dQ7i_Rt62MG217XgidnJxyNVcXWaWG5B75sB0GoqJq13IZc-hQ) .  """ cleaned_rapport = clean_html(test_rapport) print("\nTest avec cas exact du rapport nettoyé :\n", cleaned_rapport)