Convertir un fichier au format Markdown avec MarkItDown : tutorial complet
Présentation
Dans ce tutoriel, nous allons apprendre à convertir un fichier au format Markdown à l’aide de l’outil MarkItDown développé par Microsoft. Il s’agit plus précisément d’une librairie Python capable de transformer un document source en code Markdown.
Les formats de fichiers suivants sont pris en charge :
- PDF (.pdf)
- PowerPoint (.pptx)
- Word (.docx)
- Excel (.xlsx)
- Images (métadonnées EXIF et OCR)
- Audio (métadonnées EXIF et transcription vocale)
- HTML (traitement spécial de Wikipédia, etc.)
- Divers autres formats de fichiers textes : CSV, JSON, XML, etc.
Il est même possible de configurer MarkItDown pour qu’il sollicite l’IA dans le but d’analyser et de décrire une image ! Pour utiliser cet outil, vous devez disposer d’un environnement Python, ou vous pouvez utiliser le site de démonstration mis à disposition par Matt Palmer.
Vous pouvez également retrouver le GitHub de ce projet.
Prise en main de MarkItDown
Installation de MarkItDown
Pour notre part, nous allons utiliser Ubuntu par l’intermédiaire de Windows Subsystem for Linux pour installer et utiliser MarkItDown. Nous n’aborderons pas l’installation de Python et de Pip en eux-mêmes. Si vous avez besoin d’aide quant à la mise en place d’un environnement Python avec WSL, consultez un article dédié.
Nous allons installer le paquet python3-venv afin de pouvoir créer un environnement virtuel pour ce projet. Cela permet d’isoler les dépendances et bibliothèques Python nécessaires au projet, afin de ne pas interférer avec les autres projets ou la configuration globale de votre système.
Ensuite, déplaçons-nous dans le répertoire fraichement créé.
La commande ci-dessous crée un environnement virtuel dans un sous-répertoire nommé “.markitdown” (vous pouvez utiliser un autre nom). L’environnement virtuel contient une copie indépendante de Python et des outils nécessaires pour gérer les bibliothèques spécifiques au projet.
Puis, nous devons activer l’environnement virtuel.
Après l’activation de l’environnement virtuel, votre prompt dans le terminal devrait indiquer que vous êtes dans l’environnement virtuel.
Par la suite, pour désactiver l’environnement virtuel et revenir au contexte système global, vous pouvez exécuter la commande adéquate.
Passons à la dernière étape : l’installation du paquet MarkItDown via Pip ainsi que l’installation du paquet “ffmpeg” au niveau de Linux, car la librairie en a besoin.
Voilà, MarkItDown est prêt à l’utilisation !
Convertir un fichier au format MarkDown
Il n’existe pas de commande prête à l’emploi pour utiliser MarkItDown : il s’agit d’une bibliothèque qu’il est possible d’utiliser au sein de scripts Python. C’est ce que nous allons faire en reprenant simplement l’exemple mis à disposition par Microsoft sur son GitHub.
Créez et éditez un fichier Python nommé “MarkItDown.py”.
Ajoutez le code nécessaire à ce fichier.
L’exemple ci-dessus sous-entend que nous allons convertir au format MarkDown le fichier nommé “Document.docx”, qui est un fichier Word.
Désormais, il ne reste plus qu’à exécuter notre script Python.
Si l’on copie ce code dans Visual Studio Code et que l’on affiche sur le bouton de prévisualisation, nous pouvons constater que nous obtenons le résultat attendu !
Plutôt que d’afficher le code Markdown dans la console, vous pouvez modifier le script Python pour qu’un fichier de sortie (Document.md) soit créé.
Conclusion
La librairie Python MarkItDown développée par Microsoft s’avère très utile pour convertir différents formats de fichiers au format Markdown, un langage universel qui s’est imposé dans le monde de l’IT ! Le fait que ce soit accessible à partir de scripts Python ouvre la porte à divers cas d’usage et l’intégration avec des outils et des scripts existants.
Qu’en pensez-vous ?
Source : www.it-connect.fr