Agence web » Actualités du digital » Comment utiliser pandoc pour convertir des fichiers sur la ligne de commande Linux

Comment utiliser pandoc pour convertir des fichiers sur la ligne de commande Linux

comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-4147938
Fatmawati Achmad Zaenuri / Shutterstock

Vous pouvez utiliser pandoc sous Linux pour convertir entre plus de 40 formats de fichiers. Vous pouvez également l'utiliser pour créer un système simple de documents en tant que code en écrivant dans Markdown, en le stockant dans gitet la publication dans l'un de ses formats pris en charge.

Conversion de documents et documents en tant que code

Si vous avez un document dans l'un des pandoc's de nombreux formats de fichiers pris en charge, le convertir en l'un des autres est un jeu d'enfant. C’est un outil pratique à avoir!

Mais le vrai pouvoir de pandoc devient évident lorsque vous l'utilisez comme base d'un système de docs-as-code simple. Le principe de docs-as-code est d'adopter certaines des techniques et des principes du développement logiciel et de les appliquer à la rédaction de la documentation, en particulier pour les projets de développement logiciel. Vous pouvez cependant l'appliquer au développement de tout type de documentation.

Les développeurs de logiciels utilisent leur éditeur préféré ou environnement de développement intégré (IDE) pour écrire leurs programmes. Le code qu'ils saisissent est enregistré dans des fichiers texte. Ceux-ci contiennent le code source du programme.

Ils utilisent un système de contrôle de version, ou VCS (Git est le plus populaire), pour capturer les modifications apportées au code source au fur et à mesure de son développement et de son amélioration. Cela signifie que le programmeur a un historique complet de toutes les versions des fichiers de code source. Il ou elle peut accéder rapidement à n'importe quelle version précédente d'un fichier. Git stocke les fichiers dans un référentiel. Il existe un référentiel local sur l'ordinateur de chaque développeur et un référentiel central, partagé et distant, souvent hébergé dans le cloud.

Lorsqu'ils sont prêts à produire une version de travail du programme, ils utilisent un compilateur pour lire le code source et générer un exécutable binaire.

En écrivant vos documents dans un langage de balisage léger basé sur du texte, vous pouvez utiliser un VCS pour contrôler la version de votre écriture. Lorsque vous êtes prêt à distribuer ou publier un document, vous pouvez utiliser pandoc pour générer autant de versions différentes de votre documentation que vous le souhaitez, y compris Web (HTML), traitement de texte ou composition (LibreOffice, Microsoft Word, TeX), format de document portable (PDF), livre électronique (ePub) et bientôt.

Vous pouvez faire tout cela à partir d'un ensemble de fichiers texte légers contrôlés par version.

Installation de pandoc

À installer pandoc sur Ubuntu, utilisez cette commande:

sudo apt-get install pandoc

1593542981_682_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-9714029

Sur Fedora, la commande dont vous avez besoin est la suivante:

sudo dnf install pandoc

Sur Manjaro, vous devez taper:

sudo pacman -Syu pandoc

1593542981_994_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-4914700

Vous pouvez vérifier la version que vous avez installée en utilisant le --version option:

pandoc --version

1593542981_851_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-6874588

Utilisation de pandoc sans fichiers

Si tu utilises pandoc sans aucune option de ligne de commande, il accepte également les entrées tapées. Vous appuyez simplement sur Ctrl + D pour indiquer que vous avez terminé de taper. pandoc s'attend à ce que vous tapiez au format Markdown, et il génère une sortie HTML.

Regardons un exemple:

pandoc

1593542981_265_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-2014167

Nous avons tapé quelques lignes de Markdown et sommes sur le point d'appuyer sur Ctrl + D.

1593542981_35_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-6344190

Dès que nous le faisons, pandoc génère la sortie HTML équivalente.

1593542982_146_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-5223350

Pour faire quelque chose d'utile avec pandoc, cependant, nous devons vraiment utiliser des fichiers.

Notions de base sur le démarque

Markdown est un langage de balisage léger, et une signification particulière est donnée à certains caractères. Vous pouvez utiliser un éditeur de texte brut pour créer un fichier Markdown.

Markdown peut être lu facilement, car il n'y a pas de balises visuellement encombrantes pour distraire du texte. Le formatage dans les documents Markdown ressemble au formatage qu'il représente. Voici quelques principes de base:

  • Pour souligner le texte avec italique, enveloppez-le dans des astérisques. *This will be emphasized*
  • À audacieux texte, utilisez deux astérisques. **This will be in bold**
  • Les en-têtes sont représentés par le signe numérique / la marque de hachage (#). Le texte est séparé du hachage par un espace. Utilisez un hachage pour un en-tête de niveau supérieur, deux pour un deuxième niveau, etc.
  • Pour créer une liste à puces, commencez chaque ligne de la liste par un astérisque et insérez un espace avant le texte.
  • Pour créer une liste numérotée, commencez chaque ligne par un chiffre suivi d'un point, puis insérez un espace avant le texte.
  • Pour créer un lien hypertexte, mettez le nom du site entre crochets (()) et l'URL entre parenthèses (()) ainsi: (Link to How to Geek)(https://www.howtogeek.com/).
  • Pour insérer une image, tapez un point d'exclamation juste avant les crochets (!()). Tapez tout texte alternatif pour l'image entre crochets. Ensuite, placez le chemin d'accès à l'image entre parenthèses (()“). Voici un exemple: !(The Geek)(HTG.png).

Nous couvrirons plus d'exemples de tous ces éléments dans la section suivante.

Conversion de fichiers

Les conversions de fichiers sont simples. pandoc peut généralement déterminer les formats de fichiers avec lesquels vous travaillez à partir de leurs noms de fichiers. Ici, nous allons générer un fichier HTML à partir d'un fichier Markdown. le -o (sortie) indique pandoc le nom du fichier que nous souhaitons créer:

pandoc -o sample.html sample.md

1593542982_440_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-3436894

Notre exemple de fichier Markdown, sample.md, contient la courte section de Markdown montrée dans l'image ci-dessous.

1593542982_405_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-9011593

Un fichier appelé sample.html est créé. Lorsque nous double-cliquez sur le fichier, notre navigateur par défaut l'ouvre.

1593542982_57_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-1628231

Maintenant, générons un document texte Open Document Format que nous pouvons ouvrir dans LibreOffice Writer:

pandoc -o sample.odt sample.md

1593542982_208_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-4533287

Le fichier ODT a le même contenu que le fichier HTML.

1593542982_67_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-8944498

Une touche nette est le texte alternatif pour l'image est également utilisé pour générer automatiquement une légende pour la figure.

1593542982_183_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-3966285

Spécification des formats de fichier

le -f (de) et -t (à) les options sont utilisées pour dire pandoc vers quels formats de fichier vous souhaitez convertir et vers. Cela peut être utile si vous travaillez avec un format de fichier qui partage une extension de fichier avec d'autres formats associés. Par exemple, TeX et LaTeX utilisent tous deux l'extension «.tex».

Nous utilisons également le -s (autonome) donc pandoc générera tout le préambule LaTeX requis pour qu'un document soit un document LaTeX complet, autonome et bien formé. Sans le -s (autonome), la sortie serait toujours un LaTeX bien formé qui pourrait être inséré dans un autre document LaTeX, il ne serait pas analysé correctement en tant que document LaTeX autonome.

Nous tapons ce qui suit:

pandoc -f markdown -t latex -s -o sample.tex sample.md

1593542982_211_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-9803377

Si vous ouvrez le fichier "sample.tex" dans un éditeur de texte, vous verrez le LaTeX généré. Si vous avez un éditeur LaTeX, vous pouvez ouvrir le fichier TEX pour voir un aperçu de la façon dont les commandes de composition LaTeX sont interprétées. Rétrécir la fenêtre pour l'adapter à l'image ci-dessous donnait à l'écran un aspect étroit, mais en réalité, c'était bien.

1593542982_231_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-2448693

Nous avons utilisé un éditeur LaTeX appelé Texmaker. Si vous souhaitez l'installer dans Ubuntu, tapez ce qui suit:

sudo apt-get install texmaker

Dans Fedora, la commande est:

sudo dnf install texmaker

À Manjaro, utilisez:

sudo pacman -Syu texmaker

Conversion de fichiers avec des modèles

Vous commencez probablement à comprendre la flexibilité pandoc fournit. Vous pouvez écrire une fois et publier dans presque tous les formats. C’est un grand exploit, mais les documents semblent un peu vanillés.

Avec les modèles, vous pouvez dicter quels styles pandoc utilise lorsqu'il génère des documents. Par exemple, vous pouvez dire pandoc pour utiliser les styles définis dans un fichier de feuilles de style en cascade (CSS) avec le --css option.

Nous avons créé un petit fichier CSS contenant le texte ci-dessous. Il modifie l'espacement au-dessus et en dessous de l'en-tête de niveau d'un style. Il change également la couleur du texte en blanc et la couleur d'arrière-plan en une nuance de bleu:

h1 {
  color: #FFFFFF;
  background-color: #3C33FF;
  margin-top: 0px;
  margin-bottom: 1px;
}

La commande complète est ci-dessous – notez que nous avons également utilisé l'option autonome (-s):

pandoc -o sample.html -s --css sample.css sample.md

pandoc utilise le style unique de notre fichier CSS minimaliste et l'applique à l'en-tête de niveau un.

1593542983_643_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-7135450

Une autre option de réglage précis dont vous disposez lorsque vous travaillez avec des fichiers HTML consiste à inclure le balisage HTML dans votre fichier Markdown. Cela sera transmis au fichier HTML généré en tant que balisage HTML standard.

Cependant, cette technique doit être réservée lorsque vous ne générez qu'une sortie HTML. Si vous travaillez avec plusieurs formats de fichiers, pandoc ignorera le balisage HTML pour les fichiers non HTML et sera transmis à ceux-ci sous forme de texte.

Nous pouvons également spécifier les styles utilisés lors de la génération des fichiers ODT. Ouvrez un document LibreOffice Writer vierge et ajustez les styles de titre et de police en fonction de vos besoins. Dans notre exemple, nous avons également ajouté un en-tête et un pied de page. Enregistrez votre document sous le nom «odt-template.odt».

Nous pouvons maintenant l'utiliser comme modèle avec le --reference-doc option:

pandoc -o sample.odt --reference-doc=odt-template.odt sample.md

1593542983_947_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-6921707

Comparez cela avec l'exemple ODT précédent. Ce document utilise une police différente, a des en-têtes colorés et comprend des en-têtes et des pieds de page. Cependant, il a été généré à partir du même fichier Markdown "sample.md".

1593542983_993_comment-utiliser-pandoc-pour-convertir-des-fichiers-sur-la-ligne-1002431

Les modèles de document de référence peuvent être utilisés pour indiquer différentes étapes de la production d'un document. Par exemple, vous pourriez avoir des modèles qui ont des filigranes «Brouillon» ou «Pour révision». Un modèle sans filigrane serait utilisé pour un document finalisé.

Génération de PDF

Par défaut, pandoc utilise le moteur PDF LaTeX pour générer des fichiers PDF. Le moyen le plus simple de vous assurer que les dépendances LaTeX appropriées sont satisfaites est d'installer un éditeur LaTeX, tel que Texmaker.

C'est une grosse installation, cependant – Tex et LaTeX sont tous les deux assez lourds. Si votre espace sur le disque dur est limité ou si vous savez que vous n'utiliserez jamais TeX ou LaTeX, vous préférerez peut-être générer un fichier ODT. Ensuite, vous pouvez simplement l'ouvrir dans LibreOffice Writer et l'enregistrer au format PDF.

Docs-as-Code

L'utilisation de Markdown comme langue d'écriture présente plusieurs avantages, notamment les suivants:

  • Travailler dans des fichiers en texte brut est rapide: Ils se chargent plus rapidement que les fichiers de traitement de texte de taille similaire et ont également tendance à se déplacer plus rapidement dans le document. De nombreux éditeurs, dont gedit , Vim , et Emacs, utilisez la coloration syntaxique avec le texte Markdown.
  • Vous aurez une chronologie de toutes les versions de vos documents: Si vous stockez votre documentation dans un VCS, tel que Git, vous pouvez facilement voir les différences entre deux versions du même fichier. Cependant, cela ne fonctionne vraiment que lorsque les fichiers sont en texte brut, car c'est ce avec quoi un VCS s'attend à travailler.
  • Un VCS peut enregistrer qui a apporté des modifications et quand: Cela est particulièrement utile si vous collaborez souvent avec d'autres sur de grands projets. Il fournit également un référentiel central pour les documents eux-mêmes. De nombreux services Git hébergés dans le cloud, tels que GitHub, GitLab et BitBucket, ont des niveaux gratuits dans leurs modèles de tarification.
  • Vous pouvez générer vos documents dans plusieurs formats: Avec seulement quelques scripts shell simples, vous pouvez extraire les styles des documents CSS et de référence. Si vous stockez vos documents dans un référentiel VCS qui s'intègre aux plates-formes d'intégration continue et de déploiement continu (CI / CD), ils peuvent être générés automatiquement chaque fois que le logiciel est créé.

Dernières pensées

Il y a beaucoup plus d'options et de fonctionnalités dans pandoc que ce que nous avons couvert ici. Les processus de conversion pour la plupart des types de fichiers peuvent être modifiés et affinés. Pour en savoir plus, consultez les excellents exemples sur la page Web officielle (et extrêmement détaillée) de Pandoc.