Vous devriez essayer ce convertisseur de documents open source
Il existe d'innombrables options pour convertir des documents d'un format à un autre, comme la fonction « Enregistrer sous » dans les traitements de texte ou divers convertisseurs en ligne. Il existe également un utilitaire open source pour ce travail que j'utilise constamment : Pandoc.
Pandoc se présente comme « un convertisseur de documents universel », prenant en charge des dizaines de formats de balisage et de types de documents. Il peut gérer des fichiers Microsoft Word, plusieurs variantes de Markdown, des PDF, des fichiers OpenDocument (principalement utilisés par LibreOffice), des blocs-notes Jupyter, le balisage MediaWiki, EPUB, des présentations PowerPoint, LaTeX et de nombreux autres formats. Certains formats de fichiers ne peuvent être utilisés que pour l’importation ou l’exportation, et non dans les deux sens.
Pandoc est disponible dans les gestionnaires de packages de nombreuses distributions Linux, et les propriétaires de Mac sur lesquels Homebrew est installé peuvent le récupérer avec ce référentiel. Si vous disposez de Windows, vous pouvez télécharger le programme d'installation du package à partir du site Web de Pandoc ou l'installer avec des gestionnaires de packages tels que Chocolatey et Winget.
Utilisation de base
Pandoc est une application en ligne de commande, mais deux paramètres sont requis pour la plupart des conversions de documents. Vous lui donnez le chemin d'accès au fichier d'entrée et vous utilisez le -o paramètre pour indiquer où vous souhaitez que le fichier converti soit enregistré. Voici un exemple de base pour convertir un fichier Markdown en HTML :
pandoc « readme.md » -o « readme.html »
Assez simple, non ? Pandoc essaie de détecter automatiquement les formats de fichiers d'entrée et de sortie, vous n'avez donc pas besoin de les définir à chaque fois.
Il arrive cependant que cette vérification automatique ne fonctionne pas : peut-être que votre fichier Markdown a une extension .TXT, ou que le fichier de sortie ne devrait pas avoir d'extension de fichier, ou autre chose. Dans ces cas, vous pouvez définir le format d'entrée avec -f et le format de sortie avec -t comme ça:
pandoc « readme.md » -f markdown -t html -o « readme.html »
Peut-être souhaitez-vous convertir un long fichier texte au format EPUB afin de pouvoir l'ouvrir sur une liseuse ? Pandoc peut faire ça :
pandoc « readme.txt » -o « readme_converted.epub »
Certains documents Word peuvent devoir être convertis en HTML afin que les personnes sans Word puissent les afficher dans un navigateur. Pas de problème, Pandoc peut s'en occuper :
pandoc « manuel.docx » -o « manuel.html »
Cette commande crée simplement le balisage HTML de base pour le texte, sans aucun formatage de style. Si vous souhaitez que le fichier HTML exporté soit un document entièrement autonome, avec des marges de page réactives et d'autres améliorations de lisibilité, vous pouvez utiliser le paramètre -s comme ceci :
pandoc « manuel.docx » -s -o « manuel.html »
Il existe de nombreuses autres options pour Pandoc, comme l'utilisation d'une feuille de style CSS spécifique pour le HTML exporté, le formatage des blocs de code dans les documents, la modification de la façon dont les mathématiques sont converties à partir des fichiers LaTeX, et bien plus encore. La page de démonstration sur le site Web de Pandoc peut vous donner une meilleure idée des capacités de l'outil.
Pandoc n'a pas d'option intégrée pour la conversion groupée de fichiers, mais vous pouvez l'envelopper dans un petit script Bash ou un script PowerShell qui parcourt chaque fichier d'un répertoire. Ce serait une méthode beaucoup plus rapide pour convertir des centaines de documents Word que d’ouvrir chacun d’eux individuellement dans Word.
Accélérer mon travail
J'ai découvert Pandoc pour la première fois lorsque j'essayais d'utiliser l'éditeur MS-DOS pour rédiger des articles. Il s'agit d'un éditeur de texte brut, mais je pourrais taper Markdown pour ajouter des liens, des en-têtes et d'autres mises en forme à mon document. J'avais toujours besoin d'un moyen rapide pour convertir le texte Markdown enregistré au format HTML utilisé par mon système de gestion de contenu (CMS).
Pandoc a fini par fonctionner parfaitement pour cette tâche, même si j'ai dû ajouter le –ascii=vrai paramètre pour que certains symboles s’affichent correctement. Au lieu de sortir dans un fichier, j'ai redirigé la sortie vers le pbcopie commande sous macOS, qui colle le texte HTML dans mon presse-papiers.
pandoc « /Users/corbin/Documents/DOS/MAIN.TXT » -f markdown -t html –ascii=true | pbcopie
En ce moment, je recommence à écrire mes articles dans Microsoft Word. Lorsque je copie mon texte directement depuis Word et que je le colle dans le CMS de mon travail ou dans tout autre éditeur de texte enrichi, il inclut tous le formatage. Je souhaite que mes en-têtes, mes liens et autres mises en forme importantes soient préservés, mais pas la police et la taille exactes enregistrées dans des dizaines de formats aléatoires. balises.
Heureusement, Pandoc fonctionne parfaitement pour cette tâche. J'ai créé un court script qui convertit mon document bloc-notes en HTML, en supprimant les sauts de ligne du fichier d'origine, puis enregistre le résultat dans mon presse-papiers :
pandoc -f docx -t html –ascii=true –extract-media= »$HOME/Desktop/ » « $HOME/Documents/Scratch Pad.docx » –wrap=none | pbcopie
Le seul problème est que ce script est codé en dur dans mon document bloc-notes. Pour les guides et critiques plus longs, je crée généralement un nouveau document Word dans mon dossier Brouillons. Je pouvais simplement ouvrir un terminal pour les convertir en cas de besoin, mais les raccourcis sont encore une fois venus à la rescousse.
J'ai créé un nouveau raccourci qui ajoute une option de menu contextuel « Copier au format HTML » aux documents dans le Finder. Lorsqu'il s'exécute, Shortcut transmet le chemin du fichier à Pandoc, qui colle ensuite le code HTML converti dans mon presse-papiers. Étant donné que Pandoc peut détecter automatiquement le format de fichier, cela ne fonctionne pas uniquement pour les documents Word.
En bref, Pandoc m'a permis d'écrire beaucoup plus facilement et plus rapidement dans les éditeurs de texte de mon choix sans créer d'erreurs de formatage ni de maux de tête. Il est également utile pour de nombreux autres cas d’utilisation de publication et d’archivage. La prochaine fois que vous aurez besoin de convertir certains documents, essayez-le.
