Dato che sono documenti piuttosto lunghi, e tutti in HTML, ho dovuto idearmi uno strumento che facesse la conversione da un linguaggio all'altro, ovvero che prendesse le pagine HTML e mi facesse una conversione grezza in ConTeX.
Questo strumento ora esiste, ed ha la forma di uno script Python, scaricabile cliccando sul link sottostante:
xhtml2ctx
Lo script funziona bene sia sotto linux che sotto windows, e -- quasi certamente -- funzionerà pure sotto MacOSX
Istruzioni
1. Prerequisiti
- Python 2.5 o superiore installato e funzionante sulla vostra macchina
- Una distribuzione ConTeX installata e configurata. Per chi ha windows, io consiglio W32Tex: scaricatevi tutti i pacchetti ed avrete tutto il necessario, ovvero ConTeXt e XeTeX (una variante di TeX che usa i font OpenType). Per chi ha linux o osx, basta ConTex minimals
- Tidy, un analizzatore e correttore sintattico per le pagine HTML. E' necessario perché viene usato per convertire HTML in XHTML. Tidy per win32 lo trovate qui, e installate i binari in una cartella che sia nel path di esecuzione (come c:\windows, per esempio)
2. Come funziona
Supponiamo che abbiate un lungo file HTML e vogliate avere un documento equivalente TeX da rifinire in un momento successivo. I passi da compiere (sotto win32) sono i seguenti:
-
tidy -asxhtml FILE_DA_CONVERTIRE.HTML >FILE_DA_CONVERTIRE.XHTML
-
python xhtml2tex.pyFILE_CONVERTITO.tex
texexec --xtx FILE_CONVERTITO.tex Se non vengono segnalati errori, dovreste ritrovarvi un file PDF, che potete editare con il vostro editor preferito.
3. Opzioni
E' possibile passare una serie di parametri a xhtml2ctx
- --help mostra alcune istruzioni
- -t tratta tutte le tabelle HTML come oggetti float, ovvero slegati dal flusso del testo e posizionati in maniera semi-indipendente
- --css-classes=class1,class2,..,class-n dice al programma di considerare tutti i P e i DIV che hanno le classi CSS specificate nel parametro come blocchi che richiedono una formattazione indipendente.
- --float-classes=class1,class2,..,class-n dice al programma di considerare tutti i P e i DIV che hanno le classi CSS specificate nel parametro come blocchi che richiedono una formattazione indipendente e di considerarli come oggetti float.
4. Bugs e limitazioni
- Non converte le immagini
- non converte gli URL
- Se create un file HTML a partire da un documento Word questo non verrà convertito, tanta è la sporcizia che si trova nelle pagine html di word...
- Se usate questo programma lo fate a vostro rischio e pericolo ed esentate l'autore da qualsiasi responsabilità. In altre parole: sono cavolacci vostri
1 commenti:
Prova Commento.
Posta un commento