Roleplaying.it

L'interpretazione è la miglior simulazione... dal 1995!
venerdì 18 dicembre 2009

xhtml2ctx

Come i più geek di voi avranno già notato, ho il malsano hobby di creare PDF abbastanza ben impaginati partendo dai documenti html di alcune SRD molto conosciute. Il mio strumento per fare ciò è ConTeXt, una serie di macro TeX orientate non tanto alla produzione di documenti scientifici quanto al DTP "classico".



Dato che sono documenti piuttosto lunghi, e tutti in HTML, ho dovuto idearmi uno strumento che facesse la conversione da un linguaggio all'altro, ovvero che prendesse le pagine HTML e mi facesse una conversione grezza in ConTeX.

Questo strumento ora esiste, ed ha la forma di uno script Python, scaricabile cliccando sul link sottostante:

xhtml2ctx

Lo script funziona bene sia sotto linux che sotto windows, e -- quasi certamente -- funzionerà pure sotto MacOSX

Istruzioni


1. Prerequisiti


  • Python 2.5 o superiore installato e funzionante sulla vostra macchina
  • Una distribuzione ConTeX installata e configurata. Per chi ha windows, io consiglio W32Tex: scaricatevi tutti i pacchetti ed avrete tutto il necessario, ovvero ConTeXt e XeTeX (una variante di TeX che usa i font OpenType). Per chi ha linux o osx, basta ConTex minimals
  • Tidy, un analizzatore e correttore sintattico per le pagine HTML. E' necessario perché viene usato per convertire HTML in XHTML. Tidy per win32 lo trovate qui, e installate i binari in una cartella che sia nel path di esecuzione (come c:\windows, per esempio)

2. Come funziona


Supponiamo che abbiate un lungo file HTML e vogliate avere un documento equivalente TeX da rifinire in un momento successivo. I passi da compiere (sotto win32) sono i seguenti:

  • tidy -asxhtml FILE_DA_CONVERTIRE.HTML >FILE_DA_CONVERTIRE.XHTML
  • python xhtml2tex.py FILE_CONVERTITO.tex
Una volta ottenuto il file tex provatelo lanciando questo comando:

texexec --xtx FILE_CONVERTITO.tex

Se non vengono segnalati errori, dovreste ritrovarvi un file PDF, che potete editare con il vostro editor preferito.

3. Opzioni


E' possibile passare una serie di parametri a xhtml2ctx

  • --help mostra alcune istruzioni
  • -t tratta tutte le tabelle HTML come oggetti float, ovvero slegati dal flusso del testo e posizionati in maniera semi-indipendente
  • --css-classes=class1,class2,..,class-n dice al programma di considerare tutti i P e i DIV che hanno le classi CSS specificate nel parametro come blocchi che richiedono una formattazione indipendente.
  • --float-classes=class1,class2,..,class-n dice al programma di considerare tutti i P e i DIV che hanno le classi CSS specificate nel parametro come blocchi che richiedono una formattazione indipendente e di considerarli come oggetti float.

4. Bugs e limitazioni


  • Non converte le immagini
  • non converte gli URL
  • Se create un file HTML a partire da un documento Word questo non verrà convertito, tanta è la sporcizia che si trova nelle pagine html di word...
  • Se usate questo programma lo fate a vostro rischio e pericolo ed esentate l'autore da qualsiasi responsabilità. In altre parole: sono cavolacci vostri

1 commenti:

dipsomante ha detto...

Prova Commento.

Posta un commento

Roleplaying.it Mk10

Ormai sono quindici anni che questo sito, in una incarnazione o nell'altra, tira avanti. Un paio d'anni or sono mi sono concesso l'ego trip di scrivermi un motorino di blogging da zero. Ora, diciamocela tutta: anche Wordpress è un po' troppo per il sottoscritto (mancanza di tempo, y'know). Per cui, vai di Blogger, semplice e abbastanza versatile per il sottoscritto.

Gli habitués ormai lo sanno: qui ci sono indicazioni per materiale gratuito e di fruibilità immediata per i giocatori di ruolo, più o meno squattrinati, seguiti da commenti, recensioni, link vari, qualche actual play e brontolii assortiti.

E, come sempre, Enjoy.

HTML del sito redatto con Vim. Grafica creata con Inkscape e GIMP Site powered by Blogger, Gestione dominio a cura di Eridia. Questo sito supporta i cosidetti Giochini Gaysssss, sputa in faccia ai niùmedyologi e i loro éppol mécszzz e asserisce gagliardo che
l'interpretazione è la miglior simulazione