Semplice parser SAX con Java
Giovedì, Gennaio 15th, 2009In questo breve articolo si mostra con un esempio come realizzare un parser XML SAX (Simple API for XML) in Java. Per il parsing sono utilizzate le librerie Xerces2 disponibili in ambiente Debian GNU/Linux con il pacchetto libxerces2-java.
Il programma realizzato come esempio è un semplice feed aggregator RSS: la sua funzionalità consiste nell’estrarre da una serie di fonti RSS, indicate tramite i loro URL, gli articoli che hanno nei loro titoli una parola chiave impostata come parametro dall’utente al lancio del programma.
Nel codice sono definite tre classi: RSSFeedAggregator rappresenta il feed aggregator e contiene i comandi per il parsing nonché il programma principale (metodo main); RSSItem descrive un articolo RSS nei soli suoi campi titolo, link e descrizione; RSSSAXHandler è l’handler che gestisce gli eventi durante la lettura del documento estraendo le informazioni desiderate.
Vista la semplicità del codice non mi dilungo in ulteriori spiegazioni, che eventualmente possono essere chieste via commenti o via email, ma lascio alla presentazione del codice del programma.
