Autore Topic: XML: da dove cominciare? (Letto 16880 volte)

Legolas · « **il:** Aprile 16, 2013, 03:44:53 pm »

Ciao a tutti! E' da un po' che non mi faccio vivo, anche se continuo a lurkare selvaggiamente nell'ombra

Vengo al dunque: sono alle prese con la pianificazione di un progettino che ho in mente da tempo e che vede la necessità di utilizzare un grosso file XML (sui 15 mega) dal quale estrapolare dei dati in un determinato ordine, secondo determinate condizioni. I dati estrapolati verranno ricombinati e dati in pasto a TeX per tirarne fuori un corposo documento da mandare in stampa.

Problemi: 1) il file XML dal quale devo estrapolare i dati è in codifica UTF-8, 2) ha una struttura zeppa di sottonodi e, soprattutto, 3) non so una mazza di XML

Qualcuno pratico mi illumina sulle possibilità di Laz/fpc di gestire XML e sulle problematiche della codifica UTF-8?

Stilgar · « **Risposta #1 il:** Aprile 16, 2013, 04:14:29 pm »

Allora UTF-8 o meno, usa il TXMLDocument di lazarus ...
Si arrangia lui a leggere.
Per l'estrazione dei noti d'interesse suggerire XPATH.
XMLRead, XMLWrite contengono le routine per leggere e scrivere XML

Poi per i dettagli di come muoversi, bisogna conoscere la struttura dell'XML.
Se usa o meno i gli attributi o è tutto nodi anche quando non servono

Stilgar

nomorelogic · « **Risposta #2 il:** Aprile 16, 2013, 04:24:02 pm »

con un XML di 15 mb potrebbe anche essere pesante andare a lavorare con DOM
se i tempi diventano inaccettabili c'è anche un approccio SAX che occupa molte meno risorse del DOM però è meno elastico
se dovesse servire mi ridocumento

UTF-8 non è altro che un tipo di rappresenzazione di file unicode.
unicode completo è a 32 bit (già: 4 byte per ogni carattere)... se il tuo file non fosse UTF-8 ti troveresti a lavorare con un file di 60MB

UFT-8 ha in comune con un normale file ASCII i primi 127 caratteri (quelli con bit nr. 8 impostato a 0) e quindi se il tuo file di dati lavora in questo range puoi pensarlo come un normale file ascii.
se hai bisogno di un carattere sopra ai 127, l'8° bit è impostato ad 1 e vuol dire che segue un altro carattere sempre riferito a quello precedente (a cui deve essere concatenato per ottenere il vero carattere unicode).
questa cosa è ricorsiva fino a 4 byte (credo)

Legolas · « **Risposta #3 il:** Aprile 16, 2013, 04:31:46 pm »

Per prima cosa grazie! Sapevo che avrei avuto le prime risposte in una manciata di minuti

@Stilgar: il file XML utilizza gli attributi... E' grave?

@nomorelogic: purtroppo devo utilizzare caratteri al di sopra (molto al di sopra!) dei 127. Si tratta di Kanji, per chi mastica giapponese

Stilgar · « **Risposta #4 il:** Aprile 16, 2013, 06:08:00 pm »

No ... anzi ... meglio se usa gli attributi...
XPATH ti farà estrarre i dati in modo più comodo

Poi mi spieghi come mai sei incasinato con il Kanji :p

Legolas · « **Risposta #5 il:** Aprile 16, 2013, 10:11:42 pm »

Oh... ok, meglio così, allora

Ho provato a cercare qualche riferimento su XPATH, ma non si trova praticamente niente. Un esempietto minimo per capire?

Nel caso servisse, qui sotto ho allegato un estratto minimo del mio file xml. Quello che dovrei fare è scorrere tutti i nodi character e, se il sottonodo dic_number->dic_ref, contenente uno specifico dr_type (ad esempio ="nelson_c"), contiene un valore minore di X, allora devo leggere il valore del nodo literal (e di altri, ma quello verrà dopo, non appena riesco a capirci qualcosa

) e salvarlo.

Sul perché/percome del progetto che ho in mente, basti sapere che sono un giappofilo della prima ora e sto sbattendo la testa sui kanji per impararne un quantitativo minimo per cominciare a studiare la lingua più seriamente

bonmario · « **Risposta #6 il:** Aprile 17, 2013, 08:09:00 am »

Ciao,
come ti consigliava nomorelogic, secondo me la prima cosa che devi valutare e se leggere l'XML con DOM o con SAX.
La differenza principale tra i 2, che di solito mi fa optare per l'uno o per l'altro, è che DOM legge tutto l'XML e lo mette in memoria, così poi lo puoi elaborare come se fosse un albero, andando avanti e tornando indietro a piacimento. SAX invece, legge l'XML poco alla volta e, quando si presenta un nuovo tag, un nuovo attributo, eccetera, fa scattare l'evento corrispondente.
Se per esempio tu devi leggere il tuo file ed uscire al primo tag che trovi con dentro "pippo", la cosa migliore sarebbe leggere l'XML con SAX. Se invece devi continuare a fare avanti e indietro per i vari tag, attributi eccetera, l'ideale è DOM.

Ciao, Mario

Legolas · « **Risposta #7 il:** Aprile 17, 2013, 10:01:52 am »

Uhm... non so... il mio file ha almeno 15000 "record" (perdonatemi il termine improprio), ognuno formato da svariati "campi". D'altro canto non ho tutto questo bisogno di ottimizzare (il tool non verrà rilasciato al pubblico, ma utilizzato solo da me). Credo che in fin dei conti potrebbe essermi sufficiente una lettura sequenziale, visto che devo scansionare tutti i "record" e "piluccare" quelli che soddisfano determinati criteri.
SAX potrebbe essere una scelta, ma aspetto maggiori delucidazioni su XPATH

Stilgar · « **Risposta #8 il:** Aprile 17, 2013, 10:43:07 am »

Se vuoi ottenere tutti i nodi dell'xml che abbiano un dic_ref di un certo tipo ... (magari l'attributo dr_type="nelson_c") l'espressione xpath che ti server è qualche cosa del tipo:

Codice: [Seleziona]

//dic_ref[@dr_type='nelson_c']

in questo caso ottieni tutti i nodi che abbiano quel determinato attributo in una lista.
nel caso tu volessi filtrare ancora per il contenuto del nodo trovato

Codice: [Seleziona]

//dic_ref[dr_type="nelson_c"]/text()="4985"

Sono esempi a memoria...

Legolas · « **Risposta #9 il:** Aprile 17, 2013, 10:51:26 am »

Grazie mille

Appena ho modo, faccio qualche tentativo e vi faccio sapere

Stilgar · « **Risposta #10 il:** Aprile 17, 2013, 11:13:46 am »

Un plug per Firefox :
http://code.google.com/p/xpathchecker/
Puoi verificare l'xpath senza diventare matto.
Io lo uso anche per lavoro

Stilgar · « **Risposta #11 il:** Aprile 17, 2013, 11:22:18 am »

Piccolo consiglio:
tieni conto che i processori XPATH lavorano ad insiemi (liste nel nostro caso)
Quindi prendono in considerazione ogni "step" (definiti da "/") e processano i nodi.
In altre parole.
//dic_ref[@dr_type='nelson_c']
//dic_ref -> /Tutti i nodi a qualsiasi livello/solo quelli dic_ref
di questi ottenuti, fa un secondo giro:
quelli che hanno attributo dr_type con valore 'nelson_c'.
In pratica lavora su una lista che viene via via scremata.
Per avere un minimo di "prestazioni" cerca di filtrare sempre il grosso con i primi step, in modo che i controlli sucessivi siano su liste già piccoline

Stilgar

Legolas · « **Risposta #12 il:** Aprile 18, 2013, 12:19:15 pm »

Sto facendo qualche prova

Premetto che ho cercato qualcosa anche per SAX, ma non sono riuscito a trovare esempi/guide di utilizzo.
Per quanto riguarda xpath, ci sto giocando un pochino prima di cimentarmi nella stesura del codice. Quello che non riesco a capire è come filtrare i risultati in base a criteri "matematici". Esempio: poniamo che debba filtrare tutti i dati in cui il valore dell'attributo dr_type='nelson_c' sia < 100. Provo a scrivere qualcosa del tipo:

Codice: xpath [Seleziona]


/kanjidic2/character[//dic_ref[@dr_type='nelson_c']<100]

ma il filtro sembra non funzionare. Dove sbaglio? E nel caso volessi inserire condizioni multiple?

Stilgar · « **Risposta #13 il:** Aprile 18, 2013, 12:41:45 pm »

/kanjidic2/character//dic_ref[@dr_type='nelson_c']
Per la selezione del "livello" del nodo.
(ridondante rispetto a //dic_ref[@dr_type='nelson_c'])

www.w3schools.com/xpath

/kanjidic2/character//dic_ref[@dr_type='nelson_c']<100
o
//dic_ref[@dr_type='nelson_c']<100

Stilgar · « **Risposta #14 il:** Aprile 18, 2013, 12:58:44 pm »

(Ho provato ... c'è solo un match)

News:

Privacy Policy

Blog italiano

Forum ufficiale

Lazarus 1.0

Progetti Lazarus

Free Pascal

Libri

Autore Topic: XML: da dove cominciare? (Letto 16880 volte)

Recenti

How To

Free Pascal DS

Lazarus WEB

Disclaimer: