* * * *
23 Visitatori, 1 Utente

Autore Topic: Gestione files di testo con codifiche differenti  (Letto 438 volte)

bonmario

  • Hero Member
  • *****
  • Post: 639
  • Karma: +1/-1
Gestione files di testo con codifiche differenti
« il: Dicembre 14, 2018, 04:33:26 pm »
Ciao a tutti,
a breve dovrò fare un programma che:
- cerca all'interno di più files di testo una parola
- ogni volta che la trova, la sostituisce con un'altra parola

Da notare che:
- Sia la parola "vecchia" che quella "nuova", sono composte da caratteri che vanno dalla "A" alla "Z", quindi nessun carattere "speciale".
- Le parole che devo sostituire non hanno caratteri speciali, ma nel resto di ogni file, ci possono anche essere lettere accentate o altri caratteri speciali.

La difficoltà deriva dal fatto che, seppure tutti i files siano di testo, questi vengono "scritti" da persone che lavorano su PC diversi, con codifiche diverse. Alcuni files arrivano in formato UTF8, altri  ANSI, e via dicendo.

Avevo pensato di leggere i files come stream, portando il contenuto in una stringa, e poi riscriverlo sempre come stream, ma ho paura che così facendo mi cambi comunque la codifica, visto che userei una stringa come appoggio per poi fare uno StringReplace.

Qualcuno ha qualche consiglio?

Grazie in anticipo, Mario

nomorelogic

  • Global Moderator
  • Hero Member
  • *****
  • Post: 2040
  • Karma: +8/-1
Re:Gestione files di testo con codifiche differenti
« Risposta #1 il: Dicembre 14, 2018, 07:54:10 pm »
Qualcuno ha qualche consiglio?

utilizza sed!  :D
non so se ci sia per Win, forse nel progetto cygwin ma il programma che ti serve è già scritto ;)

https://www.linuxtechi.com/20-sed-command-examples-linux-users/
Imagination is more important than knowledge (A.Einstein)

nomorelogic

  • Global Moderator
  • Hero Member
  • *****
  • Post: 2040
  • Karma: +8/-1
Re:Gestione files di testo con codifiche differenti
« Risposta #2 il: Dicembre 15, 2018, 01:10:15 am »
scherzi a parte,
quello che mi viene in mente ora è di ereditare da TFileStream ed implementare un 2 nuovi metodi tipo ReadDelimited e ReadDelimiters

ReadDelimited  dovrebbe funzionare leggendo un byte alla volta (ReadByte) fino al raggiungimento di un delimitatore, tipo ExtractDelimited
https://www.freepascal.org/docs-html/rtl/strutils/extractdelimited.html

ReadDelimiters dovrebbe invece leggere in un buffer stringa tutti i delimitatori

in questo modo la sostituzione potrebbe avvenire con del codice tipo:

Codice: [Seleziona]
var filein, fileout: TMyFileStream; // la tua classe
    letti:integer;
    s: string;
begin
   filein:=TMyFileStream.Create(...., read);   
   fileout:=TMyFileStream.Create(...., write);
   repeat
      letti:=filein.ReadDelimited(s, [' ', #10, #13, ','];
      if letti >0 then begin
         // sostituzione
         if s='hello' then s:= 'ciao';
        // scrittura
        fileout.WriteBuffer(s[1], length(s));
     end;
     // ora leggiamo i delimitatori
     letti:=filein.ReadDelimiters(s, [' ', #10, #13, ','];
     if letti>0 then
        fileout.WriteBuffer(s[1], length(s));

   until letti=0; 
end


Edit:
in questo modo occupi pochissima memoria anche processando file di grandi dimensioni
« Ultima modifica: Dicembre 15, 2018, 01:13:13 am da nomorelogic »
Imagination is more important than knowledge (A.Einstein)

bonmario

  • Hero Member
  • *****
  • Post: 639
  • Karma: +1/-1
Re:Gestione files di testo con codifiche differenti
« Risposta #3 il: Dicembre 15, 2018, 09:34:27 am »
Ok, grazie, appena parto col progetto, ci provo.
Fortunatamente i files sono sì tanti, ma sono piccoli, credo che nessuno passi i 5 mega ...

Grazie, Mario

 

Recenti

How To

Trascinare un file nel programma da xinyiman
DB concetti fondamentali e ZeosLib da xinyiman
Recuperare codice HTML da pagina web da xinyiman
Mandare mail con Lazarus da xinyiman
Stabilire il sistema operativo da xinyiman
Esempio lista in pascal da xinyiman
File INI da xinyiman
Codice di attivazione da xinyiman
Realizzare programmi multilingua da xinyiman
Lavorare con le directory da xinyiman
Utilizzare Unità esterne da Loryea
TTreeView da xinyiman
TTreeview e Menu da xinyiman
Generare controlli RUN-TIME da xinyiman
LazReport, PDF ed immagini da xinyiman
Intercettare tasti premuti da xinyiman
Ampliare Lazarus da xinyiman
Lazarus e la crittografia da xinyiman
System Tray con Lazarus da xinyiman
UIB: Unified Interbase da Microges2000
Il file: questo sconosciuto da Microges2000
Conferma di chiusura di un applicazione da xinyiman
Liste e puntatori da Microges2000
Overload di funzioni da Microges2000
Funzioni a parametri variabili da Microges2000
Proprietà da Microges2000
Conversione numerica da Microges2000
TImage su Form e Panel da Maverich
Indy gestiore server FTP lato Client da Maverich
PopUpMenu sotto Pulsante (TSpeedButton) da Maverich
Direttiva $macro da Microges2000
Toolbar da xinyiman
Evidenziare voci TreeView da Maverich
Visualizzare un file Html esterno da Maverich
StatusBar - aggirare l'errore variabile duplicata da Maverich
Da DataSource a Excel da xinyiman
Le permutazioni da xinyiman
Brute force da xinyiman
Indy 10 - Invio email con allegati da Maverich
La gestione degli errori in Lazarus da xinyiman
Pascal Script da xinyiman
Linux + Zeos + Firebird da xinyiman
Dataset virtuale da xinyiman
Overload di operatori da Microges2000
Lavorare con file in formato JSON con Lazarus da nomorelogic
Zeos ... dietro le quinte (prima parte) da Stilgar
Disporre le finestre in un blocco unico (come Delphi) da Maverich
Aspetto retrò (Cmd Line) da xinyiman
Come interfacciare periferica twain da Narciso
Ubuntu - aggiornare free pascal e lazarus da xinyiman
fpcup: installazioni parallele di lazarus e fpc da nomorelogic
Free Pascal e Lazarus sul Raspberry Pi da nomorelogic
Cifratura: breve guida all'uso dell'algoritmo BlowFish con lazarus e free pascal. da nomorelogic
Creare un server multithread da xinyiman
guida all'installazione di fpc trunk da subversion in linux gentoo da nomorelogic
Indice da nomorelogic
DB concetti fondamentali e connessioni standard da xinyiman
Advanced Record Syntax da nomorelogic
DB concetti fondamentali e DBGrid da xinyiman
DB concetti fondamentali e TDBEdit, TDBMemo e TDBText da xinyiman
Advanced Record Syntax: un esempio pratico da nomorelogic
Superclasse form base per programmi gestionali (e non) da nomorelogic
Superclasse form base per programmi gestionali (e non) #2 - log, exception call stack, application toolbox da nomorelogic
Superclasse form base per programmi gestionali (e non) #3 - traduzione delle form da nomorelogic
Superclasse form base per programmi gestionali (e non) #4 - wait animation da nomorelogic
Un dialog per la connessione al database:TfmSimpleDbConnectionDialog da nomorelogic
Installare lazarus su mac osx sierra da xinyiman
Utenti
  • Utenti in totale: 595
  • Latest: parmix
Stats
  • Post in totale: 12008
  • Topic in totale: 1488
  • Online Today: 25
  • Online Ever: 520
  • (Novembre 04, 2018, 12:00:31 pm)
Utenti Online
Users: 1
Guests: 23
Total: 24

Disclaimer:

Questo blog non rappresenta una testata giornalistica poiché viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n. 62/2001.