* * * *

Privacy Policy

Blog italiano

Clicca qui se vuoi andare al blog italiano su Lazarus e il pascal.

Forum ufficiale

Se non siete riusciti a reperire l'informazione che cercavate nei nostri articoli o sul nostro forum vi consiglio di visitare il
Forum ufficiale di Lazarus in lingua inglese.

Lazarus 1.0

Trascinare un file nel programma
DB concetti fondamentali e ZeosLib
Recuperare codice HTML da pagina web
Mandare mail con Lazarus
Stabilire il sistema operativo
Esempio lista in pascal
File INI
Codice di attivazione
Realizzare programmi multilingua
Lavorare con le directory
Utilizzare Unità esterne
TTreeView
TTreeview e Menu
Generare controlli RUN-TIME
LazReport, PDF ed immagini
Intercettare tasti premuti
Ampliare Lazarus
Lazarus e la crittografia
System Tray con Lazarus
UIB: Unified Interbase
Il file: questo sconosciuto
Conferma di chiusura di un applicazione
Liste e puntatori
Overload di funzioni
Funzioni a parametri variabili
Proprietà
Conversione numerica
TImage su Form e Panel
Indy gestiore server FTP lato Client
PopUpMenu sotto Pulsante (TSpeedButton)
Direttiva $macro
Toolbar
Evidenziare voci TreeView
Visualizzare un file Html esterno
StatusBar - aggirare l'errore variabile duplicata
Da DataSource a Excel
Le permutazioni
Brute force
Indy 10 - Invio email con allegati
La gestione degli errori in Lazarus
Pascal Script
Linux + Zeos + Firebird
Dataset virtuale
Overload di operatori
Lavorare con file in formato JSON con Lazarus
Zeos ... dietro le quinte (prima parte)
Disporre le finestre in un blocco unico (come Delphi)
Aspetto retrò (Cmd Line)
Lazarus 1.0
Come interfacciare periferica twain
Ubuntu - aggiornare free pascal e lazarus
fpcup: installazioni parallele di lazarus e fpc
Free Pascal e Lazarus sul Raspberry Pi
Cifratura: breve guida all'uso dell'algoritmo BlowFish con lazarus e free pascal.
Creare un server multithread
guida all'installazione di fpc trunk da subversion in linux gentoo
Indice
DB concetti fondamentali e connessioni standard
Advanced Record Syntax
DB concetti fondamentali e DBGrid
DB concetti fondamentali e TDBEdit, TDBMemo e TDBText
Advanced Record Syntax: un esempio pratico
Superclasse form base per programmi gestionali (e non)
Superclasse form base per programmi gestionali (e non) #2 - log, exception call stack, application toolbox
Superclasse form base per programmi gestionali (e non) #3 - traduzione delle form
Superclasse form base per programmi gestionali (e non) #4 - wait animation
Un dialog per la connessione al database:TfmSimpleDbConnectionDialog
Installare lazarus su mac osx sierra
immagine docker per lavorare con lazarus e free pascal
TDD o Test-Driven Development
Benvenuto! Effettua l'accesso oppure registrati.
Aprile 16, 2024, 07:05:29 am

Inserisci il nome utente, la password e la durata della sessione.

81 Visitatori, 0 Utenti

Autore Topic: Gestione files di testo con codifiche differenti  (Letto 3150 volte)

bonmario

  • Hero Member
  • *****
  • Post: 1300
  • Karma: +10/-1
Gestione files di testo con codifiche differenti
« il: Dicembre 14, 2018, 04:33:26 pm »
Ciao a tutti,
a breve dovrò fare un programma che:
- cerca all'interno di più files di testo una parola
- ogni volta che la trova, la sostituisce con un'altra parola

Da notare che:
- Sia la parola "vecchia" che quella "nuova", sono composte da caratteri che vanno dalla "A" alla "Z", quindi nessun carattere "speciale".
- Le parole che devo sostituire non hanno caratteri speciali, ma nel resto di ogni file, ci possono anche essere lettere accentate o altri caratteri speciali.

La difficoltà deriva dal fatto che, seppure tutti i files siano di testo, questi vengono "scritti" da persone che lavorano su PC diversi, con codifiche diverse. Alcuni files arrivano in formato UTF8, altri  ANSI, e via dicendo.

Avevo pensato di leggere i files come stream, portando il contenuto in una stringa, e poi riscriverlo sempre come stream, ma ho paura che così facendo mi cambi comunque la codifica, visto che userei una stringa come appoggio per poi fare uno StringReplace.

Qualcuno ha qualche consiglio?

Grazie in anticipo, Mario

nomorelogic

  • Global Moderator
  • Hero Member
  • *****
  • Post: 2870
  • Karma: +20/-4
Re:Gestione files di testo con codifiche differenti
« Risposta #1 il: Dicembre 14, 2018, 07:54:10 pm »
Qualcuno ha qualche consiglio?

utilizza sed!  :D
non so se ci sia per Win, forse nel progetto cygwin ma il programma che ti serve è già scritto ;)

https://www.linuxtechi.com/20-sed-command-examples-linux-users/
Imagination is more important than knowledge (A.Einstein)

nomorelogic

  • Global Moderator
  • Hero Member
  • *****
  • Post: 2870
  • Karma: +20/-4
Re:Gestione files di testo con codifiche differenti
« Risposta #2 il: Dicembre 15, 2018, 01:10:15 am »
scherzi a parte,
quello che mi viene in mente ora è di ereditare da TFileStream ed implementare un 2 nuovi metodi tipo ReadDelimited e ReadDelimiters

ReadDelimited  dovrebbe funzionare leggendo un byte alla volta (ReadByte) fino al raggiungimento di un delimitatore, tipo ExtractDelimited
https://www.freepascal.org/docs-html/rtl/strutils/extractdelimited.html

ReadDelimiters dovrebbe invece leggere in un buffer stringa tutti i delimitatori

in questo modo la sostituzione potrebbe avvenire con del codice tipo:

Codice: [Seleziona]
var filein, fileout: TMyFileStream; // la tua classe
    letti:integer;
    s: string;
begin
   filein:=TMyFileStream.Create(...., read);   
   fileout:=TMyFileStream.Create(...., write);
   repeat
      letti:=filein.ReadDelimited(s, [' ', #10, #13, ','];
      if letti >0 then begin
         // sostituzione
         if s='hello' then s:= 'ciao';
        // scrittura
        fileout.WriteBuffer(s[1], length(s));
     end;
     // ora leggiamo i delimitatori
     letti:=filein.ReadDelimiters(s, [' ', #10, #13, ','];
     if letti>0 then
        fileout.WriteBuffer(s[1], length(s));

   until letti=0; 
end


Edit:
in questo modo occupi pochissima memoria anche processando file di grandi dimensioni
« Ultima modifica: Dicembre 15, 2018, 01:13:13 am da nomorelogic »
Imagination is more important than knowledge (A.Einstein)

bonmario

  • Hero Member
  • *****
  • Post: 1300
  • Karma: +10/-1
Re:Gestione files di testo con codifiche differenti
« Risposta #3 il: Dicembre 15, 2018, 09:34:27 am »
Ok, grazie, appena parto col progetto, ci provo.
Fortunatamente i files sono sì tanti, ma sono piccoli, credo che nessuno passi i 5 mega ...

Grazie, Mario

 

Recenti

How To

Utenti
  • Utenti in totale: 785
  • Latest: gmax
Stats
  • Post in totale: 18769
  • Topic in totale: 2232
  • Online Today: 80
  • Online Ever: 900
  • (Gennaio 21, 2020, 08:17:49 pm)
Utenti Online
Users: 0
Guests: 81
Total: 81

Disclaimer:

Questo blog non rappresenta una testata giornalistica poiché viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n. 62/2001.