Consolidarea datelor se referă la colectarea și integrarea datelor din mai multe surse într-o singură destinație. În timpul acestui proces, diferite surse de date sunt integrate, sau altfel zis, consolidate într-o singură bază de date. În mod normal, consolidarea datelor este o metodă prin care se urmărește eficientizarea folosirii lor, prin îmbunătățirea calității datelor prelucrate. Acest proces asigură disponibilitatea datelor de calitate și exacte, ceea ce face mai rapidă și mai ușoară prelucrarea și tratarea acestor date.
Dintr-o altă perspectivă, datelor ce urmează a fi consolidate corespunde forma brută al setului de date, care urmează să fie prelucrat, și să rezulte un set mai exact, mai sofisticat, cu eliminarea inexactităților, cu un scop precis de prelucrare, având în vedere nevoile utilizatorului final, care de cele mai multe ori vrea răspunsuri singulare, (nu un set de răspunsuri cu aproximarea corectitudinii), în mod rapid, folosind expresii de căutare cât mai simple.
Un bun exemplu este consolidarea datelor conținute de lista publicată de către Poșta Română cu codurile poștale folosite. În primul rând, nu știm în ce măsură sunt corecte denumirile localităților, știm că de multe ori nu corespund cu cele oficiale din Nomenclatorul SIRUTA. De altfel, pe lângă codurile SIRUTA, în Nomenclator, sunt consemnate și codurile poștale, care, după o simplă comparare cu cele publicate de Poștă, arată nepotriviri, deci cele două seturi de date au potențialul de a se corecta reciproc și să constituie un singur set de date, cu denumiri și coduri poștale corecte într-un procent mai mare decât separat.
Chiar și în cazul exemplului de mai sus, care vorbește despre seturi de date relativ mici, destul de fixe, aproape deloc dinamice, consolidarea este mai mult un proces, care nu are rețete ce așteaptă să fie descoperite și după aceea folosite la nesfărșit. Dacă cineva își fixează ca scop întocmirea unei set de date din care să elimine inexactitățile prin consolidarea, integrarea a două seturi de date întocmite independent unul de celălalt (dar care se referă la același lucruri în realitate), să se pregătească de o aventură de toată regula. Se va întâlni cu fel și fel de dileme imposibile, care transformă munca de ”data consolidation” – fără nici o exagerare – în muncă creativă.
În cazul datelor deschise publicate de autoritățile din România, credem că strategia aleasă este cea corectă: publicarea a câtor mai multe seturi de date în formă brută, direct de către instituțiile care produc datele respective, cât mai repede, cât mai des. Are o importanță secundară dacă datele nu sunt foarte exacte, sau conțin greșeli. Sau dacă instituțiile sau autoritățile nu își coordonează publicarea datelor în nici un fel. Este de ajuns ca statul să își asume acest prim pas până la capăt.
Prin urmare, pasul următor presupune ca aceste date să fie prelucrate cu scopul de a fi prelucrate cu un scop mai precis de către utilizatorul final.