Hver dag oppdaterer store organisasjoner seg med teknologiene som tilrettelegger og passer bedre for hvert selskap, og står overfor store utfordringer som gjør det mulig for dem å oppdage og analysere utover verktøyene som brukes daglig, det er for dem det ble opprettet det som er kjent som Big Data eller på spansk massiv data som er store datalagringssystemer.
Dette lagringsfenomenet er innrammet i den nye informasjons- og kommunikasjonsteknologien. Big Data er det som opptar alle aktivitetene som er relatert til systemene som lagrer et stort datasett. En av hovedegenskapene er at den manipulerer en stor mengde informasjon, samler inn, klassifiserer den og deretter lagrer den. Formålet med denne samlingen er å lage statistiske rapporter for bruk av organisasjoner, enten som analyse av forretningsplaner, reklame, spionasje, blant andre.
Lagringsmarginen har vokst gjennom årene, siden 2008 ble lagringsnivået målt i petabyte til zettabyte data. Eksperter leter jevnlig etter nye lagringstiltak fordi det er visse områder der store mengder data må lagres og eksisterende programmer ikke er veldig optimale.
Det er tusenvis av verktøy for å utføre og administrere Big Data, men ikke alle er de samme, det er tre typer data, som er:
- Strukturerte data: er de der dataene har en veldig spesiell struktur, for eksempel datoer, tall, blant andre. Et eksempel på dem er regneark.
- Ustrukturerte data: det er vanligvis data som har et bestemt format og ikke kan lagres i et regneark, langt mindre manipulere informasjonen, et eksempel på PDF-dokumenter.
- Semistrukturerte data: denne typen data har ikke et bestemt format, siden den har sine egne semistrukturerte metadata, et eksempel på dette er HTML-koder.