[go: up one dir, main page]

Uttrekk, lasting og transformasjon

prosedyre for å hente store datamengder fra eksterne kilder, deretter laste dem inn i et eller flere lokale målsystemer, og til slutt transformere dem i målsystemet
(Omdirigert fra «Ekstraher, last og transformer»)

Uttrekk, lasting og transformasjon (engelsk: extract, load, transform, ELT), er en måte å flytte data (en kommandokø- eller pipeline-modell[1]) fra et kildesystem til et målsystem som går ut på at man først flytter dataene fra kildesystemet i det opprinnelige formatet, og deretter gjør transformasjoner på dataene etter at de har ankommet målsystemet. Dette står til forskjell fra ETL hvor man transformerer dataene i kildesystemet før de sendes til målsystemet. Eksempler på slike transformasjoner er relasjonelle transformasjoner som relasjonelle joins («sammenføyninger»).

En av de praktiske forskjellene på ETL og ELT er hvorvidt vanlige lastejobber vil føre til stor belastninger på henholdsvis kildeserveren eller målserveren. Det er dermed viktig å ta hensyn til hvor kraftige disse er, og hvor mye belastning de får fra andre oppgaver. Mange ETL-verktøy kan brukes til ELT, og vice versa.[trenger referanse]

Datasjø

rediger

Innen datasjøer (data lake) lagres ofte mye data i sitt råformat, med det resultatet at man får mye data med forskjellig struktur. ELT brukes da for å transformere data til passende formater idet de skal brukes. Ettersom transformeringen skjer ved behov er det viktig med en viss prosesseringskraft for at transformasjonene skal utføres innen rimelig tid.

En fordel med å bruke denne formen for ELT til datasjø er at strukturen på dataene ikke behøver å være definert ved lasting inn til reservoaret, og man trenger derfor ikke å bruke tid på definere ulike datastrukturer som man ikke vet hvordan vil bli brukt i fremtiden. Imidlertid vil dataene i en datasjø ofte ha en viss struktur ved lasting siden de ofte er trekt ut (ekstrahert) fra databaser eller lignende datastrukturer med en assosiert struktur på dataene. En ulempe er at mange ulike datastrukturer kan gjøre det vanskelig å gjøre seg nytte av dataene senere, og man kan ende opp med en såkalt datasump.

Referanser

rediger
  1. ^ Using Redshift Spectrum to load data pipelines Arkivert 5. oktober 2021 hos Wayback Machine. Published by deductive.com on January 17, 2018, retrieved on April 3, 2019