Jouw reis naar Data Engineering

In dit artikel verken je de taken van een Data Engineer samen met relevante services die beschikbaar zijn op het Azure platform. Als lezer krijg je inzicht in de juiste opslagdiensten, waardoor je een oplossing kan implementeren op basis van een set van zakelijke en technische vereisten.

In dit artikel zullen we de volgende vragen beantwoorden:

Wat is Data Engineering?
Wat zijn use cases voor Data Engineering?
Wat zijn de voordelen van Data Engineering?
Welke Data Engineering diensten zijn beschikbaar op Azure?
Wat zijn real-life klantcases met betrekking tot Data Engineering?

Dit artikel vereist een basiskennis van Data en AI. Dit artikel is een vervolg op ons vorige artikel Koken met Data en AI. Als je meer wilt leren en een introductie wilt krijgen in Data en AI, lees dan dit artikel.

Wat is Data Engineering?

Ondanks het feit dat data engineering een veelbesproken onderwerp is en iedereen er zijn eigen definitie van heeft, konden we geen officiële definitie van data engineering vinden in het Cambridge woordenboek. Als we de twee woorden echter samennemen (Data en Engineering), kunnen we een breder begrip krijgen van data engineering:

Data: informatie, vooral feiten of getallen, verzameld om te worden onderzocht en overwogen en gebruikt om te helpen bij de besluitvorming of informatie in een elektronische vorm die kan worden opgeslagen en gebruikt door een computer.

Engineering: de studie van het gebruik van wetenschappelijke principes om machines, structuren en andere dingen te ontwerpen en te bouwen, waaronder bruggen, wegen, voertuigen en gebouwen.

Voor ons is Data Engineering het transformeren en opschonen van gegevens op een zodanige manier dat ze klaar zijn om te worden gebruikt of verbruikt. Het eerste waar je misschien aan denkt is het opschonen van de gegevens. Maar als we diep in data engineering duiken, is er meer waar een data engineer aan moet denken. Een data engineer moet ook rekening houden met bestandsformaten, en zelfs dataformaten (bv. datum/tijd). Bovendien moet een data engineer beslissen of hij data in real-time verwerkt of dat hij het proces in batch plant. Laten we ook de gegevensbeveiliging, monitoring en optimalisering van de gegevensopslag niet vergeten. Met andere woorden: een data engineer denkt na over het volledige Extract, Transform, and Load (ETL) of Extract, Load, Transform (ELT) proces.

Om in kooktermen te spreken, data engineering is het snijden, wassen, en klaarmaken (transformeren) van de ingrediënten (je data) van je gerecht op zo'n manier dat ze gekookt kunnen worden (klaar voor Analytics, Data Science, of visualisaties).

Enkele van de transformatietechnieken die een data engineer zou kunnen gebruiken zijn:

Omgaan met ontbrekende waarden: bepaal standaardregels over hoe om te gaan met ontbrekende waarden. Dit kan betekenen dat ontbrekende waarden worden opgevuld met een "lege" waarde (Null /NaN /empty string, etc.) of met een constante.
Deduplicating: een regelset maken over welke rijen worden geïdentificeerd als duplicaten en deze dienovereenkomstig verwijderen.
Data format conversie: gegevensformaten omzetten in de juiste formaten. Bijvoorbeeld getallen omzetten van String naar Float.
Aggregatie: het presenteren van de gegevens in een samenvattend formaat.

Als je je inschrijft voor onze workshop, krijg je inzicht in een aantal van deze transformatietechnieken, pipeline automatisering, opslag opties en meer. We gaan de diepte in met behulp van verschillende dataservices op Azure. En je zult vertrouwd raken met transformatietechnieken voor Azure Data Factory, Data flow en Azure Databricks. Je leert ook hoe je data loads kunt uitvoeren in verschillende data storage opties terwijl je data transformeert.

Wat zijn de use cases voor Data Engineering?

Aangezien data altijd moet worden opgeschoond en getransformeerd voordat het bruikbaar is, zijn alle data-gerelateerde cases use cases voor Data Engineering. Zonder het opschonen en transformeren van data is het onmogelijk om aan veilige en betrouwbare standaarden te voldoen omdat de datakwaliteit niet gewaarborgd kan worden, met onbetrouwbare datasets als gevolg. Je vindt Data Engineering in elke industrie, Bij ISV's voor het gebruiken van innovatie gebaseerd op data, op het Web, binnen Healthcare, Farming, Fabrieken om er maar een paar te noemen.

De laatste tijd zien we een toename in het aantal apparaten en software die data genereren, om zo aan de behoeften van bedrijven en gebruikers te voldoen. Gezien deze ontwikkelingen hebben we de behoefte om meer gegevens op te slaan dan ooit tevoren. Zoals je je kunt voorstellen, moeten deze gegevens worden geïnterpreteerd, beheerd, getransformeerd, verwerkt, geaggregeerd, en uiteindelijk gevisualiseerd in rapporten om goed geïnformeerde beslissingen te kunnen nemen.

Met betrekking tot Data Engineering op Azure, zijn er use cases genoeg. Azure kan werken voor een reeks van industrieën, waaronder bijvoorbeeld het web, de gezondheidszorg, en het Internet of Things (IoT). Laten we eens onderzoeken hoe Azure een verschil kan maken in de gezondheidszorg.

Healthcare

In de gezondheidszorg versnelt het gebruik van Spark big-data analytics en AI-oplossingen. Op Azure kun je Spark draaien in (1) open-source Apache Spark, (2) HDInsights, (3) Azure Databricks, en (4) Synapse Spark. Aangezien services 3 en 4 gemakkelijk schaalbaar zijn, kunnen ze goed worden gebruikt in bijvoorbeeld genoomstudies of voor verkoopprognoses voor apotheken op petabyte-schaal.

Wat zijn de voordelen van Data Engineering?

Geïnformeerde bedrijfsbeslissingen
Schone data helpt bedrijven bij het nemen van geïnformeerde beslissingen. Het gebruik van niet-getransformeerde data kost veel tijd en geld en kan leiden tot ongeïnformeerde beslissingen, kwaliteitsproblemen, enz. Bijvoorbeeld: als ik een hele wortel kook zonder hem eerst in stukjes te snijden, duurt het langer voordat deze gaar is als ik hem in kleinere stukjes snij.

Snelheid en efficiëntie
Schone en correct opgeslagen gegevens verbeteren de tijd die nodig is om gegevens te verzamelen, omdat je niet hoeft te zoeken waar welke gegevens terecht zijn gekomen, als je ze eenmaal hebt gestandaardiseerd en opgeschoond. Je data is georganiseerd, en je weet waar je wat kunt vinden, net als in de keuken waar je hopelijk je melk niet in de droogtrommel hebt bewaard maar in de koelkast waar het hoort.

Inzichten
Zodra jouw gegevens schoon en getransformeerd zijn, is het makkelijker om ze te visualiseren en te analyseren voor je bedrijf. Op deze manier kan je zowel inzichten verkrijgen als voorspellingen doen over toekomstige relaties en jouw bedrijf hierop voorbereiden. Op het gebied van marketing kan je bijvoorbeeld je bedrijf uitbreiden en laten groeien omdat je goed geïnformeerd bent, want je beschikt over de gegevens die je vertellen waar je je op moet richten.

Welke Data Engineering voordelen zijn beschikbaar op Azure?

De zelf-ondersteunde leerpaden laten de volgende (niet-streaming) dataservices zien die gerelateerd zijn aan data engineering, als we kijken naar het DP203 Data Engineering examen dat gemaakt is door Microsoft. We sommen ze op van minst naar meest uitgebreid (Opmerking: dit is niet beperkt tot andere services).

Azure Data Lake Storage Gen2

Azure Data Lake Storage (ADLS) Gen2 is ontworpen met big data in gedachte. ADLS Gen2 combineren de mogelijkheden van Azure Data Lake Storage Gen1 met Azure Blob Storage. Deze combinatie stelt de gebruiker in staat gegevens op te slaan binnen een folder-achtige structuur, terwijl de beveiliging op bestandsniveau wordt verkregen. Bovendien krijgt de gebruiker een goedkope, eenvoudig schaalbare, gelaagde opslag met hoge beschikbaarheid en mogelijkheden voor herstel na rampen. Daarnaast krijgt de gebruiker een goedkope, eenvoudig schaalbare, gelaagde opslag met hoge beschikbaarheid en mogelijkheden voor disaster recovery. Opgelet: deze oplossing wordt gebruikt om gegevens op te slaan. Het bevat geen out-of-the-box query en data transformatie opties.

Azure Data Factory

Azure Data Factory (ADF) is een volledig beheerde, serverloze data-integratiedienst. Het integreert meer dan 90 al ingebouwde gegevensbronnen in een grafische gebruikersinterface Je hebt ook de mogelijkheid om connectoren te coderen voor je (on-premise) datasets. Opmerking: Deze oplossing wordt uitsluitend gebruikt voor data-invoer en -transformatie en is geen analytisch platform. Als de gebruiker echter data-analyse wil doen, integreert ADF wel met andere tools zoals Databricks en Azure Synapse Analytics.

Azure Databricks

Azure Databricks helpt je om inzichten te verkrijgen uit jouw data terwijl je de nieuwste versie van Apache Spark draait. Zet je omgeving binnen enkele minuten op, geniet van autoscaling mogelijkheden, en werk samen met je collega's wanneer je gebruik maakt van notebooks. Opmerking: Azure Databricks ondersteunt momenteel meerdere talen, waaronder Python, Scala, R, Java en SQL.

Azure Synapse Analytics

Azure Synapse Analytics, voorheen bekend als Azure SQL Data Warehouse, is veel meer dan een gewoon SQL-data warehouse. Deze uitgebreide enterprise analytics service kan jouw analytics reis versnellen door het samenbrengen van Spark voor big data analytics, en dedicated SQL of serverless pools voor jouw data warehouse. Azure Synapse Analytics is een all-in-one oplossing waarbij Data Factory al geïntegreerd is in het product. Waar je in Azure Data Factory een pipeline zou aanmaken, kun je dat in Synapse Analytics ook doen, die Synapse Pipelines genoemd kunnen worden. Daarnaast biedt Azure Synapse Analytics ook integratie met andere Azure services zoals Power BI, Azure Purview, CosmosDB, en AzureML.

Wat zijn real-life klantcases van Data Engineering: Illimity?

Illimity is een digital-native bank die datamanagement wilde vereenvoudigen en versnellen. Illimity gebruikt Azure Data Lake Storage, Azure Data Factory, Azure Synapse Analytics en Azure Databricks om hun data op te nemen, te transformeren, te laden en inzichten te verkrijgen uit hun data. Voor de ruwe data gebruiken ze Azure Data Lake Storage, om ruwe data te consolideren en op een eenvoudige manier te verzamelen, te verfijnen en te query'en. Om te visualiseren hebben ze Power BI gebruikt voor rapportage. Dit alles werd gedaan om een uitgebreide oplossing voor gegevensbeheer te krijgen.

Hun belangrijkste doelstellingen waren de volgende:

Datagestuurde beslissingen
Digitale pionier
Gecentraliseerde opslag en beheer van gegevens
Verhoogde snelheid van data toegang en gebruik

Microsoft Customer Story-illimity optimizes data governance and streamlines compliance with Azure Purview

Wil je meer weten? Kom naar onze workshop!

Wij geven 28 oktober een gratis workshop over onze eerste cursus: Deep dive in Data Engineering: Prepping Ingredients for Cooking. Als je geïnteresseerd bent, schrijf je dan hier in voor de workshop.

Dit is het tweede artikel in een reeks van vele. De volgende onderwerpen zullen gaan over:

Data Science/Analytics
Data Visualisaties

Hou onze artikelen in de gaten om meer te weten te komen!