End-to-end dataoplossing met Azure Synapse Analytics
In een drietal blogs vertel ik over de belangrijkste en meest interessante zaken die tijdens Micorosoft Ignite 2019 in Orlando zijn aangekondigd. In dit tweede deel duik ik dieper in Azure Synapse Analytics en de meerwaarde hiervan voor verschillende data specialisten!
Azure SQL Data Warehouse on steroids
Door de komst van Azure Synapse Analytics is de naam Azure SQL Data Warehouse komen te vervallen. Betekent dit dan dat dezelfde functionaliteit alleen een nieuwe naam heeft gekregen? Nee. Azure Synapse Analytics is meer dan alleen een andere naam. Het is een omgeving waarin diverse (reeds bestaande) Azure services zijn samengebracht om op deze manier een dataoplossing centraal te kunnen beheren. Voorheen moest je verschillende services zoals Azure Data Factory, Azure Data Lake Storage los van elkaar samenstellen en configureren in de Azure Portal. Vanaf nu kun je dit vanuit Azure Synapse Studio eenvoudig en centraal realiseren. Azure Synapse Studio stelt gebruikers in staat om een end-to-end dataoplossing te bouwen. Van het ophalen van gegevens uit diverse bronnen tot aan het publiceren en visualiseren van deze gegevens met Power BI.
Datagedreven organisaties en het datakwadrantenmodel
Wie datagedreven wil werken, wordt geconfronteerd met allerlei uitdagingen. Zowel op organisatorisch als technisch vlak. Hoe zorg je er bijvoorbeeld voor dat de enorme toename aan gegevens beheersbaar blijft? En hoe zorg je er voor dat waardevolle data science initiatieven binnen je organisatie uiteindelijk op een goede manier worden geoperationaliseerd. Kortom: hoe ga je met datamanagement binnen je organisatie om? Om organisaties te helpen bij deze uitdagingen maken wij gebruik van het datakwadrantenmodel van Ronald Damhof, die als partner verbonden is aan New Nexus Data Solutions. Het model maakt het vakgebied datamanagement bespreekbaar, maar vooral begrijpelijk door data in vier kwadranten in te delen.
In kwadrant I vind je de keiharde feiten. Deze data kan in haar volle ruwe omvang op een begrijpelijke manier ter beschikking worden gesteld aan de kwadranten II en IV. Data in kwadrant I wordt geproduceerd door sterk gestandaardiseerde systemen en processen, zodat ze volstrekt voorspelbaar en repeteerbaar zijn. In kwadrant IV staan data die worden gekenmerkt door innovatie en prototyping. In dit kwadrant werken de data scientists, die eigenlijk maar drie dingen vragen: data, computerkracht en coole software. Het derde kwadrant is het kwadrant van databronnen die niet onder governance staan. Een ad-hoc download die je doet van een Open Data Provider of bijvoorbeeld een lijstje in Excel dat je wilt gebruiken. Kijkend naar rollen in deze kwadranten, dan zijn het vooral data engineers die werkzaam zijn in kwadrant I, data scientists in kwadrant IV en werken in de overige twee kwadranten voornamelijk mensen met specifieke domeinkennis aangevuld met business intelligence en/of analytische competenties.
Governance en centrale ontwikkelomgeving
Met Azure Synapse Analytics is het nu mogelijk om de werelden van de verschillende kwadranten samen te brengen in een centraal beheerde omgeving. In deze omgeving kun je namelijk verschillende rollen onderbrengen, waarbij elke rol toegang heeft tot zijn eigen set aan tooling én data. Data engineers kunnen met Azure Data Factory data vanuit diverse bronnen in Azure Data Lake laden. Deze data kan uiteindelijk worden verrijkt en in Azure SQL Data Warehouse beschikbaar worden gesteld. Data scientists kunnen gebruik maken van de ruwe data die is opgeslagen in de Azure Data Lake en/óf gebruik maken van de datamodellen uit kwadrant 1. Deze data kunnen zij voortaan vanuit één interface analyseren met behulp van on-demand SQL of PySpark code, terwijl dit voorheen met verschillende programma’s moest gebeuren. Een data analist kan er vervolgens context aan toevoegen met Power BI rapportages en deze beschikbaar stellen aan de organisatie.
Meer nodig dan een technisch middel
Is Azure Synapse Analytics dé oplossing voor alles wat met data te maken heeft? Uiteraard niet, maar het is een stap in de goede richting. Het is ook slechts een technisch middel. Om als organisatie echt datagedreven te kunnen werken, zijn er meer zaken die aangepakt moeten worden. Zoals een eventuele cultuurverandering, samenwerking tussen afdelingen, maar ook het zorgdragen voor goede datakwaliteit. Ten slotte mag het belang van de aanwezigheid van goede datamodellen niet worden onderschat. Het ontbreken of niet juist implementeren van deze modellen is een reëel gevaar bij het in gebruik nemen van tooling zoals Azure Synapse Analytics, die je in staat stellen om snel informatieproducten op te leveren. Je hebt snel resultaat, maar is de gerealiseerde oplossing uiteindelijk wel toekomstvast?
Meer informatie over Mark