technologie

Vergeet big data, fast data heeft de toekomst


Volgen:

Door Bart Schouw – Als je denkt dat big data-projecten uitdagend zijn, dan heb je waarschijnlijk nog niet gezien wat Internet of Things (IoT)-projecten met zich meebrengen. Het draait bij het IoT niet meer alleen om omvang, maar ook om snelheid. Big data gaat om het aantal gegevens in combinatie met de ongestructureerdheid, bij het IoT komt daar nog bij dat data real-time moet worden verwerkt en geanalyseerd. De snelheid waarmee dit plaatsvindt, is dus enorm belangrijk.

De omvang van big data-projecten is daarom nog vaak maar een peulenschil in vergelijking met de omvang (en de snelheid) van IoT-projecten. Twitter is daar een goed voorbeeld van, want dit wordt weleens een bron van big data genoemd. Via de website Internet Live Stats zien we dat het aantal tweets per seconde naar schatting tussen de 6.000 en 8.500 ligt.

Laten we dat eens vergelijken met een IoT-project om het verschil concreet te maken. Een bedrijf dat ik laatst bezocht, heeft namelijk al de behoefte om 250.000 'gebeurtenissen' van zijn apparaten per seconde te kunnen verwerken. Datzelfde bedrijf werkt al toe naar het kunnen verwerken van een miljoen gebeurtenissen per seconde – een flink verschil met het aantal tweets.

Analyse direct na het ontvangen van gegevens
Dit soort bedrijven zoekt naar nieuwe bedrijfsmodellen, waarbij strategisch voordeel wordt behaald door geavanceerde services te bieden, zoals preventief onderhoud en superieure ondersteuning door nieuwe servicemodellen. Zij willen een IT-infrastructuur creëren om in real time voorspellende analyses (inclusief geautomatiseerde besluiten) te kunnen maken, binnen enkele seconden nadat een bepaald patroon is gedetecteerd.

Het grote verschil tussen IoT- en big data-projecten is (het gebrek aan) tijd en dus is die korte tijdspanne belangrijk. In big data-projecten is het volkomen normaal dat de gegevens eerst kunnen rusten voordat ze worden gebruikt voor analyses, terwijl bij IoT-projecten tijd essentieel is; de analyse moet zo snel mogelijk plaatsvinden nadat de gegevens zijn ontvangen.

Dat is de reden waarom ik IoT-projecten liever fast data-projecten noem. Hier sta ik niet alleen in. IDC-onderzoeker John Gantz gaf bijvoorbeeld aan dat de oplossingen voor het IoT ook méér moeten kunnen: je moet een beslissing kunnen nemen binnen een minuut nadat ze een situatie hebben gedetecteerd.

Om het nog ingewikkelder te maken, is er nog een aantal overwegingen als het om snelheid gaat. Het eerste probleem is dat gegevens uit appraten vaak in simpel formaat worden aangeleverd. Met simpel bedoel ik in een formaat dat zonder verdere bewerking ongeschikt is voor besluitvorming. Die data moet dus worden georganiseerd, getransformeerd en verrijkt om waardevol te worden voor analyse.

Organiseren en transformeren
Georganiseerd verwijst hier naar het probleem dat je er niet op mag vertrouwen dat de gegevens in de juiste volgorde binnenkomen om direct geanalyseerd te kunnen worden. Het efficiënt her-rangschikken van in-flight data is een technologische uitdaging op zich.

Transformatie is nodig omdat de originele data wel kan worden gebruikt, maar dat is vaak niet voldoende voor een geavanceerde analyse. Dit vergt wellicht wat meer uitleg. Laten we zeggen dat je wilt bepalen of een waarde binnen de bandbreedte valt van wat als normaal wordt gezien, of dat het om een uitzondering gaat. In een simpele analyse zou je een statische analyse kunnen doen, waarbij je onder- en bovengrenzen hard codeert. In praktijk zou dat waarschijnlijk behoorlijk wat false positives opleveren, wat de betrouwbaarheid van het systeem niet ten goede komt.

Het zou beter zijn om dit dynamisch te kunnen doen door in real time een Bollinger band-berekening uit te voeren. De Bollinger band heeft misschien een Exponential Weighed Time Based Moving Average (EWMA) nodig. Dit EWMA kan worden gezien als een afgeleide waarde, die telkens moet worden berekend als er een nieuwe gebeurtenis plaatsvindt. Dit is een voorbeeld van wat ik als een real-time transformatie zie.

Verrijken van data
De derde en laatste verandering betreft de verrijking. Die is nodig als de beslissingsmodellen niet alleen de data van de apparaten gebruiken, maar ook andere bronnen uit de organisatie nodig hebben. Het gaat dan bijvoorbeeld over welke service level agreement (SLA) is afgesproken, wanneer er voor de laatste keer onderhoud is gepleegd en welke historische referentiegegevens kunnen worden toegepast.

Over de implicaties op de bestaande IT-infrastructuur van het constant ophalen van deze gegevens ter verrijking van de analyse moet goed worden nagedacht. Om ervoor te zorgen dat de prestaties van dergelijke systemen daardoor niet dusdanig afnemen, zijn aanvullende maatregelen noodzakelijk.

Om deze drie real-time mogelijkheden te ondersteunen heeft een bedrijf geavanceerde integratie, analyse- en in-memory caching mogelijkheden nodig. Forrester noemt dit technologiedomein streaming analytics.

Big data was de eerste stap; wat het Internet of Things nodig heeft, is big fast data.

De auteur is director IoT bij Software AG

Van onze partners

Magazines

TITM nr 1 - Cloud & Data


In het eerste nummer van Tijdschrift IT Management (TITM) staat dataopslag in de cloud centraal. Nu de cloud steeds meer de primaire strategie is voor ondernemingen, is het zaak dat medewerkers op een veilige, consistente en snelle manier toegang hebben tot hun data, ongeacht het device waarop ze werken of de locatie waar ze zich bevinden. Vooral voor bedrijven met meerdere vestigingen en veel mobiele werknemers is dit een uitdaging. Tel daarbij op het stijgend aantal hybride cloud-architecturen en de uitdagingen op het gebied van security en compliance, en de complexiteit wordt in één oogopslag duidelijk.


Naar alle magazines