Big Data -  - E-Book

Big Data E-Book

0,0

Beschreibung

Big Data beschreibt das Phänomen rasant wachsender Datenmengen: 90 Prozent aller heute zur Verfügung stehenden Daten wurden in den vergangenen beiden Jahren gesammelt und gespeichert. Die vielfach unstrukturierten Daten fließen in Data Lakes, Pools oder Warehouses und werden durch intelligente Verknüpfung zu Informationen veredelt. Schon heute wird Big Data zur Steuerung von Produktionsprozessen und Entwicklung neuer Geschäftsmodelle im produktionswirtschaftlichen Bereich angewandt. Big Data hat durch die sich abzeichnende vierte Industrielle Revolution eine gesteigerte Wahrnehmung erfahren, sodass es sich zu einem diffusen Containerbegriff entwickelt hat. Vor diesem Hintergrund ordnet der Sammelband aus der Perspektive von Fachleuten das Phänomen Big Data ein und stellt neben den technischen Voraussetzungen auch die betrieblichen Nutzungspotentiale vor.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern
Kindle™-E-Readern
(für ausgewählte Pakete)

Seitenzahl: 476

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Moderne Produktion

Herausgegeben von Marion Steven

Marion Steven/Timo Klünder (Hrsg.)

Big Data

Anwendung und Nutzungspotenziale in der Produktion

Verlag W. Kohlhammer

Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwendung außerhalb der engen Grenzen des Urheberrechts ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und für die Einspeicherung und Verarbeitung in elektronischen Systemen.

1. Auflage 2020

Alle Rechte vorbehalten

© W. Kohlhammer GmbH, Stuttgart

Gesamtherstellung: W. Kohlhammer GmbH, Stuttgart

Print:

ISBN 978-3-17-036476-9

E-Book-Formate:

pdf: ISBN 978-3-17-036477-6

epub: ISBN 978-3-17-036478-3

mobi: ISBN 978-3-17-036479-0

Für den Inhalt abgedruckter oder verlinkter Websites ist ausschließlich der jeweilige Betreiber verantwortlich. Die W. Kohlhammer GmbH hat keinen Einfluss auf die verknüpften Seiten und übernimmt hierfür keinerlei Haftung.

Inhalt

Vorwort

1 Big Data – Anwendung und Nutzungspotentiale in der Produktion

Marion Steven, Timo Klünder

I Informationstechnische Aspekte

2 Big Data Analytics – Begriff, Prozess und Ausrichtungen

Roland Düsing

3 Data Science Canvas: Ein Instrument zur Operationalisierung von Daten

Thomas Neifer, Andreas Schmidt, Paul Bossauer und Andreas Gadatsch

4 Moderne Technologie- und Architekturkonzepte für Analytische Ecosysteme

Peter Gluchowski, Marcus Hofmann

5 Datensicherheit für Big Data-Anwendungen

Roland Gabriel

6 Industrial Big Data: Modernes Informationsmanagement in der Produktion

Tobias Meisen, André Pomp, Max Hoffmann

7 Big Data und Echtzeitverarbeitung in Handelsunternehmen – Betriebswirtschaftliche Einsatzfelder zur Optimierung von Aufgaben und Entscheidungen

Reinhard Schütte, Felix Weber

II Betriebswirtschaftliche Aspekte

8 Chancen, Risiken und Entwicklungstendenzen von Big Data in der Produktion

Peter Brödner

9 Ökonomische Effekte von Big Data – Grundlagen der modernen Datenökonomik

Oliver Budzinski, Nadine Lindstädt-Dreusicke und Philipp Kunz-Kaltenhäuser

10 Big-Prozess-Analytik für Fertigungsmanagementsysteme (MES)

Peter Fettke, Lea Mayer, Nijat Mehdiyev

11 Anwendungen und Nutzungspotenziale von Big Data im Unternehmens-Controlling

Ulrike Baumöl

12 Big Data im Carsharing als Grundlage für den urbanen Mobilitätswandel

Norman Spangenberg, Christoph Augenstein, Marcus Krämer, Ingolf Römer, Nico Bilski, Torsten Bähr, Bogdan Franczyk

13 Die Nachhaltigkeit von Big Data als »Rohstoff der Zukunft«

Timo Klünder

 

Vorwort

 

 

 

Der industrie- und wirtschaftspolitische Sammelbegriff »Industrie 4.0« bezeichnet die technischen und wirtschaftlichen Gestaltungsdimensionen, die sich aus der umfassenden informationstechnischen Vernetzung von Produktions- und Wertschöpfungsprozessen ergeben. Vielfach wird Industrie 4.0 vor allem als technische Herausforderung der Digitalisierung, Abstimmung und Vernetzung von Objekten und Abläufen betrachtet. Inzwischen zeigt sich in Wissenschaft und Praxis, dass sich die Märkte, die Wettbewerbsstrukturen und die Geschäftsmodelle grundlegend ändern werden – für den Hightech-Produktionsstandort Deutschland bieten sich hier vielfältige Entwicklungschancen.

Die Reihe »Moderne Produktion« stellt in loser Folge aktuelle Themen aus dem Bereich Industrie 4.0 vor. Der vorliegende Sammelband »Big Data« fokussiert die informationstechnischen und betriebswirtschaftlichen Herausforderungen sowie Potentiale, die Big Data für Unternehmen in Industrie 4.0 schafft. Big Data beschreibt das Phänomen rasant wachsender Datenmengen: 90% aller heute zur Verfügung stehenden Daten wurden in den vergangenen beiden Jahren gesammelt und gespeichert. Die vielfach unstrukturierten Daten fließen in Data Lakes, Data Pools oder Data Warehouses und werden durch intelligente Verknüpfung zu Informationen veredelt. Schon heute wird Big Data zur Steuerung von Produktionsprozessen und zur Entwicklung neuer Geschäftsmodelle angewandt. Der Begriff Big Data hat durch die sich abzeichnende vierte Industrielle Revolution eine gesteigerte Wahrnehmung erfahren, sodass er sich zu einem diffusen Containerbegriff entwickelt hat. Vor diesem Hintergrund ordnet der Sammelband aus wissenschaftlicher Perspektive das Phänomen Big Data ein und stellt neben den technischen Voraussetzungen auch die betrieblichen Nutzungspotentiale vor.

Erfreulicherweise ist es uns gelungen, eine Reihe von ausgewiesenen Expertinnen und Experten zu gewinnen, die sich aus verschiedenen Perspektiven mit den vielfältigen Facetten dieser Problematik auseinandersetzen. In den Beiträgen dieses Sammelbandes liegt die Betonung auf Big Data als einem zentralen technologischen Treiber der vierten industriellen Revolution. Diese Technologie wird gepaart mit dem Produktionsparadigma Industrie 4.0 zur Disruption etablierter Strukturen beitragen, aber gleichzeitig neue Wettbewerbsvorteile eröffnen. Das Spektrum der Beiträge reicht vom informationstechnischen Rüstzeug, wie erforderlicher Hardware, geeigneten Software-Lösungen sowie Sicherheitsarchitekturen und Schlüsselkompetenzen, bis hin zu betriebswirtschaftlichen Aspekten, wie ökonomischen Chancen und Risiken, dem Veränderungsbedarf in grundlegenden betrieblichen Funktionen sowie zukünftigen Entwicklungstendenzen des großen Datenmengen innewohnenenden Potentials.

Im Anschluss an eine Einführung in die Thematik sind die insgesamt zwölf Beiträge zwei komplementären Themenfeldern zugeordnet:

•  Themenfeld I »Informationstechnische Aspekte von Big Data« befasst sich in sechs Beiträgen mit der Frage, wie große Datenmengen sicher, strukturiert und effizient in Produktionsprozessen Anwendung finden können.

•  Themenfeld II »Betriebswirtschaftliche Aspekte von Big Data« stellt hierauf aufbauend mögliche Anwendungsszenarien und Nutzungspotentiale dar. Diese Betrachtung reicht von aggregierten Betrachtungen auf ökonomischer, ökologischer und sozialer Ebene bis hin zu sehr konkreten Anwendungsmöglichkeiten im Carsharing oder Unternehmenscontrolling.

Die Zielgruppe dieses Bandes sind Praktiker aus Industrie und Beratung, aber auch Studierende der Betriebswirtschaftslehre, des Wirtschaftsingenieurwesens, der Wirtschaftsinformatik sowie Dozenten und Lehrende dieser Fächer. Wir danken dem Kohlhammer Verlag, insbesondere Herrn Dr. Uwe Fliegauf, für die gute Zusammenarbeit und die Unterstützung bei der Konzeption und Herausgabe dieses Sammelbands.

Bochum, im Dezember 2019

Marion Steven und Timo Klünder

1          Big Data – Anwendung und Nutzungspotentiale in der Produktion

Marion Steven, Timo Klünder1

1.1     Big Data als Treiber des digitalen Wandels

1.2     Informationstechnische Aspekte von Big Data

1.3     Betriebswirtschaftliche Aspekte von Big Data

1.4     Ausblick

Literatur

1.1       Big Data als Treiber des digitalen Wandels

Die systematische Analyse und Verknüpfung umfangreicher wählerbezogener Daten ermöglichte Wahlkämpfern im US-amerikanischen Präsidentschaftswahlkampf 2016. individuelle auf die Persönlichkeit des Wählers zugeschnittene Botschaften zu übermitteln. Im März 2018 wurde diese Form des Mikrotargetings durch den Whistleblower Christopher Wylie aufgedeckt und die Beteiligung des britischen Datenanalyse-Unternehmens »Cambridge Analytica« am US-amerikanischen Wahlkampf rückte den Begriff »Big Data« prominent in den Fokus öffentlicher Wahrnehmung. Betriebswirtschaftliche Einsatzszenarien bleiben vielfach unbeachtet, obwohl die hier durch den Einsatz von Big Data erreichten Fortschritte nicht minder beeindruckend sind. Der US-amerikanische Einzelhandelskonzern Walmart benötigt durch den Einsatz von Big Data zur Entwicklung eines Lösungsvorschlags für Störungen, wie Lieferverzögerungen oder Fehlmengen, nicht mehr durchschnittlich drei Wochen, sondern lediglich 20 Minuten (Marr 2016: 14 ff.).

Big Data setzt große oder zumindest komplexe Datenmengen voraus. Zwischen dem Beginn der Zivilisation und dem Jahr 2003 wurden 5 Exabyte (1018) Daten geschaffen. Dies ist eine Datenmenge, die heute innerhalb von zwei Tagen erzeugt wird. Diese gigantischen und komplexen Datenmengen besitzen das Potential, die Wertschöpfung der Unternehmen zu revolutionieren, stellen Unternehmen und Verantwortliche jedoch auch vor zahlreiche und neue informationstechnische wie betriebswirtschaftliche Herausforderungen und Fragestellungen:

•  Was ist Big Data?

•  Welche informationstechnische Infrastruktur ist die zwingende Voraussetzung für den erfolgreichen Umgang mit Big Data?

•  Wie können Unternehmen Daten effizient organisieren und klassifizieren?

•  Welche positiven und negativen Effekte resultieren aus der Nutzung von Big Data?

•  Wie müssen betriebliche Funktionen in Reaktion auf Big Data neu gestaltet werden?

Die Lösung dieser und weiterer Herausforderungen und Fragestellungen ist die Zielsetzung der Beiträge dieses Sammelbands, der nicht am Anfang dieser Entwicklung erscheint, sondern mehr als 50 Jahre nach Beginn des sogenannten Datenzeitalters. Der aktuelle Trend-Begriff »Big Data« verfügt bereits über eine kurze Geschichte (u. a. Mülling 2018: 24 ff., King 2014: 22) ( Abb. 1):

Abb. 1: Eine kurze Geschichte von »Big Data«

•   1965 beschloss die Administration der Vereinigten Staaten, das erste Rechenzentrum zu bauen, in dem über 742 Millionen Steuererklärungen und 175 Millionen Fingerabdrücke gespeichert werden sollten, indem alle diese Datensätze auf Magnetband übertragen wurden, das an einem einzigen Ort aufbewahrt werden musste. Das Projekt wurde später aus Angst vor »Big Brother« eingestellt, aber es ist allgemein anerkannt, dass es der Beginn der Ära der elektronischen Datenspeicherung war. Die Bedenken, die »Big Data« heute hervorruft, sind somit nicht neu.

•  Ebenfalls nicht neu ist der Big Data-Begriff selbst. Im Jahr 1970 fand der Begriff »Big Data« in einem Experiment im Inselstaat Barbados zur Untersuchung des Zusammenhangs zwischen physikalischen Eigenschaften des Wetters und des Ozeans erstmals Anwendung. Die nochmalige Verwendung des Begriffs ist erst für das Jahr 1997 dokumentiert.

•  Am 12. März 1989 präsentierte Tim Berners-Lee am europäischen Kernforschungszentrum Cern ein Informationsmanagementsystem mit universellem Übertragungsstandard, das den Physikern den weltweiten freien Austausch von Informationen ermöglichte. Das Internet bildet für den überwiegenden Anteil aktueller Big Data-Anwendungen die Datenquelle, stellt Analysewerkzeuge bereit und ermöglicht die Anwendung der aus den Daten gewonnenen Erkenntnisse.

•  Im Jahr 2001 definierte Laney Big Data als die aus dem Umfang (Volume), der Geschwindigkeit (Velocity) und der Vielfalt (Variety) resultierenden Komplexität der Datenverarbeitung. Jener 3V-Ansatz bildet den Ausgangspunkt aller auf dem V-Konzept basierenden Definitionen, die heute von den ursprünglichen drei V bis hin zu siebzehn V reichen. Verbreitet ist die 4V-Definition, welche Big Data als eine Kombination aus dem Umfang (Volume), der Geschwindigkeit (Velocity), der Vielfalt (Variety) und der Vertrauenswürdigkeit (Veracity) charakterisiert.

•  Die aktuelle Begeisterung von Forschern und Praktikern für diesen Begriff wird jedoch vor allem durch die Industrie 4.0 und neuartige Datenquellen angetrieben.

Was haben fahrerlose Transportsysteme, Virtual und Augmented Reality oder die Blockchain gemeinsam? Es handelt sich um mehr oder weniger fortgeschrittene Technologien, die die technologische Basis der vierten industriellen Revolution, der sogenannten Industrie 4.0, repräsentieren. Der Begriff wurde 2011 auf der Hannover Messe Industrie eingeführt. Kennzeichnend für eine Industrielle Revolution sind Änderungen auf organisationaler Ebene, welche durch den flächendeckenden Einsatz neuartiger Technologien erreicht werden. Industrie 4.0 lässt sich daher ebenfalls über eine organisationale und eine technologische Komponente beschreiben (Steven und Klünder 2018: 203):

•  Auf organisationaler Ebene wird Industrie 4.0 durch eine horizontale und vertikale Integration von Unternehmen charakterisiert, die unternehmensübergreifend in einer dezentral gesteuerten und sich selbstorganisierenden Wertschöpfungskette eine individualisierte, nachhaltige und flexible Produktion ermöglichen, durch die Zeit-, Kosten- und Qualitätsvorteile erzielt werden können.

•  Diese organisationalen Wertschöpfungsveränderungen werden durch den vernetzten Einsatz von Big Data und echtzeitfähiger cyber-physischer Systeme im Internet der Dinge und Dienste technologisch vorangetrieben, sodass digital integrierte, autonome Smart Factories entstehen.

Industrie 4.0 hat zu einer Wiederbelebung des Big Data-Begriffes geführt. Während die Zahl der mit dem Schlagwort »Big Data« indexierten Literatur zwischen 1960 und 2010 zwischen 0 und 31 Beiträgen pro Jahr lag, ist diese Zahl bis 2018 auf 16.505 Beiträge angewachsen (Eigene Berechnungen; Quelle: Datenbank Scopus) (siehe Primärachse  Abb. 1).

Parallel hierzu wuchs die jährlich generierte Datenmenge ab 2011 exponentiell (siehe Sekundärachse  Abb. 1). Bis 2025 sollen, wenn man das aktuelle jährliche Wachstum durch die International Data Corporation fortschreibt, 175 Zettabyte Daten pro Jahr neu generiert werden. Eine beschriebene DIN-A4-Textseite umfasst 4 KB Daten, sodass es mit 175 Zettabyte ausgedruckter Daten auf DIN-A4-Papier möglich wäre, die Fläche der Erde 5.360.468-mal auszulegen. Auf jedem Fleck der Erde würden sich Papierstapel in einer Höhe von 536 Metern türmen. Die großen Industrienationen, USA, China und Europa, sind dabei die größten Datenproduzenten.

Welchen Mehrwert bietet der vorliegende Sammelband vor dem Hintergrund von 16.505 Publikationen zum Thema »Big Data« allein im Jahr 2018 und einer mehr als 50-jährigen Geschichte des Big Data-Begriffes?

•  Ein Großteil der vorliegenden Publikationen ist rein informationstechnischer Ausrichtung ohne betriebs- oder produktionswirtschaftlichen Bezug.

•  Es wird in diesen Publikationen nur sehr selten ein Industrie 4.0-Bezug hergestellt.

•  Dieser Sammelband bewegt sich an der Schnittstelle von Informatik und Betriebswirtschaft, um ein ganzheitliches Bild von Big Data vor dem Hintergrund von Industrie 4.0 zu liefern.

Um das Big Data-Phänomen umfassend zu erschließen, werden in den Beiträgen des vorliegenden Sammelbands die informationstechnischen und betriebswirtschaftlichen Aspekte zum erfolgreichen Einsatz von Big Data thematisiert. Hierauf aufbauend werden Wettbewerbspotentiale des Einsatzes von Big Data illustriert. Abbildung 2 gibt einen Überblick über den inhaltlichen Zusammenhang der Beiträge, die zwei komplementären Themenfeldern zugeordnet sind. Erst die erfolgreiche Lösung informationstechnischer und betriebswirtschaftlicher Herausforderungen ermöglicht die Generierung umfangreicher Wettbewerbsvorteile.

•  In Teil I »Informationstechnische Aspekte« stehen die durch die digitale Transformation auslösten Veränderungen der Märkte und Wertschöpfungsbeziehungen im Vordergrund.

•  Teil II »Betriebswirtschaftliche Aspekte« befasst sich mit den betrieblichen Nutzungspotentialen von Big Data und zeigt umfassend die Chancen, Risiken und Entwicklungstendenzen von Big Data auf.

Angesichts der schnellen Entwicklungen im Bereich von Industrie 4.0 können die Ausführungen zu diesen Themenfeldern nur eine Momentaufnahme darstellen und mögliche Entwicklungsszenarien für die Zukunft skizzieren.

Abb. 2: Aufbau des Sammelbands

1.2       Informationstechnische Aspekte von Big Data

Big Data wird in einer Studie mit 604 deutschen Unternehmen von 57 Prozent aller Unternehmen als wichtigste Technologie für eine zukünftig erfolgreiche unternehmerische Tätigkeit identifiziert (BITKOM 2018). Eine mangelnde Bekanntheit der Einsatzmöglichkeiten, Techniken und Methoden sowie Datenschutz- und Datensicherheitsbedenken hemmen den flächendeckenden Einsatz (Fraunhofer-Institut für intelligente Analyse- und Informationssysteme 2012: 48). In Teil I werden umfassend die informationstechnischen Aspekte erläutert, die in ihrer Gesamtheit einen entscheidenden Beitrag zum Abbau dieser Umsetzungsbarrieren leisten können.

Roland Düsing definiert im Beitrag Big Data Analytics – Begriff, Prozess und Ausrichtungen zunächst umfassend den Big Data-Begriff, um Big Data Analytics anschließend in das Gebiet der Datenanalyse einordnen zu können. Es wird gezeigt, dass ein Zusammenhang zwischen dem Knowledge Discovery in Databases (KDD) und Big Data Analytics besteht, sodass der aus den Phasen Auswahl, Aufbereitung, Festlegung, Analyse und Interpretation bestehende Prozess als Vorgehensmodell für die Untersuchung von Big Data Analytics herangezogen werden kann. Außerdem werden die Ausrichtungen Descriptive Analytics, Predictive Analytics und Prescriptive Analytics vorgestellt, deren erzeugte Modelle in Anwendungen als Beschreibungsmodelle, Erklärungsmodelle oder Entscheidungsmodelle herangezogen werden können.

Thomas Neifer, Andreas Schmidt, Paul Bossauer und Andreas Gadatsch entwickeln anschließend im Beitrag Data Science Canvas: Ein Instrument zur Operationalisierung von Daten eine Methode zur Entwicklung einer Datenstrategie, die sie anschließend exemplarisch auf die Produktionsleistung einer Photovoltaik-Anlage anwenden. Im eingangs von Roland Düsing dargestellten, aus fünf Phasen bestehenden Prozess ist dieses Kapitel der Auswahl und Aufbereitung von Daten zuzuordnen. Der Canvas-Gedanke strebt eine möglichst übersichtliche Zusammenfassung komplexer Problemstellungen an. In Anlehnung an das verbreitete »Businesss Model Canvas« wird der »Data Science Canvas« entwickelt, der für jegliche Fragestellungen der Datenanalyse anwendbar und auch für nicht datenaffine Fach- und Führungskräfte nutzbar ist, um Data Science Projekte planen, steuern und kontrollieren zu können. Dieses Konzept dient als Bindeglied zwischen der Führungskraft und dem Data Scientist. Methodenkarten dienen als Hilfestellung für nicht datenkompetente Fach- und Führungskräften, um sich intensiver mit Data Science und den unternehmenseigenen Potentialen auseinanderzusetzen.

Die erfolgreiche Umsetzung von Big Data-Initiativen steht auch im Zentrum des Beitrags Moderne Technologie- und Architekturkonzepte für Analytische Ecosysteme von Peter Gluchowski und Marcus Hofmann. Den traditionellen Architekturkonzepten stellen sie moderne Architekturkonzepte für eine Echtzeit- und Stapeldatenverarbeitung gegenüber. Das Architekturkonzept determiniert ganz wesentlich die Aufbereitung und Festlegung der zu verwendenden Daten. Big Data-Initiativen bedürfen geeigneter technologischer Plattformen mit einem tragfähigen Gesamtkonzept. Neben der Diskussion moderner Big Data-Technologien und Frameworks werden Lambda-, Kappa- und Streaming-Architekturen für eine kombinierte Echtzeit- und Stapeldatenverarbeitung hinsichtlich ihres Aufbaus und ihrer Grundsätze analysiert.

In der Phase der Analyse und Interpretation von Daten sind, wie bereits die Bedenken bei der Planung des weltweit ersten Datencenters zeigten, Sicherheitsbedenken stets von Bedeutung. Die Sicherheit computergestützter Anwendungs- und Informationssysteme ist eine notwendige Gestaltungsanforderung. Roland Gabriel entwickelt daher in seinem Beitrag Datensicherheit für Big Data-Anwendungen eine Sicherheitsarchitektur für Big Data. Technische, organisatorische und personelle Sicherheitsmaßnahmen tragen zur Sicherheit von Big Data bei. Die Entwicklung eines Prozesses zum Aufbau einer Sicherheitsarchitektur als Phasenmodell, welches von der Sicherheitspolitik der Unternehmen bis zur Implementierung und dem Testen der Sicherheitsarchitektur reicht, ermöglicht ein strategisches wie operatives Sicherheitsmanagement.

Tobias Meisen, André Pomp und Max Hoffmann beschäftigen sich ebenfalls mit Architekturen, fokussieren im Beitrag Industrial Big Data: Modernes Informationsmanagement in der Produktion jedoch auf eine Reduzierung der Time-to-Analytics als strategisches Ziel des modernen unternehmerischen Informationsmanagements. Time-to-Analytics beschreibt die Zeit, die für die Ableitung digitaler Informationen aus Daten benötigt wird. Praktische Beispiele verschiedener Branchen beschreiben die industrielle Realität und bilden die Grundlage einer Ableitung der mit Industrial Big Data verbundenen Herausforderungen. Hierbei wird deutlich, dass etablierte Konzepte des Daten- und Informationsmanagements nicht dazu geeignet sind, diesen Herausforderungen zu begegnen. Die Diskussion neuartiger Ansätze mündet abschließend in einer Implementierung der Industrie 4.0 Referenzarchitektur RAMI 4.0 für Industrial Big Data.

Die aus der Auswahl, Aufbereitung, Festlegung, Analyse und Interpretation von Daten hervorgehenden Wettbewerbsvorteile bilden am Beispiel des Handels den Abschluss des ersten, informationstechnisch orientierten Teils dieses Sammelbands. Reinhard Schütte und Felix Weber stellen im Beitrag Big Data und Echtzeitverarbeitung in Handelsunternehmen – Betriebswirtschaftliche Einsatzfelder zur Optimierung von Aufgaben und Entscheidungen zunächst die Entscheidungsprobleme in Handelsunternehmen dar, um anschließend aus technischer Perspektive, unter besonderer Bezugnahme auf die Echtzeitverarbeitung von Daten, die aus dem Einsatz von Big Data resultierenden Wettbewerbsvorteile für Handelsunternehmen zu strukturieren. Die Aufgabenarten von Handelsunternehmen werden dahingehend analysiert, ob Aufgaben und vor allem Entscheidungsprobleme eine Veränderung durch Big Data erfahren. Die Analyse in exemplarischen Anwendungsfeldern deckt zu generierende Wettbewerbsvorteile auf.

1.3       Betriebswirtschaftliche Aspekte von Big Data

Im Gegensatz zu diesen eher informationstechnisch orientierten Beiträgen wird in Teil II stärker auf betriebswirtschaftliche Handlungsfelder fokussiert. Der Aufbau strategischer Wettbewerbsvorteile ist das zentrale Ziel der Big Data-Anwendung, welches über Umsatzsteigerungen, Kostenreduktionen, Produktivitätssteigerungen, datenbasierte und marktnahe Planungen und allgemeine Effizienzgewinne erreichbar ist (Fraunhofer-Institut für intelligente Analyse- und Informationssysteme 2012, S. 46). Den Pfad zur Erreichung dieser Ziele erschließen die sechs Beiträge des zweiten Themenfeldes:

Peter Brödner eröffnet den betriebswirtschaftlich orientierten Teil mit einer Darstellung der Potentiale von Big Data. Insbesondere wird in seinem Beitrag Chancen, Risiken und Entwicklungstendenzen von Big Data in der Produktion auf die Besonderheiten im Umgang mit »Big Data« in der Produktion eingegangen. Grundlegende theoretische Aspekte der Modellbildung werden als notwendige Voraussetzung für den Computereinsatz beleuchtet. Zur Einschätzung von Chancen und Risiken werden die mit der algorithmischen Analyse großer Datenmengen verbundenen methodischen Schwierigkeiten aufgezeigt. Zu dieser Analyse zählen auch weithin ignorierte Herausforderungen und Besonderheiten im Umgang mit Big Data in der Produktion.

Die Chancen des Einsatzes von Big Data, die sich in Form ökonomischer Effekte zeigen, werden von Oliver Budzinski, Nadine Lindstädt-Dreusicke und Philipp Kunz-Kaltenhäuser im Beitrag Ökonomische Effekte von Big Data – Grundlagen der modernen Datenökonomik betrachtet. Werbefinanzierte Geschäftsmodelle, individualisierte Güter, datenbasierte Preisdiskriminierung und Datenhandel werden ebenso als Chance für Unternehmen angeführt wie die intelligente Produktion und der intelligente Konsum. Bei der Ausnutzung jener Chancen verweisen die Autoren auf die Rolle des Verbraucherschutzes zum Schutz der Verbraucher vor konsumentenwohlfahrtschädigendem Verhalten der Anbieter. Abschließend werden Voraussetzungen für einen effizienten Umgang mit persönlichen Daten angeführt, die von einer Outside-Option des Kunden über die Option eines Anbieters bis hin zur Transparenz des Wertes persönlicher Daten reichen.

Die betriebswirtschaftlichen Risiken der Anwendung von Big Data strukturieren Peter Fettke, Lea Mayer und Nijat Mehdiyev im Beitrag Big-Prozess-Analytik für Fertigungsmanagementsysteme (MES) mit einem Überblick über die Bedeutung, die Rollenverteilung und Anwendungsmöglichkeiten der Prozessanalytik für Industriebetriebe. Prozessanalytik verknüpft die Prozess- und Datenperspektive, um analytische Ansätze zu entwickeln und aus großen Datenmengen einen Mehrwert zu generieren. Das Manufacturing Execution System (MES) stellt ein geeignetes Werkzeug dar, um Prozesse lückenlos zu dokumentieren, heterogene Daten zu erfassen und für die Prozessanalytik zur Verfügung zu stellen. Die vorgestellten Chancen werden anhand eines Fallbeispiels aus dem Werkzeug- und Vorrichtungsbau tiefer diskutiert.

Die betriebswirtschaftlichen Chancen und Risiken von Big Data führen zu einer umfassenden Umgestaltung des Controllings. Controlling basiert eigentlich schon immer auf großen Datenmengen und heterogenen Datenquellen. Die Vielfalt der Datenquellen hat jedoch drastisch zugenommen, sodass Ulrike Baumöl im Beitrag Anwendungen und Nutzungspotenziale von Big Data im Unternehmens-Controlling für den Einsatz von Big Data die fachlichen, strukturellen, methodischen und informationstechnischen Anforderungen in einem Rahmenkonzept für die Nutzung von Big Data im Unternehmenscontrolling, dem sogenannten FSMI-Modell, zusammenfasst. Die Integration und Nutzung von Big Data setzt eine Anpassung der Controlling-Funktion in den vier genannten Bereichen voraus.

Geschäftsmodelle, die auf der Idee des Sharings basieren, wie beispielsweise Uber, AirBnB oder Kleiderkreisel, gewinnen durch Industrie 4.0-Technologien an Bedeutung. Norman Spangenberg, Christoph Augenstein, Marcus Krämer, Ingolf Römer, Nico Bilski, Thorsten Bähr und Bogdan Franczyk untersuchen im Beitrag Big Data im Carsharing als Grundlage für den urbanen Mobilitätswandel, inwiefern Big Data einen Beitrag zu einem erfolgreichen Angebot des Carsharings leistet. Dieses Anwendungsszenario zeigt auf, dass das Geschäftsmodell Sharing erst durch Big Data realisierbar wird. Bisherige Ansätze wirken hauptsächlich auf strategischer sowie taktischer Planungsebene und unterstützen dabei vorwiegend die Flottendimensionierung und Definition des Geschäftsgebiets. Durch Big Data werden Datenquellen zugänglich, die neue Anwendungsszenarien, nun auch auf operativer Ebene, ermöglichen. Hierzu zählen beispielsweise die Anomalieerkennung als Erweiterung des Realtime-Monitorings oder die Vorhersage des Nachfrageverhaltens aufgrund regelmäßiger Nutzer-Gewohnheiten in Verbindung mit Echtzeit-Standortdaten oder Veranstaltungsdaten.

Timo Klünder untersucht im Beitrag Die Nachhaltigkeit von Big Data als »Rohstoff der Zukunft«, inwiefern Big Data zur Erreichung der Ziele nachhaltiger Entwicklung beiträgt. Nachhaltigkeit, insbesondere nachhaltige Produktion, sorgt für Differenzierung im Wettbewerb und kann Wettbewerbsvorteile generieren. Trotz der tragenden Rolle von Big Data im forschungsintensiven Produktionsparadigma Industrie 4.0, der Relevanz des produzierenden Gewerbes für Industrie 4.0 und der Bedeutung nachhaltiger Produktion in der Wertschöpfung liegen bislang keine Forschungsarbeiten vor, die eine Verbindung jener Elemente herstellen. Sechzehn Indikatoren nachhaltiger Produktion werden auf eine Korrelation mit dem Einsatz von Big Data getestet. Das große Versprechen von Big Data, Wettbewerbsvorteile zu generieren, wird bislang lediglich für die ökonomische Dimension des dreiteiligen Zielbündels nachhaltiger Entwicklung (Ökonomie, Ökologie, Soziales) eingelöst.

1.4       Ausblick

Produzierende Unternehmen unterliegen dem permanenten Druck, sich kontinuierlich zu verbessern, um ihre Wettbewerbsfähigkeit zu erhalten. Dieser Druck wird durch die sich anbahnende vierte Industrielle Revolution verstärkt, sodass eine Modernisierung der Produktion zu erfolgen hat. Moderne Produktion fußt auf der Vision von Industrie 4.0, die aus disruptiven Technologien, wie der Schlüsseltechnologie Big Data, und einer Neuorganisation der Wertschöpfung besteht und so zur Entstehung neuer Märkte und Geschäftsmodelle beiträgt. Zur Abbildung einer solch zukunftsfähigen Produktion erfolgt eine Auseinandersetzung mit der Smart Factory und den neuen Märkten:

Im Sammelband »Marktchancen 4.0« der Reihe »Moderne Produktion« werden, ergänzend zur Darstellung der technologischen Basis »Big Data« im vorliegenden Sammelband und der »Smart Factory«, neue Märkte und Geschäftsmodelle durch Anwendung von Industrie 4.0 thematisiert. Um das Konzept Industrie 4.0 erfolgreich zu nutzen, bedarf es des unternehmerischen Muts und einer Neuausrichtung der Geschäftstätigkeit im Sinne einer stärkeren Kundenorientierung. Die Anreicherung von Sachleistungen mit nutzensteigernden Dienstleistungen sowie die Vernetzung von Unternehmen und Produkten führen zu maßgeschneiderten, schwer imitierbaren Lösungen. Es zeigt sich, dass eine erfolgreiche Positionierung auf neuen Märkten die eigene Wettbewerbsfähigkeit nachhaltig sichert. Die Digitalisierung wirkt als Innovationstreiber zur Erschließung neuer Märkte und zur Entwicklung neuartiger Geschäftsmodelle. Die Beiträge stellen Markterschließungs- und Geschäftsmodellvarianten dar, beleuchten Möglichkeiten der Schaffung (über-)betrieblicher Wertschöpfungsnetzwerke und stellen Best-Cases vor.

Im Sammelband »Smart Factory« wird die intelligente Fabrik als zentraler Ort der Wertschöpfung in Industrie 4.0 behandelt. Im Idealbild einer Smart Factory koordinieren Maschinen selbstständig Fertigungsprozesse, kooperieren motorisierte Serviceroboter in der Montage mit Menschen und Maschinen und erledigen fahrerlose Transportsysteme eigenständig Logistikaufträge. Maschinen, Werkzeuge oder Transportmittel sind dazu mit Sensoren, Prozessoren und Aktoren ausgestattet, durch die Informationen aufgenommen, verarbeitet und darauf aufbauende Handlungen ausgelöst werden. Dadurch lassen sich alle Instanzen einer Wertschöpfungskette mit Informationen versorgen, was eine vorteilhafte, netzwerkübergreifende Produktionskooperation ermöglicht. Dies unterstützt die Vision einer wirtschaftlich sinnvollen Herstellung der Losgröße Eins. Die Beitragsautoren diskutieren den aktuellen Stand, die technischen Voraussetzungen und die perspektivischen Möglichkeiten eines konsequenten Übergangs von der klassischen Produktionsweise zur Smart Factory.

Angesichts der Dynamik des Produktionsparadigmas Industrie 4.0 und der Entstehung stets neuer Datenquellen und Analysetechniken unterliegt das Erkenntnisobjekt Big Data einem kontinuierlichen Wandel. Dieser grundlegende und nachhaltige strukturelle Wandel erfolgt, einer Revolution untypisch, nicht abrupt, sondern langsam und kontinuierlich. Die Beiträge dieses Sammelbandes spiegeln eine Momentaufnahme wider und gewähren dem informationstechnisch und betriebswirtschaftlich interessierten Wissenschaftler oder Praktiker einen umfassenden Einblick von den begrifflichen Grundlagen bis hin zur Möglichkeit der Realisierung von Wettbewerbsvorteilen.

Literatur

BITKOM: Big Data steht bei sechs von zehn Unternehmen an erster Stelle, online im Internet, URL: https://www.bitkom.org/Presse/Presseinformation/Big-Data-steht-bei-sechs-von-zehn-Unternehmen-an-erster-Stelle.html, veröffentlicht am 11.06.2018, Abruf am: 15.09.2019

Fraunhofer-Institut für intelligente Analyse- und Informationssysteme (Hrsg.): Big Data - Vorsprung durch Wissen, online im Internet, URL: https://www.iais.fraunhofer.de/content/dam/iais/gf/bda/Downloads/Innovationspotenzialanalyse_Big-Data_FraunhoferIAIS_2012.pdf, veröffentlicht 2012, Abruf am: 01.09.2019

King, S.: Big Data. Potential und Barrieren der Nutzung im Unternehmenskontext, Springer, Berlin Heidelberg New York 2014

Marr, B.: Big Data in Practice. How 45 Successful Companies Used Big Data Analytics to Deliver Extraordinary Results, John Wiley & Sons, New York 2016

Mülling, E.: Big Data und der digitale Ungehorsam, Springer, Berlin Heidelberg New York 2018

Steven, M., Klünder, T.: Nachhaltigkeit schlanker Industrie 4.0-Netzwerke, in: Khare, A., Kessler, D., Wirsam, J. (Hrsg.): Marktorientiertes Produkt- und Produktionsmanagement in digitalen Umwelten: Festgabe für Klaus Bellmann zum 75. Geburtstag, Springer, Berlin Heidelberg New York 2018

Steven, M.: Industrie 4.0. Grundlagen – Teilbereiche – Perspektiven, Kohlhammer, Stuttgart 2019

1     Lehrstuhl für Produktionswirtschaft, Ruhr-Universität Bochum, Kontakt: [email protected]; [email protected]. Homepage: www.prowi.rub.de

 

 

 

I   Informationstechnische Aspekte

2          Big Data Analytics – Begriff, Prozess und Ausrichtungen

Roland Düsing2

2.1    Einleitung

2.2    Begriff

2.3    Prozess

2.3.1   Auswahl

2.3.2   Aufbereitung

2.3.3   Festlegung

2.3.4   Analyse

2.3.5   Interpretation

2.4    Ausrichtungen

2.4.1   Descriptive Analytics

2.4.2   Predictive Analytics

2.4.3   Prescriptive Analytics

2.5    Zusammenfassung

Literatur

2.1       Einleitung

Das Konzept Industrie 4.0 ist durch eine Vernetzung von Maschinen und Abläufen in der Produktion und Logistik mit Hilfe von Informations- und Kommunikationstechnologie gekennzeichnet. Diese digitale Vernetzung ermöglicht eine Verbesserung der betrieblichen Abläufe und Wertschöpfungsprozesse. Zur Erschließung des Verbesserungspotenzials ist eine Auswertung der verfügbaren Daten mit analytischen Methoden erforderlich (Steven 2019, 72). Zu diesem Zweck kann auch Big Data Analytics als ein Ansatz der Datenanalyse herangezogen werden.

Mit diesem Beitrag soll der Ansatz Big Data Analytics in das Gebiet der Datenanalyse eingeordnet werden. Darüber hinaus sollen die Besonderheiten des Prozesses Big Data Analytics herausgestellt und die verschiedenen Ausrichtungen von Big Data Analytics dargestellt werden. Dieses soll zu einem besseren Verständnis der Herausforderungen und Möglichkeiten der Durchführung und Anwendung von Big Data Analytics führen.

Zu diesem Zweck wird zunächst der Begriff ( Kap. 2.2) Big Data Analytics beschrieben. Danach werden der Prozess ( Kap. 2.3) und eine ausgewählte Klassifizierung der Ausrichtungen ( Kap. 2.4) von Big Data Analytics dargestellt. Abschließend werden die Ergebnisse des Beitrags zusammengefasst ( Kap. 2.5).

2.2       Begriff

Die Begriffe Big Data und Big Data Analytics werden in der Literatur häufig nicht klar voneinander abgegrenzt verwendet (Maltby 2011, 1). Demgemäß werden, sprachlich ungenau, oftmals Daten und Tätigkeiten der Datenverarbeitung, wie z. B. die Erfassung, Speicherung und Auswertung von Daten, unter dem Begriff Big Data zusammengefasst. Hiervon abweichend basieren die weiteren Ausführungen auf einer inhaltlichen Unterscheidung der Begriffe Big Data und Big Data Analytics.

Der Ursprung des Begriffs Big Data ist nicht eindeutig geklärt und wird, so auch (Ward und Barker 2013), einem Bericht der META Group inhaltlich zugeschrieben. In diesem Bericht (Laney 2001) werden, ohne den Begriff Big Data zu verwenden, Eigenschaften von Daten herausgestellt, die sich aus einer Zunahme des E-Commerce ergeben und besondere Anforderungen an das Datenmanagement von Unternehmen stellen. Diese Eigenschaften beziehen sich auf die Kriterien volume, variety und velocity und wurden anfänglich auch zur Charakterisierung des Begriffs Big Data herangezogen.

Dabei beschreibt das Kriterium volume die Menge an Daten. Big Data kann eine vergleichsweise große Menge an Daten umfassen. Diese setzt sich aus beispielsweise Transaktionsdaten, die im Rahmen von betrieblichen Abläufen in Unternehmen entstehen, oder Sensordaten, die von Sensoren umweltbezogener, biologischer oder technischer Systeme aufgenommen werden, zusammen.

Das Kriterium variety kennzeichnet die Vielfalt der Datenstrukturen und Datenquellen (Oussous et al. 2018, 433). In Big Data können strukturierte, semi-strukturierte und unstrukturierte Daten enthalten sein. Strukturierte Daten, wie z. B. Daten in einer relationalen Datenbank, weisen ein festgelegtes Format für die Speicherung und Organisation auf. Unstrukturierte Daten, die einer Einschätzung von (Gantz und Reinsel 2011, 2) folgend mehr als 90% der weltweit generierten Datenmenge ausmachen, haben keine festgelegte Struktur und treten in Form von beispielsweise Texten, Bildern oder Grafiken auf. Semi-strukturierte Daten zeichnen sich durch eine implizite, irreguläre oder partielle Struktur aus. Ein Beispiel hierfür sind E-Mails, die durch ihren Aufbau aus Senderadresse, Empfängeradresse, Betreffzeile, Text und Anhang über eine implizite Struktur verfügen. Außerdem kann Big Data aus verschiedenen Datenquellen stammen. Somit können in einem Datenbestand z. B. interne Daten, welche in einem Unternehmen entstehen und die Situation des Unternehmens abbilden, mit externen Daten, welche im Umfeld des Unternehmens gewonnen werden und beispielsweise die gesamtwirtschaftliche Lage beschreiben, zusammengefasst sein.

Das Kriterium velocity bezieht sich, so auch (Klein et al. 2013, 320), auf die Geschwindigkeit, mit der Daten erzeugt und verarbeitet werden. Big Data kann aus Daten bestehen, die in vergleichsweise kurzer Zeit erzeugt werden und zur Nutzung in betrieblichen Abläufen und Entscheidungsvorgängen zeitnah verarbeitet werden müssen. Im E-Commerce kann sich z. B. die lagermäßige Verfügbarkeit eines von Kunden stark nachgefragten Artikels relativ schnell verändern. In diesem Fall lassen sich durch die rechtzeitige Kenntnis und Nachbestellung eines lagermäßig nicht mehr ausreichend verfügbaren Artikels Umsatzverluste und Imageschäden vermeiden.

Im weiteren zeitlichen Verlauf wurde die Charakterisierung des Begriffs Big Data um das Kriterium veracity ergänzt (Schroeck et al. 2012, 4). Dieses Kriterium beschreibt die Zuverlässigkeit der Daten und zielt auf den objektiven Erkenntniswert der Daten ab. In Big Data können Daten mit einer vergleichsweise geringen Zuverlässigkeit enthalten sein. Entsprechend bringen beispielsweise Daten von sozialen Medien die durch subjektive Wahrnehmung geprägten Meinungen und Erfahrungen der Nutzer zum Ausdruck. Darüber hinaus weisen Daten, die auf die Zukunft ausgerichtet sind, naturgemäß Unsicherheiten auf und sind deshalb von vergleichsweise geringer Zuverlässigkeit.

Inzwischen werden zahlreiche weitere Kriterien wie z. B. value oder variability zur Beschreibung des Begriffs Big Data herangezogen (Emani et al. 2015, 72; Arockia et al. 2017, 330 f.). Dabei kennzeichnet das Kriterium value den wirtschaftlichen Wert der Daten für ein Unternehmen. Das Kriterium variability beschreibt die Veränderlichkeit der Daten.

Neben dem Ansatz der Charakterisierung des Begriffs Big Data anhand von Eigenschaften der Daten gibt es den Ansatz, den Begriff anhand von Eigenschaften der Technologien, die der Verarbeitung von Big Data zugrunde liegen, zu beschreiben. Diesem Ansatz folgend ist Big Data ein Datenbestand, dessen Verarbeitung die Fähigkeit konventioneller Technologien zur Erfassung, Speicherung oder Auswertung von Daten übersteigt und daher neue Technologien erforderlich macht (Chen et al. 2014, 173; Oguntimilehin und Ademola 2014, 433).

Beide Ansätze der Charakterisierung des Begriffs Big Data führen zu einer wenig präzisen Definition. So gibt es keine absoluten Maßstäbe für die Eigenschaften der Daten bezüglich der verschiedenen Kriterien (Gandomi und Haider 2015, 139). Ein Beispiel für diesen Sachverhalt ist der Maßstab für eine große Menge an Daten. Dieser wird von der Datenstruktur und dem Entwicklungsstand der zugrunde liegenden Technologien beeinflusst und ist für z. B. strukturierte Daten eines ERP-Systems und unstrukturierte Bilddaten unterschiedlich.

Außerdem sind die Eigenschaften der Daten bezüglich einzelner Kriterien keine notwendige oder hinreichende Bedingung für die Charakterisierung des Begriffs Big Data (Freytag 2014, 98). Dementsprechend kann beispielsweise der Datenbestand eines Forschungsprojekts, der eine vergleichsweise kleine Menge an Daten mit einer Vielzahl unterschiedlicher Datenstrukturen aus zahlreichen verschiedenen Datenquellen umfasst, als Big Data beschrieben werden während der Datenbestand der Kundenstammdaten eines Unternehmens, der aus einer vergleichsweise großen Menge an Daten mit einer einheitlichen Datenstruktur aus einer einzelnen Datenquelle besteht, nicht als Big Data charakterisiert wird.

Schließlich sind die zur Charakterisierung des Begriffs Big Data herangezogenen Kriterien nicht voneinander unabhängig (Gandomi und Haider 2015, 139). Beispielsweise zeichnen sich Daten, die aus zahlreichen verschiedenen Datenquellen stammen, oftmals durch eine Vielzahl unterschiedlicher Datenstrukturen aus. Daten, die mit einer vergleichsweise hohen Geschwindigkeit erzeugt und verarbeitet werden, können häufig nicht rechtzeitig zur Verbesserung der Datenqualität aufbereitet werden und weisen daher eine vergleichsweise geringe Zuverlässigkeit auf.

In Ermangelung einer geeigneten verfügbaren Definition des Begriffs Big Data wird im Folgenden das den weiteren Ausführungen zugrunde liegende Verständnis dieses Begriffs skizziert. Dieses Verständnis basiert auf einer Auslegung des Begriffs Big Data als Complex Data. Big Data ist demzufolge ein Datenbestand, der eine vergleichsweise hohe Komplexität aufweist. Diese Komplexität ergibt sich aus den Anforderungen, die mit der Erfassung, Speicherung oder Verarbeitung der Daten verbunden sind.

Der Begriff Big Data Analytics bezeichnet den Ansatz der Analyse von Big Data. Die verschiedenen Ansätze der Datenanalyse können, so auch (Breiman 2001, 199), hinsichtlich ihrer Vorgehensweise in modellgetriebene Ansätze (»data modeling culture«) und datengetriebene Ansätze (»algorithmic modeling culture«) klassifiziert werden.

Der Ausgangspunkt für eine Datenanalyse in modellgetriebenen Ansätzen ist die Annahme eines Modells. Das Modell bringt eine Hypothese über den durch die zugrunde liegenden Daten abgebildeten Gegenstandsbereich zum Ausdruck. Innerhalb der Datenanalyse werden die Parameter des angenommenen Modells geschätzt und das Modell hierdurch konkretisiert (Freitag et al. 2015, 24). Anhand der Güte des konkretisierten Modells kann die mit dem Modell verbundene Hypothese geprüft werden. Entsprechend geht z. B. die einfache lineare Regressionsanalyse von der Annahme eines Zusammenhangs zwischen einer Zielgröße und einer Linearkombination der Regressionsparameter, wie beispielsweise Einflussgröße oder unbekannte skalare Parameter, aus. Im Verlauf der einfachen linearen Regression werden die Werte der skalaren Parameter so angepasst, dass der lineare Zusammenhang zwischen der Zielgröße und der Einflussgröße möglichst gut beschrieben wird.

Im Rahmen einer Datenanalyse in datengetriebenen Ansätzen werden Beziehungsmuster in den zugrunde liegenden Daten ermittelt und durch ein Modell abgebildet. Das induktiv erzeugte Modell ist eine Hypothese über den durch die zugrunde liegenden Daten abgebildeten Gegenstandsbereich. So kann mithilfe einer Analyse von Prozessdaten in der metallverarbeitenden Produktion beispielsweise die Hypothese »Wenn die Schnittgeschwindigkeit 3 m/s ist und die Durchflussmenge des Prozessgases 500 cm3/s beträgt, dann ist in 85% der Fälle die Schnittfläche glatt.« erzeugt werden.

Als Ansatz der Datenanalyse ist Big Data Analytics den datengetriebenen Ansätzen zuzuordnen. Zum einen kann Big Data eine vergleichsweise große Menge an Daten umfassen. Ein Datenbestand, der aus einer großen Menge an Daten besteht, erfüllt oftmals nicht die Annahmen modellgetriebener Ansätze der Datenanalyse und kann daher besser auf der Grundlage von datengetriebenen Ansätzen analysiert werden (Freitag et al. 2015, 24). Zum anderen besteht Big Data regelmäßig aus Daten, die nicht gezielt und sorgfältig zur Überprüfung einer zuvor formulierten Hypothese erhoben wurden, sondern durch unterschiedliche Prozesse in häufig unsystematischer Weise entstanden sind (Wrobel et al. 2015, 371).

Die datengetriebenen Ansätze der Datenanalyse werden vielfach unter dem Begriff Knowledge Discovery in Databases zusammengefasst. Knowledge Discovery in Databases ist, den Ausführungen von (Fayyad et al. 1996, 6) folgend, darauf ausgerichtet, zunächst in einem nichttrivialen Prozess Beziehungsmuster, wie z. B. Regelmäßigkeiten und Abhängigkeiten, in einem Datenbestand zu ermitteln und abzubilden. Diese Beziehungsmuster müssen für einen möglichst großen Anteil des Datenbestands Geltung haben und bislang unbekannte, potenziell nützliche und leicht verständliche Zusammenhänge in den Daten zum Ausdruck bringen. Aus den ermittelten Beziehungsmustern wird schließlich im Hinblick auf die mit dem Knowledge Discovery in Databases verbundene Aufgabenstellung explizites Wissen abgeleitet.

Big Data Analytics kann somit als Knowledge Discovery in Big Data verstanden werden (Begoli und Horey 2012, 215). Es umfasst dabei entweder die Analyse als eine einzelne Phase des Prozesses der Wissensentdeckung (Gandomi und Haider 2015, 140) oder, wie in den weiteren Ausführungen dargestellt, den gesamten Wissensentdeckungsprozess (Sun et al. 2015, 201; Hu et al. 2014, 656).

Die vorgenommene Einordnung von Big Data Analytics in das Gebiet der Datenanalyse ist in der Abbildung 3 zusammenfassend dargestellt.

Abb. 3: Einordnung von Big Data Analytics in das Gebiet der Datenanalyse

Als Forschungsrichtung ist Big Data Analytics ein Teilgebiet von Data Science. Data Science »… ist eine interdisziplinäre Wissenschaft, die Methoden und Ansätze zur Auswertung unterschiedlichster Arten von Daten mit verschiedensten Mitteln bündelt.« (Stockinger und Stadelmann 2014, 472). Zu ihrer Entstehung und Weiterentwicklung haben insbesondere die Forschungsrichtungen Mathematik, Statistik und Informatik beigetragen (Grillenberger und Romeike 2018, 120). Aus diesen Forschungsrichtungen stammt eine Vielzahl von Theorien und Verfahren, die, ein geeignetes Wissen über den Anwendungsbereich vorausgesetzt, zur Analyse von Daten eines spezifischen Anwendungsgebiets, wie beispielsweise den Naturwissenschaften, Ingenieurwissenschaften oder Wirtschaftswissenschaften, herangezogen werden können (Freitag et al. 2015, 23).

2.3       Prozess

Big Data Analytics ist, wie auch (Gandomi und Haider 2015, 140; Emani et al. 2015, 72) ausführen, ein mehrere Phasen umfassender Prozess. Dieser Prozess ist zudem durch einen iterativen und interaktiven Ablauf gekennzeichnet (Labrinidis und Jagadish 2012, 2032 f.). So bestimmt der Anwender auf der Grundlage des Ergebnisses einzelner Phasen den weiteren Verlauf von Big Data Analytics. In diesem Verlauf können einzelne Phasen oder der gesamte Prozess erneut durchlaufen werden.

Das in der Abbildung 4 dargestellte Vorgehensmodell ist auf (Fayyad et al. 1996, 9 ff.) zurückzuführen und beschreibt den Prozess des Knowledge Discovery in Databases. Dieses Vorgehensmodell kann aufgrund des in den vorherigen Ausführungen aufgezeigten Zusammenhangs zwischen Knowledge Discovery in Databases und Big Data Analytics auch zur Beschreibung des Prozesses Big Data Analytics herangezogen werden.

Abb. 4: Vorgehensmodell des Knowledge Discovery in Databases

Dementsprechend werden in den weiteren Ausführungen die das Vorgehensmodell des Knowledge Discovery in Databases umfassenden Phasen Auswahl ( Kap. 2.3.1), Aufbereitung ( Kap. 2.3.2), Festlegung ( Kap. 2.3.3), Analyse ( Kap. 2.3.4) und Interpretation ( Kap. 2.3.5) skizziert und die durch Big Data Analytics in diesen Phasen auftretenden Besonderheiten herausgestellt.

2.3.1      Auswahl

In der Auswahlphase wird die Ausgangslage des Knowlegde Discovery in Databases bestimmt. Hierzu werden die Aufgabenstellung und der Datenbestand des Knowlegde Discovery in Databases ausgewählt.

Ein Kennzeichen einer für das Knowlegde Discovery in Databases geeigneten Aufgabenstellung ist die Ausrichtung auf die Entdeckung und Explikation potenziell nützlichen Wissens. Diese Form des Wissens setzt voraus, dass das entdeckte und explizit gemachte Wissen anwendbar ist und die Entdeckung und Anwendung dieses Wissens effizient erfolgen.

Im Fall von Big Data Analytics mit einem Datenbestand, der zeitnah (velocity) verarbeitet werden muss, kann für die Anwendbarkeit des entdeckten und explizit gemachten Wissens eine Einbettung in die betrieblichen Abläufe und Entscheidungsvorgänge zusätzlich erforderlich sein (Lanquillon und Mallow 2015, 76).

Bei der Auswahl des Datenbestands ist zu prüfen, ob für die ausgewählte Aufgabenstellung geeignete Daten verfügbar und anwendbar sind.

Die Analyse von Big Data mit einem Datenbestand, der aus einer großen (volume) Menge an Daten oder einer Vielzahl unterschiedlicher (variety) Datenquellen besteht, kann das mögliche Problem verringern, dass die für die ausgewählte Aufgabenstellung geeigneten Daten nicht oder nicht ausreichend verfügbar sind.

Einschränkungen der Anwendbarkeit von Daten können sich aus z. B. rechtlichen Vorgaben ergeben. So unterliegt die Verarbeitung personenbezogener Daten im Rahmen des Knowledge Discovery in Databases den Einschränkungen der Gesetze und Richtlinien zum Datenschutz. Dabei entstehen Probleme im Hinblick auf beispielsweise das im Bundesdatenschutzgesetz festgelegte Prinzip der Zweckbindung. Dieses Prinzip erlaubt die Verarbeitung personenbezogener Daten ausschließlich zu dem Zweck, der bei der Erfassung der Daten vorgesehen oder nach den Umständen ersichtlich ist.

Die Analyse von Daten im Rahmen des Big Data Analytics stellt regelmäßig eine Zweckänderung dar, wenn mehrere (variety) zur Durchführung von unterschiedlichen Analysen getrennt erfasste Daten zu einem Datenbestand zusammengeführt werden (O‘Leary 1995, 50; Bizer 1998, 552). Diese Zweckänderung ist ohne eine Einwilligung des Betroffenen oder eine sorgfältige Abwägung zwischen den Interessen der datenverarbeitenden Stelle und des Betroffenen rechtlich nicht zulässig.

2.3.2      Aufbereitung

Die Tätigkeiten in der Aufbereitungsphase sind auf eine Verbesserung der Qualität des ausgewählten Datenbestands ausgerichtet. Sie umfassen die Integration, Bereinigung, Anreicherung und Reduktion der Daten.

Die Integration der Daten zielt darauf ab, die Daten für einen gemeinsamen Datenzugriff im Rahmen des Knowledge Discovery in Databases in einen einheitlichen Datenbestand zu überführen (Westphal und Blaxton 1998, 89 ff.).

Die Analyse von Big Data mit einem Datenbestand, der aus unterschiedlichen (variety) Datenquellen besteht, kann mit erheblichen Anforderungen an eine Integration der Daten verbunden sein. Einerseits können die zugrunde liegenden Daten durch unterschiedliche vor der Speicherung festgelegte statische Schemata (Schema-on-Write), wie z. B. ein relationales Schema, strukturiert sein und werden daher vor einer Verarbeitung durch beispielsweise eine syntaktische oder semantische Integration in einen Datenbestand mit einem einheitlichen Schema transformiert. Andererseits können die zugrunde liegenden Daten ohne ein Schema (schemaless) gespeichert sein und werden deshalb durch ein während der Verarbeitung festzulegendes einheitliches dynamisches Schema (Schema-on-Read) strukturiert (Mathis 2017, 291).

Die Notwendigkeit der Bereinigung eines Datenbestands ergibt sich oftmals aus der schlechten Qualität der aus der Realität gewonnenen Daten. Die Datenqualität zeigt sich, so auch (Strong et al. 1997, 104), z. B. in der Vollständigkeit, Exaktheit, Konsistenz und Aktualität des Datenbestands und bezieht sich stets auf den Verarbeitungszweck der Daten (Cai und Zhu 2015, 4).

Big Data Analytics mit einem Datenbestand, der Unterschiede in der Zuverlässigkeit (veracity) der Daten aufweist, kann zu erheblichen Anforderungen an eine Bereinigung der Daten führen. So werden die zugrunde liegenden Daten im Hinblick auf einen festzulegenden Qualitätsstandard bewertet (Cai und Zhu 2015, 5 f.). Abhängig von dieser Bewertung werden verschiedene Maßnahmen zur Verbesserung der Datenqualität durchgeführt. Dabei kann beispielsweise eine Verbesserung der Zuverlässigkeit der Daten durch eine Verknüpfung von mehreren weniger zuverlässigen Datenquellen oder auf der Grundlage von Fuzzy-Logik-basierten Ansätzen erzielt werden (Schroeck et al. 2012, 5). Wenn eine Verbesserung der Datenqualität nicht in einem ausreichenden Maß möglich ist, dann wird z. B. die Qualität der Daten in den Metadaten des Datenbestands dokumentiert. Auf diese Dokumentation kann später bei der Interpretation des Analyseergebnisses zurückgegriffen werden.

Mit der Anreicherung der Daten werden dem Datenbestand weitere Merkmale, die für die Bearbeitung der Aufgabenstellung des Knowledge Discovery in Databases bedeutsam sind, hinzugefügt. Dabei ist zu beachten, dass die Aussagekraft und Genauigkeit des Analyseergebnisses durch die Hinzufügung weiterer Merkmale nicht beliebig verbessert werden können. Darüber hinaus muss berücksichtigt werden, dass mit der Erhöhung der Anzahl von Merkmalen des Datenbestands häufig eine Vergrößerung des Datenraums und dadurch bedingt eine höhere Komplexität der Ermittlung und Abbildung von Beziehungsmustern im Datenbestand verbunden sind (Verleysen und François 2005, 759).

Durch die Reduktion der Daten werden Merkmale aus dem Datenbestand entfernt. Die Verringerung der Anzahl von Merkmalen führt durch eine Verkleinerung des Datenraums regelmäßig zu einer geringeren Komplexität der Ermittlung und Abbildung von Beziehungsmustern im Datenbestand.

Die Verringerung dieser Komplexität ist oftmals eine Voraussetzung für die Durchführbarkeit der Analyse von Big Data mit einem Datenbestand, der aus einer großen (volume) Menge an Daten besteht.

2.3.3      Festlegung

In der Festlegungsphase erfolgt die Vorbereitung der Analyse des Datenbestands. Dabei werden die Zielsetzung, das Analyseverfahren, der Datenumfang und die Datendarstellung festgelegt.

Mit der Festlegung der Zielsetzung wird der in der Auswahlphase ausgewählten Aufgabenstellung ein Ziel des Knowledge Discovery in Databases zugeordnet. So liegt beispielsweise der Aufgabenstellung der Identifikation von Kunden mit einem hohen Zahlungsausfallrisiko das Ziel der Erklärung von Gruppen zugrunde. Die Erklärung von Gruppen ergibt sich im Fall dieser Aufgabenstellung aus der Ermittlung und Abbildung eines kausalen Zusammenhangs zwischen der bekannten Risikoklasse eines Kunden und seinen Merkmalen. Dieser Zusammenhang kann dann auch zur Bestimmung des Risikos von Kunden, deren Risikoklasse nicht bekannt ist, herangezogen werden.

Im Verlauf der Festlegung des Analyseverfahrens wird ein für die Aufgabenstellung des Knowledge Discovery in Databases geeignetes Verfahren zur Analyse des Datenbestands ausgewählt. Hierzu kann insbesondere auf die Kriterien der Zielsetzung des Knowledge Discovery in Databases, der Eigenschaften des Datenbestands und der Darstellungsform der ermittelten Beziehungsmuster zurückgegriffen werden.

Durch die Festlegung des Datenumfangs wird die Anzahl der Datensätze des Datenbestands bestimmt. Dabei wird festgelegt, ob die Analyse auf der Grundlage des gesamten Datenbestands oder einer Stichprobe vorgenommen wird. Auch wenn der Einfluss des Datenumfangs auf die Komplexität der Analyse und die Genauigkeit des Analyseergebnisses, den Ausführungen von (Domingos 2002, 74) folgend, vor allem durch das festgelegte Analyseverfahren bestimmt wird, kann die Bildung einer Stichprobe für die Bewertung des Analyseergebnisses unverzichtbar sein. Demgemäß setzt die Bestimmung der Güte der ermittelten Beziehungsmuster im Hinblick auf z. B. das Kriterium der Genauigkeit eine Aufteilung des Datenbestands in die Teilmengen der für die Ermittlung von Beziehungsmustern bedeutsamen Erstellungsdaten und der für die Bestimmung der Güte der ermittelten Beziehungsmuster bedeutsamen Beurteilungsdaten voraus.

Die Festlegung der Datendarstellung ist darauf ausgerichtet, die Daten in eine für das festgelegte Analyseverfahren geeignete Darstellungsform zu überführen (Hand et al. 2001, 38).

2.3.4      Analyse

In der Analysephase werden mithilfe des festgelegten Analyseverfahrens Beziehungsmuster im Datenbestand ermittelt und abgebildet.

Die Güte der Beziehungsmuster lässt sich hinsichtlich beispielsweise des Kriteriums der Genauigkeit bestimmen. Die Genauigkeit der in einer Aufgabenstellung, wie z. B. der Identifikation von Kunden mit einem hohen Zahlungsausfallrisiko, ermittelten Beziehungsmuster zeigt sich beispielsweise in der Korrektheit der Zuordnung von Kunden mit einem hohen bzw. geringen Risiko zu der entsprechenden Risikoklasse und kann als Anteil der fehlerfreien Zuordnungen an der Gesamtheit der Zuordnungen von Kunden zu Risikoklassen angegeben werden. Hierbei beschreibt die Generalisierungsfähigkeit der ermittelten Beziehungsmuster die Fähigkeit, Kunden in den Beurteilungsdaten nicht weniger korrekt als in den Erstellungsdaten den Risikoklassen zuzuordnen. Eine vergleichsweise hohe Genauigkeit in den Erstellungsdaten und eine geringe Genauigkeit in den Beurteilungsdaten kennzeichnen eine geringe Generalisierungsfähigkeit der Beziehungsmuster (Hand et al. 2001, 18 f.).

Die anhand der Analyseverfahren im Rahmen des Knowledge Discovery in Databases erzeugten Modelle (non-parametric models) weisen im Vergleich zu den Modellen der modellgetriebenen Ansätze der Datenanalyse (parametric models) eine höhere Komplexität und eine geringere Generalisierungsfähigkeit auf.

Eine Verbesserung der Generalisierungsfähigkeit ist z. B. durch eine Vergrößerung der Menge an Daten, die der Analyse zugrunde liegen, möglich. Dieses führt im Fall von Big Data Analytics mit einem Datenbestand, der aus einer großen (volume) Menge an Daten besteht, zu der von (Domingos 2012, 85) beschriebenen Paradoxie: So können auf der Grundlage eines großen Datenbestands zwar prinzipiell Modelle mit einer vergleichsweisen hohen Komplexität und Generalisierungsfähigkeit erzeugt werden. Bei einer großen Menge an Daten werden aufgrund der Zeitkomplexität der verfügbaren Analyseverfahren jedoch nur Modelle mit einer vergleichsweise geringen Komplexität erzeugt. Eine Lösung für das Problem, dass bei einer großen Menge an Daten nur Modelle mit einer vergleichsweise geringen Komplexität erzeugt werden, ist beispielsweise die Anwendung von Ensemble-Methoden (Dietterich 2000). Hierbei werden zunächst durch die zeitlich parallele Ausführung mehrerer verschiedener Analyseverfahren Modelle mit einer vergleichsweise geringen Komplexität erzeugt. Diese Modelle werden dann zu einem Gesamtmodell mit einer im Vergleich zu den einzelnen Modellen höheren Komplexität und Generalisierungsfähigkeit verknüpft.

2.3.5      Interpretation

Das Ziel der Interpretationsphase ist es, die ermittelten und abgebildeten Beziehungsmuster im Hinblick auf die Aufgabenstellung des Knowledge Discovery in Databases zu deuten und zu bewerten.

Mit der Deutung werden die Beziehungsmuster in einen Zusammenhang zu der Aufgabenstellung des Knowledge Discovery in Databases gesetzt. Hierdurch entsteht aus den Beziehungsmustern explizites Wissen. Entsprechend können z. B. die im Rahmen einer ausgewählten Aufgabenstellung zu identifizierenden Kunden mit einem hohen Risiko durch ein Beziehungsmuster aus spezifischen Ausprägungen von Kundenmerkmalen wie beispielsweise Altersgruppe, Höhe des Umsatzes und Häufigkeit der Reklamationen erklärt werden.

Die Bewertung erfolgt im Hinblick auf die Neuheit und Nützlichkeit der Beziehungsmuster. Dieses ist für das Knowledge Discovery in Databases von besonderer Bedeutung, da aufgrund der induktiven Vorgehensweise der Analyse (datengetriebener Ansatz) auch bekannte oder nicht nützliche Beziehungsmuster ermittelt und abgebildet werden können (Tuzhilin 2002, 497).

Die Anwendung des in der Interpretationsphase entstandenen expliziten Wissens kann entweder auf ein Erkenntnisziel oder ein Gestaltungsziel ausgerichtet sein. Im Fall von Big Data Analytics mit einem Datenbestand, der zeitnah (velocity) verarbeitet werden muss, ist gewöhnlich nicht die Ermittlung, sondern die Anwendung des expliziten Wissens zeitlich kritisch (Lanquillon und Mallow 2015, 80). Eine zeitnahe Verarbeitung kann in diesem Zusammenhang durch z. B. eine wiederholte, automatische Anwendung des expliziten Wissens erfolgen. Hierzu sind jedoch eine Einbettung des expliziten Wissens in die betrieblichen Abläufe und Entscheidungsvorgänge sowie geeignete Möglichkeiten zur Ermittlung und Sicherstellung der Güte des abgeleiteten expliziten Wissens erforderlich.

2.4       Ausrichtungen

Big Data Analytics kann durch verschiedene Ausrichtungen gekennzeichnet sein. Die Vielfalt der Ausrichtungen lässt sich nach unterschiedlichen Kriterien einteilen (Lanquillon und Mallow 2015, 56 ff.).

Ein Merkmal zur Einteilung der Ausrichtungen ist beispielsweise die Art der Daten. Dieses Kriterium beschreibt die Struktur und die Herkunft des der Analyse zugrunde liegenden Datenbestands und begründet die Unterscheidung der Ausrichtungen in z. B. Social Media Analytics (Batrinca und Treleaven 2015) und Geospatial Data Analytics (Lee und Kang 2015).

Im Rahmen von Social Media Analytics werden Daten von sozialen Medien analysiert. Diese Daten beschreiben beispielsweise das Verhalten und die Meinungen von Kunden eines Unternehmens. Eine Analyse des Verhaltens und der Meinungen von Kunden kann zu einem besseren Kundenverständnis beitragen und dadurch z. B. eine bessere Entwicklung des Image und der Marken des Unternehmens ermöglichen.

Geospatial Data Analytics ist auf eine Analyse räumlicher Daten (Geodaten) ausgerichtet. So werden beispielsweise durch eine Analyse der räumlichen Mobilfunkdaten von Verbrauchern raum-zeitliche Bewegungsmuster ermittelt und abgebildet. Die Bewegungsmuster der Verbraucher können z. B. von werbetreibenden Unternehmen verwendet werden, um in Abhängigkeit vom jeweiligen Aufenthaltsort der Verbraucher auf Dienstleistungsangebote oder Produktangebote in der näheren Umgebung hinzuweisen.

Ein weiteres Merkmal zur Klassifizierung von Ausrichtungen ist beispielsweise der Zweck der Analyse von Big Data. Dieses Kriterium ermöglicht, dem Ansatz von (Davenport und Harris 2007) folgend, eine Einteilung der Ausrichtungen in Descriptive Analytics ( Kap. 2.4.1), Predictive Analytics ( Kap. 2.4.2) und Prescriptive Analytics ( Kap. 2.4.3).

2.4.1      Descriptive Analytics

Descriptive Analytics ist durch eine vergangenheitsbezogene Auswertung von Big Data bestimmt. Diese Ausrichtung zielt auf die Beschreibung vergangener Entwicklungen im Sinne der Fragestellung »Was ist passiert?« ab. Die in der Ausrichtung Descriptive Analytics erzeugten Modelle sind daher Beschreibungsmodelle.

Für die Analyse von Big Data in der Ausrichtung Descriptive Analytics können z. B. Verfahren der Clusteranalyse (Kaufman und Rousseeuw 1990) oder Assoziationsanalyse (Agrawal et al. 1993) eingesetzt werden.

Die Verfahren der Clusteranalyse sind darauf ausgerichtet, die Datensätze des Datenbestands im Hinblick auf ihre Merkmalsausprägungen zu Gruppen, die auch als Cluster bezeichnet werden, zusammenzufassen. Hierbei sollen die Datensätze, die demselben Cluster zugeordnet werden, möglichst ähnlich sein. Die Datensätze, die unterschiedlichen Clustern zugeordnet werden, sollen möglichst verschieden sein. Die Ähnlichkeit bzw. Verschiedenheit der Datensätze wird durch Ähnlichkeitsmaße bzw. Verschiedenheitsmaße festgelegt. Die Verfahren der Clusteranalyse beschreiben die Ähnlichkeit und Verschiedenheit der durch die Datensätze dargestellten Objekte wie beispielsweise Kunden oder Produkte.

Die Verfahren der Assoziationsanalyse ermöglichen die Ermittlung und Abbildung von Assoziationen zwischen den Ausprägungen von Merkmalen der Datensätze des Datenbestands. Dabei wird das gleichzeitige oder zeitlich aufeinander folgende gemeinsame Auftreten von Merkmalsausprägungen durch Regeln wie z. B. »Wenn die Merkmalsausprägung A auftritt, dann tritt in 65% der Fälle auch die Merkmalsausprägung B auf.« dargestellt. Die Bewertung der Bedeutung einer Regel kann auf der Grundlage von Maßen wie z. B. dem Support oder der Confidence vorgenommen werden. Die ermittelten und in Form von Regeln abgebildeten Assoziationen beschreiben keine kausalen Zusammenhänge, sondern Korrelationen zwischen den Ausprägungen der Merkmale.

Eine Anwendung von Big Data Analytics in der Ausrichtung Descriptive Analytics ist beispielsweise die Analyse von Prozessdaten in der Produktion. Im Verlauf dieser Analyse kann z. B. der Zusammenhang ermittelt werden, dass in einem festgelegten Zeitraum eine Maschine eine bestimmte Charge mit einem vergleichsweise hohen Ausschuss produziert hat. Dieser Zusammenhang kann später bei der Bestimmung von Ursachen der Fehlproduktion von Bedeutung sein.

2.4.2      Predictive Analytics

Predictive Analytics zeichnet sich durch eine zukunftsbezogene Auswertung von Big Data aus. Diese Ausrichtung ist durch die Beschreibung zukünftiger Entwicklungen im Sinne der Fragestellung »Was kann bzw. wird passieren?« bestimmt. Die in der Ausrichtung Predictive Analytics erzeugten Modelle sind Erklärungsmodelle. Diese können im Hinblick auf eine weitgehende Strukturgleichheit von Erklärung und Prognose auch zum Zweck der Prognose verwendet werden (Chmielewicz 1994, 154 f.).

Big Data Analytics in der Ausrichtung Predictive Analytics kann anhand von z. B. Klassifikationsverfahren (Hüftle 2006) oder Regressionsverfahren (Collomb 1985) durchgeführt werden.

Die Verfahren zur Klassifikation ordnen die Datensätze des Datenbestands vorgegebenen Gruppen, die auch als Klassen bezeichnet werden, zu. Zu diesem Zweck wird ein kausaler Zusammenhang zwischen einem qualitativen Klassifizierungsmerkmal und den qualitativen und quantitativen Merkmalen der Datensätze ermittelt und abgebildet. Dieser Zusammenhang erklärt die Klassenzugehörigkeit der durch die Datensätze dargestellten Objekte und kann auch zur Zuordnung von Objekten, deren Klassenzugehörigkeit nicht bekannt ist, herangezogen werden.

In den Verfahren der Regression wird ein kausaler Zusammenhang zwischen einem zu erklärenden quantitativen Merkmal und den erklärenden quantitativen und qualitativen Merkmalen der Datensätze des Datenbestands ermittelt und abgebildet. Dieser Zusammenhang erklärt die Variation des abhängigen Merkmals durch die Variation einer Reihe von unabhängigen Merkmalen und ermöglicht somit auch die Prognose der Ausprägungen des abhängigen Merkmals.

Ein Beispiel für eine Anwendung von Big Data Analytics in der Ausrichtung Predictive Analytics ist die vorausschauende Instandhaltung (predictive maintenance) von Produktionsmaschinen. Dabei wird auf der Grundlage von Zustandsdaten einer Produktionsmaschine eine Prognose der Zustandsentwicklung, wie beispielsweise eines Ausfalls der Maschine, erstellt. Diese Prognose ermöglicht die rechtzeitige Durchführung einer vorbeugenden Instandhaltung, die im Vergleich zu einer ausfallbedingten Instandsetzung regelmäßig mit geringeren Kosten verbunden ist.

2.4.3      Prescriptive Analytics

Prescriptive Analytics zeigt durch die Auswertung von Big Data, wie sich Entscheidungen im Rahmen der prognostizierten Entwicklungen auswirken und gibt Hinweise im Sinne der Fragestellung »Wie soll agiert werden?« Die in der Ausrichtung Prescriptive Analytics erzeugten Modelle sind dementsprechend Entscheidungsmodelle.

Die Analyse von Big Data in der Ausrichtung Prescriptive Analytics basiert auf einer Prognosefunktion und einer Optimierungsfunktion (Schwarzl 2015, 209; Fahner und Bastert 2012, 33). Dabei werden zunächst mithilfe von z. B. Klassifikationsverfahren oder Regressionsverfahren die Ergebnisse der möglichen Entscheidungsalternativen prognostiziert. Anschließend wird anhand verschiedener Optimierungsverfahren die Entscheidungsalternative ermittelt, deren prognostiziertes Ergebnis im Hinblick auf eine vorgegebene Bezugsgröße optimal ist.

Die Optimierung des Warenbestands im Einzelhandel auf der Basis einer automatisierten Disposition ist ein Beispiel für eine Anwendung von Big Data Analytics in der Ausrichtung Prescriptive Analytics. Zu Beginn dieser Analyse wird die Nachfrage der einzelnen Produkte prognostiziert. Dieses geschieht insbesondere auf der Grundlage der Abverkäufe vergangener Perioden aber auch unter Berücksichtigung messbarer Einflussgrößen wie beispielsweise geplante Werbeaktionen oder der zeitliche Verlauf der Verkaufspreise. Im Anschluss daran wird im Hinblick auf die jeweils prognostizierte Nachfrage der Warenbestand ermittelt, der z. B. zu einer möglichst geringen Kapitalbindung führt. Der für die jeweils prognostizierte Nachfrage bezüglich der Kapitalbindung optimale Warenbestand wird dann durch eine automatisierte Disposition sichergestellt.

2.5       Zusammenfassung

Im Rahmen dieses Beitrags wurde eine Einordnung von Big Data Analytics in das Gebiet der Datenanalyse und eine Darstellung der Besonderheiten des Prozesses und der verschiedenen Ausrichtungen von Big Data Analytics vorgenommen.

Big Data Analytics ist der Ansatz der Analyse von Big Data. Big Data ist ein Datenbestand, der eine vergleichsweise hohe Komplexität hinsichtlich der Erfassung, Speicherung oder Verarbeitung der Daten aufweist. Als Ansatz der Datenanalyse ist Big Data Analytics den datengetriebenen Ansätzen der Datenanalyse und somit dem Knowledge Discovery in Databases zuzuordnen.

Der Prozess des Big Data Analytics kann anhand des Vorgehensmodells des Knowledge Discovery in Databases beschrieben werden. Big Data Analytics ist demzufolge ein iterativer und interaktiver Prozess, der durch die Phasen Auswahl, Aufbereitung, Festlegung, Analyse und Interpretation gekennzeichnet ist. In einigen Phasen dieses Prozesses können Besonderheiten von Big Data Analytics festgestellt werden. So sind mit den besonderen Eigenschaften von Big Data in der Aufbereitungsphase erhebliche Anforderungen an die Integration und Aufbereitung der Daten verbunden. Die verfügbaren Analyseverfahren von Big Data Analytics führen aufgrund ihrer Zeitkomplexität zu Problemen in der Analysephase. Die zeitnahe Anwendung des in der Interpretationsphase entstandenen expliziten Wissens setzt eine Einbettung des expliziten Wissens in die betrieblichen Abläufe und Entscheidungsvorgänge voraus.

Innerhalb des Prozesses von Big Data Analytics werden Beziehungsmuster in den zugrunde liegenden Daten ermittelt und durch ein Modell abgebildet. Die in den Ausrichtungen Descriptive Analytics, Predictive Analytics oder Prescriptive Analytics erzeugten Modelle können in Anwendungen als Beschreibungsmodelle, Erklärungsmodelle oder Entscheidungsmodelle herangezogen werden.

Literatur

Agrawal, R., Imieliński, T., Swami, A. N.: Mining association rules between sets of items in large databases, in: Buneman, P., Jajodia, S. (Hrsg.): Proceedings of the 1993 ACM SIGMOD international conference on Management of data, Washington, D.C., USA, 25.5.-28.5.1993, 1993, S. 207-216

Arockia, P. S., Varnekha, S. S., Veneshia, K. A.: The 17 V’s Of Big Data, in: International Research Journal of Engineering and Technology (IRJET) 4, 2017, S. 329-333

Batrinca, B., Treleaven, P. C.: Social media analytics: a survey of techniques, tools and platforms, in: AI & Society 30, 2015, S. 89-116

Begoli, E., Horey, J.: Design Principles for Effective Knowledge Discovery from Big Data, in: Babar, M. A., Cuesta, C., Savolainen, J., T. Männistö, T. (Hrsg.): Proceedings of 2012 Joint Working IEEE/IFIP Conference on Software Architecture and European Conference on Software Architecture, Helsinki, Finland, 20.8.-24.8.2012, 2012, S. 215-218

Bizer, J.: Zweckbindung durch Willenserklärung, in: Datenschutz und Datensicherheit 22, 1998, S. 552

Breiman, L.: Statistical Modeling: The Two Cultures, in: Statistical Science 16, 2001, S. 199-231

Cai, L., Zhu, Y.: The Challenges of Data Quality and Data Quality Assessment in the Big Data Era, in: Data Science Journal 14, 2015, S. 1-10

Chen, M., Mao, S., Liu, Y.: Big Data: A Survey, in: Mobile Networks and Applications 19, 2014, S. 171-209

Chmielewicz, K.: Forschungskonzeptionen der Wirtschaftswissenschaft, 3. Aufl., Schäffer Poeschel, Stuttgart 1994

Collomb, G.: Nonparametric regression: An up-to-date bibliography, in: Statistics: A Journal of Theoretical and Applied Statistics 16, 1985, S. 309-324

Davenport, T. H., Harris, J. G.: Competing on Analytics: The New Science of Winning, Boston, MA 2007

Dietterich, T. G.: Ensemble Methods in Machine Learning, in: Kittler, J., Roli, F. (Hrsg.): Proceedings Multiple Classifier Systems, First International Workshop, MCS 2000, Cagliari, Italy, 21.6.2000-23.6.2000, 2000, S. 1-15

Domingos, P.: When and How to Subsample: Report on the KDD-2001 Panel, in: ACM SIGKDD Explorations 3, 2002, S. 74-75

Domingos, P.: A Few Useful Things to Know About Machine Learning, in: Communications of the ACM 55, 2012, S. 78-87

Emani, C. K., Cullot, N., Nicolle, C.: Understandable Big Data: A survey, in: Computer Science Review 17, 2015, S. 70-81

Fahner, G., Bastert, O.: Ursache-Wirkungsmodelle berechnen die Ergebnisse künftiger Maßnahmen, in: Wirtschaftsinformatik & Management 4, 2012, S. 30-35

Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P.: From Data Mining to Knowledge Discovery: An Overview, in: Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., Uthurusamy, R. (Hrsg.), Advances in Knowledge Discovery in Databases and Data Mining, Menlo Park et al. 1996, S. 1-34

Freitag, M., Kück, M., Alla, A. A., Lütjen, M.: Potenziale von Data Science in Produktion und Logistik: Teil 1 – Eine Einführung in aktuelle Ansätze der Data Science, in: Industrie 4.0 Management 31, 2015, S. 22-26

Freytag, J.-C.: Grundlagen und Visionen großer Forschungsfragen im Bereich Big Data, in: Informatik–Spektrum 37, 2014, S. 97-104

Gandomi, A., Haider, M.: Beyond the hype: Big data concepts, methods, and analytics, in: International Journal of Information Management 35, 2015, S. 137-144

Gantz, J., Reinsel, D.: Extracting Value from Chaos, IDC IView 1142, 2011

Grillenberger, A., Romeike, R.: Was ist Data Science? – Ermittlung der informatischen Inhalte durch Analyse von Studienangeboten, in: Bergner, N., Röpke, R., Schroeder, U., Krömker, D. (Hrsg.): Hochschuldidaktik der Informatik – HDI 2018 – 8. Fachtagung des GI-Fachbereichs Informatik und Ausbildung/Didaktik der Informatik, Frankfurt, Germany, 12.9.2018-13.9.2018, 2018, S. 119-134

Hand, D., Mannila, H., Smyth, P.: Principles of Data Mining, Cambridge, London 2001

Hu, H., Wen, Y., Chua, T.-S., Li, X.: Toward Scalable Systems for Big Data Analytics: A Technology Tutorial, in: IEEE Access 2, 2014, S. 652-687

Hüftle, M.: Methoden zur Klassifikation, online im Internet, URL: http://optiv.de/methoden/KlassMet/KlassMet.pdf, veröffentlicht am 31.7.2006, Abruf am 16.6.2019

Kaufman, L., Rousseeuw, P. J.: Finding Groups in Data – An Introduction to Cluster Analysis, New York u. a. 1990

Klein, D., Tran-Gia, P., Hartmann, M.: Big Data, in: Informatik-Spektrum 36, 2013, S. 319-323

Labrinidis, A., Jagadish, H. V.: Challenges and Opportunities with Big Data, in: Proceedings of the VLDB Endowment 5, 2012, S. 2032-2033

Laney, D.: 3D Data Management: Controlling Data Volume, Velocity, and Variety, META Group, Stamford 2001

Lanquillon, C., Mallow, H.: Advanced Analytics mit Big Data, in: Dorschel, J. (Hrsg.): Praxishandbuch Big Data: Wirtschaft – Recht – Technik, Springer Gabler, Wiesbaden 2015, S. 55-89

Lee, J.-G., Kang, M.: Geospatial Big Data: Challenges and Opportunities, in: Big Data Research 2, 2015, S. 74-81

Maltby, D.: Big Data Analytics, in: Allard, S., Grove, A. S., Connaway, L. S. (Hrsg.): Proceedings of the Annual Meeting of the Association for Information Science and Technology, New Orleans, USA, 9.10.2011-13.10.2011, 2011, S. 1-6

Mathis, C.: Data Lakes, in: Datenbank Spektrum 17, 2017, S. 289-293