Aktuelles

Dienstag, 06. April 2021

Was ist eigentlich Data Science?

Die Begriffe Data Science und Machine Learing werden heutzutage immer öfter verwendet. Aber was genau ist Data Science eigentlich und warum sollte sich jedes Unternehmen damit auseinander setzen? Wie funktioniert eigentlich Machine Learning? Diese und weitere Fragen werden in einer Reihe von Blogposts so verständlich wie möglich erklärt, sodass Sie verstehen, was es mit diesem Thema auf sich hat und wie wir, als OpenAdvice, das Thema verstehen und praktisch umsetzen.

Von Keksen bis zu einer maßgeschneiderten Empfehlung Ihnen ist sicherlich schon aufgefallen, dass Sie, immer wenn Sie eine Webseite aufrufen, ihre Cookieeinstellungen konfigurieren oder bestätigen müssen. Je nach Auswahl werden Ihre Suchanfragen, Ihr Browserverlauf und Ihre Aktivitäten im Internet getrackt und gespeichert. Suchen Sie im Internet nach einem Kochbuch, so werden Sie recht schnell merken, dass bei Ihren Amazonempfehlungen Kochbücher auftauchen.

Ist Ihnen das schon mal aufgefallen? Oder wie schafft es Netflix Ihnen Filme zu empfehlen? Woher kommen Vorhersagen z.B. Coronainfektionsvorhersagen? Haben Sie so etwas bereits erlebt, dann sind Sie bereits mit einem Gebiet der Data Science in Berührung gekommen.

In der heutigen Zeit wird alles gemessen, gespeichert und aufbewahrt. Suchverläufe, Verkaufszahlen, Fehlermeldungen (logs) oder Kundenanfrangen werden teilweise im Sekundentakt, aber auch über lange Zeiträume gespeichtert. Dadurch entstehen enorme Datenmengen. Es ist nicht unüblich, dass Datensätze mehre Gigabyte, sogar Terabyte groß sind. Bei solch großen Datenmengen ist es sehr schwer ohne Hilfmittel Aussagen treffen zu können oder die Daten gar sinnvoll nutzen zu können.

Manche Zusammenhänge fallen einem auf den ersten Blick nicht auf. Hier kommt der Begriff Data Science ins Spiel. Data Science ist das Arbeiten mit Datensätzen, um Zusammenhänge aufzudecken, aussagekräftige Analysen zu erstellen und strategische Schritte einzuleiten.

Die Datenwissenschaft umfasst viele Disziplinen. Angefangen mit dem Sammeln von qualitativen Daten, über das Bearbeiten und Aufbereiten gesammelter Daten geht sie bis hin zur Analyse und Visualisierung der Daten. Durch sogenanntes Machine Learning werden zudem Vorhersagen getätigt, Daten klassifiziert, in sinnvolle Gruppen aufgeteilt und Handlungsempfehlungen ausgesprochen.

Die verschiedenen Disziplinen bauen aufeinander auf. Besonders wichtig ist es qualitative Daten zu erfassen und diese zielgerichtet zu transformieren. Dies kostet mitunter am meisten Zeit. Ebenso wichtig ist das Kommunizieren und Story Telling, um die Erkenntnisse addressatengerecht zu präsentieren. Data Science lässt sich durch folgenden Kreislauf darstellen:

 

 

Aufgabenbereiche der Data Science

Wie bereits erwähnt, besteht die Data Science aus verschiedenen Disziplinen. Grob kann man diese in drei verschiedene Kategorien einteilen.

Mathematik & Statistik:
- Die Modelle basieren auf der Wahrscheinlichkeitstheorie und Methoden der Statistik, wie z.B. Regression

Computer Science:
- Implementieren von performanter Datenverarbeitung (sogenannte ETL-Prozesse)
- Implementieren von (Machine Learning)- Algorithmen
- Visualisieren der Erkenntnisse

Business- & Fachexpertise:
- Um aussagekräftie Vorhersagen und Vorschläge zu finden und formulieren zu können muss ein Data Scientist auf dem Gebiet ein gewisses Know how haben

Data Science bei OpenAdvice

Wir bei OpenAdvice arbeiten in dem Bereich Data Science & Data Analytics eng mit unseren Kunden zusammen. Ein typisches Projekt fängt erst mal mit dem Verstehen des Problems und den Zielanforderungen an. Nachdem die Ziele und Wünsche formuliert wurden, stimmen wir uns gemeinsam ab, mit welchen Tools gearbeitet werden soll. Hier kommt es in erster Linie darauf an, woher die Daten stammen (Datenbanken, Dateien usw.). Jupyter Notebooks in Kombination mit einer Python-Version ist zur Datenverarbeitung und -aufbereitung und auch für Machine Learning Algorithmen empfehlenswert. Zum Reporting verwenden wir gerne IBM Cognos Analytics. Die Datenverarbeitung und Datenaufbereitung ist der wichtigste Schritt. Wir legen viel Wert auf die Korrektheit und Vollständgikeit der Datensätze. Sind die Daten aufbereitet, wenden wir uns dem Untersuchen der Daten zu. Neben Berechnungen und statistischen Auswertungen spielen auch Vorhersagen mittlers Machine Learning Algorithmen eine Rolle. Zu guter Letzt werden die Erkenntnisse zusammengefasst und visualisert, sodass das Ergebnis schnell und leicht erkennbar ist. Bei einem abschließenden Kundengespräch werden offene Fragen und Anforderungen besprochen, sodass das Projekt am Ende zur vollsten Zufriedenheit abgeschlossen werden kann.