Ein Begriff der deutlich machen soll das es sich um große Datenmengen handelt. Häufig wird Big Data auch als Synonym für die Analyse von großen Datensets verwendet. Datensätze ab mehreren Millionen Zeilen, bzw. mehreren GB Speichergröße werden bereits als Big Data bezeichnet.

Beiträge

data is everywhere we can just retrieve it

Der wohl wichtigste Rohstoff des 21. Jahrhunderts

Jeder kennt die Zitate aus der Presse oder den Medien.

“Daten sind das neue Gold des 21. Jahrhunderts. Du kannst Daten ohne Informationen haben aber keine Informationen ohne Daten”.

Unsere Gesellschaft diskutiert rund um das Thema Datenschutz, Privatsphäre und zeigt wie immer auf die amerikanischen Internetunternehmen wie Google und Facebook, die vor allem in Europa mit großer Skepsis betrachtet werden. Und doch, fast jeder von uns nutzt Facebook und Google täglich. Der Anteil der Nutzer aus Deutschland, die “Google” als Suchmaschine verwenden ist mit über 85% sogar beachtlich höher als in anderen Ländern. Welche Ironie?

Und dabei zählt Google zu den wertvollsten Unternehmen der Welt. Woher kommt also dieses Misstrauen zumal Google und andere Konzerne aus dem Silikon Valley doch großartiges für die Welt geschaffen haben, nämlich ein Stückchen mehr Informationszugang und das für einen “Nulltarif”.

Daten, definiert

Daten = Plural von Datum. Meist Zahlenwerte, die durch Beobachtungen oder Messungen von echten Ereignissen erhoben wurden. Die Semiotik (altgriechisch = Signal), also die Lehre von Zeichen, beschreibt Daten als potentielle Informationen. Die Basis für Daten bilden Zeichen. Laut dem semiotischen Dreieck gibt es eine fest Beziehung zwischen Zeichen bzw. Symbol, dem tatsächlichen Gegenstand und dem Begriff. Dabei steht das Symbol für ein Ding bzw. Gegenstand. Symbole erwecken bei Menschen einen Begriff der sich auf das Ding bezieht.

„Die gesprochenen Worte sind die Zeichen von Vorstellungen in der Seele und die geschriebenen Worte sind die Zeichen von gesprochenen Worten. So wie nun die Schriftzeichen nicht bei allen Menschen dieselben sind, so sind auch die Worte nicht bei allen Menschen dieselben; aber die Vorstellungen in der Rede, deren unmittelbare Zeichen die Worte sind, sind bei allen Menschen dieselben und eben so sind die Gegenstände überall dieselben, von welchen diese Vorstellungen die Abbilder sind.“ – Aristoteles, Peri hermeneias, Erstes Kapitel

Ort und Zeit Messung

Sie haben sich schon lange gefragt warum auf ihrem Ausweis ihr Geburtsort und Datum steht? Zeit und Ort bestimmen fast immer ein Ergebnis das tatsächlich stattgefunden hat. Somit können Sie als Person neben ihrem Namen und Geschlecht auch eindeutig identifiziert werden. Jedes reale Ereignis, ob es der Besuch einer Webseite ist, oder die Lieferung der letzten Amazon Bestellung. Jeder Messpunkt besitzt in der Regel immer mindestens zwei Dimensionen nämlich Zeit und Ort. Diese bestimmen ein Ereignis mehr oder weniger exakt.

data is the result of the observation of real events

Der Ursprung von Daten

Wenn Daten also immer einen Zeitpunkt und einen Ort als Merkmal haben kann man auch davon ausgehen das es Daten seit der Messung der Zeit geben muss. Die Geschichte der Zeitmessgeräte lässt sich schon bis zu den Sumerern und dem alten Ägypten zurückverfolgen. Bereits vor 3.000 Jahren vor Christus gab es Sonnenuhren die, die aktuelle Tageszeit angezeigt haben. So genau was das wohl damals noch nicht. Man sagt auch das die Zeit relativ ist also ist wohl auch die Messung an sich relativ genau.

Man unterscheidet folgende Arten von Daten:

  • Strukturierte Daten die eine gleichartige Struktur aufweisen z.B. formuliert in einem Datenmodell
  • Semistrukturierte Daten z.B. Extensible Markup Language (XML)
  • Unstrukturierte Daten bspw. Texte, Grafiken, sonstige Dokumente

Daten unterliegen wie alles einem Lebenszyklus. Dieser entspricht auch den Operationen die man auf Daten anwenden kann auch “CRUD” genannt.

“C”, steht für “create”: Diese werden erzeugt.
“R”, steht für “read/retrieve”: Diese werden gelesen oder beschaffen.
“U”, steht für “update”: Diese werden verändert bzw. angereichert.
“D”, steht für “delete”: Diese werden gelöscht.

Das Zeitalter von Big Data

Das “Daten-Kambrium”

Big Data” steht als Synonym für eine große Ansammlung von Daten mit unterschiedlicher Ausprägung. Man spricht auch von den s.g. 4 V’s also dem “Volumen”, der “Velocity” – die Zeitintervalle in denen Daten erzeugt werden, der “Variety” – der Vielfalt von unterschiedlichen Datenquellen und der “Veracity” – also dem Wahrheitsgehalt der in den Daten vorhanden ist.

In den kommenden Jahren soll sich laut der “IDC” die weltweit, jährlich erzeugte Datenmengen vor allem auf Grund von Sensordaten nochmal verzehnfachen. Unternehmen haben heute schon Probleme mit ihren vorhandenen Datenmengen richtig umzugehen. Wie soll das in Zukunft dann aussehen?

Smart Data soll das Datenchaos in den Griff bekommen

Wie kommt man von Big Data zu Smart Data? Mittels Algorithmen oder händischen Analysen können aus unterschiedlichen Datenmengen wertvolle Informationen extrahiert werden. Die Informationen die aus einer Analyse resultieren nennt man Smart Data. Ein Beispiel für Smart Data ist zum Beispiel “Google Trends”. Aus vielen Suchanfragen die weltweit erzeugt werden kann man mittels Google Trends schnell feststellen wie sich diese entwickelt haben. Mit Google Trends bekommt man nicht nur die Rohdaten, sondern erhält direkt die Information.

Smart Data Initiativen sind im vollen Gange. Die Bundesregierung selbst hat viele Programme z.B. das “Smart Data Forum”, dafür eingeleitet. Smart Data ist von großer Bedeutung, da es den Weg für eine künstliche Intelligenz ebnet.

Quellen:
https://smartdataforum.de/en/
https://seo-summary.de/suchmaschinen/
https://de.wikipedia.org/wiki/Semiotik

Literatur:
Daten- und Wissensmanagement (Prof. Dr. Freimut Bodendorf)

 

without smart data there is no ai

»Smart Data bereitet den Weg für die künstliche Intelligenz.«

Jeder spricht heutzutage von Big Data, aber was heißt das eigentlich? Big Data ist ein Begriff der sich vor allem durch die Entwicklung des Internets stark verbreitet hat, doch die wenigsten wissen was das wirklich ist.

Big Data definiert

“Big Data”, steht als Synonym für große Datenmengen. Die Daten können unstrukturiert und verteilt sein und deuten auf eine vielfältige Anhäufung von unterschiedlichen Datenquellen hin. Was Big Data ausmacht sind die so genannten 4 V’s, diese stehen für:

Volume – Volumen: Es werden z.B. auch durch soziale Netzwerke enorme Datenmengen erzeugt.
Velocity – Geschwindigkeit: Es werden immer schneller neue Daten erzeugt sogar millisekündlich.
Variety – Vielfalt: Mehr Datenquellen z.B. Sensoren, Mobile Geräte, Cloud, ERP, CRM etc.
Veracity – Wahrheitsgehalt: Liegt die gewünschte Datenqualität vor bzw. sind die Messwerte korrekt?

 

forecast about the data volume increase until 2025

Grafik-Quelle: IDC. 1 ZB entsprechen ungefähr so viele Informationen wie es Sandkörner an allen Stränden der Welt gibt.

Wir leben im “Daten-Kambrium”

Seit der Entwicklung des Buchdrucks steigen die weltweiten Datenmengen rasant an. Laut der “IDC” sollen sich die weltweiten Datenmengen in den kommenden 5 Jahren, vor allem durch Sensordaten verzehnfachen. Wir leben in einer sehr spannenden Zeit. In den kommenden Jahren werden mit Internet-of-Things, E-Mobility, Industrie 4.0 und Smart City neue Datenquellen entstehen.

Was Smart Data damit zu Tun hat

Was ist Smart Data? Folgendes Zitat bringt es gut auf den Punkt.

“Ziel ist es, Daten in Informationen und Informationen in Wissen zu verwandeln” – Carly Fiorina (ehemalige CEO von HP)

Wir leben in einer Zeit der “Reiz- und Informationsüberflutung”. Wir haben sehr viele Daten und doch wissen wir eigentlich fast nichts darüber. Wir sind uns gar nicht mehr sicher was richtig oder falsch ist, siehe “Fake-News”. Umso wichtiger wird es in Zukunft werden, dass jeder Mensch kostenlos auf “fundiertes Wissen” mit Hilfe von intelligenten Computern zugreifen kann. Das war ja die ursprüngliche Idee des Internets, eine Wissensdatenbank die validiert ist und Fakten aufzeigt, anstatt politischen Meinungsmachern zu dienen.

Aus Symbolen kann Wissen entstehen

Die Lehre von Zeichen auch “Semiotik” beschreibt es ganz gut. Wir Menschen sehen Zeichen (Signale) in unserer Umwelt, die wir durch die Erfahrungen und auf Grund der Ordnung der Dinge zu deuten wissen. Die Wissenspyramide hilft beim Verständnis und ist ein vereinfachtes Modell das beschreibt wie aus der Bedeutung von Zeichen (Semantik), Wissen entsteht. Es ist ein wesentlicher Grundsatz der Wissenschaft die Informationen und Daten zu teilen die man zur Verfügung hat um daraus neues Wissen zu schaffen.

Wie kommt man von Big Data zu Smart Data?

Big Data kann als Rohstoff von Smart Data gesehen werden. Das Ziel von Smart Data ist es, sinnvolle und verwertbare Informationen einzusetzen. Dies kann mittels folgender Formel auch grob beschrieben werden: Smart Data = Big Data + Nutzen + Semantik + Datenqualität + Sicherheit + Datenschutz. Es geht also um nutzbringende, hochwertige und abgesicherte Daten.

 

smart data is the extraction of information gained from big data

 

Was Smart Data für die Zukunft bedeutet

Daten und Informationen sind reichlich vorhanden, doch “smart” sind sie noch lange nicht. Wenn man die Entwicklung und Entstehung des Internets näher betrachtet wird man feststellen wo die Reise auch künftig hingehen wird. Derzeit befinden wir uns am Ende des Web 3.0, dem semantischen Web. Google leitet mit seinem digitalen AI-basierten Assistenten “Duplex” eine neue Ära des Internets ein. Das so genannte Web 4.0 auch Web OS- Web Operating System genannt.

Dieses Zeitalter des Internet wird geprägt durch intelligente Maschinen und Assistenten, die viel enger mit den Menschen auf natürlicher Ebene kommunizieren, als wir es uns heute überhaupt vorstellen können. Was wir bereits in vielen “Science-Fiction-Filmen” gesehen haben, rückt immer näher. Es liegt nun an uns die neuen Technologien mit den Werten und Normen der Gemeinschaft zu vereinen.

Quellen:

https://smartdataforum.de/en/

https://de.wikipedia.org/wiki/Smart_Data

https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf

https://de.wikipedia.org/wiki/Semiotik