Qualität ist ein Maßstab und die angemessene Erfüllung von definierten Kritierien für Produkte oder Services. Datenqualität wird in den meisten Fällen als “Korrektheit” und “Verlässlichkeit” von Daten inteterpriert.

Beiträge

data is everywhere we can just retrieve it

Der wohl wichtigste Rohstoff des 21. Jahrhunderts

Jeder kennt die Zitate aus der Presse oder den Medien.

“Daten sind das neue Gold des 21. Jahrhunderts.” “Du kannst Daten ohne Informationen haben aber keine Informationen ohne Daten”.

Unsere Gesellschaft diskutiert rund um das Thema Datenschutz, Privatsphäre und zeigt wie immer auf die amerikanischen Internetunternehmen wie Google und Facebook, die vor allem in Europa mit großer Skepsis betrachtet werden. Und doch, fast jeder von uns nutzt Facebook und Google täglich. Der Anteil der Nutzer aus Deutschland, die “Google” als Suchmaschine verwenden ist mit über 85% sogar beachtlich höher als in anderen Ländern. Welche Ironie?

Und dabei zählt Google zu den wertvollsten Unternehmen der Welt. Woher kommt also dieses Misstrauen zumal Google und andere Konzerne aus dem Silikon Valley doch großartiges für die Welt geschaffen haben, nämlich ein Stückchen mehr Informationszugang und das für einen “Nulltarif”.

Daten, definiert

Daten = Plural von Datum. Meist Zahlenwerte, die durch Beobachtungen oder Messungen von echten Ereignissen erhoben wurden. Die Semiotik (altgriechisch = Signal), also die Lehre von Zeichen, beschreibt Daten als potentielle Informationen. Die Basis für Daten bilden Zeichen. Laut dem semiotischen Dreieck gibt es eine fest Beziehung zwischen Zeichen bzw. Symbol, dem tatsächlichen Gegenstand und dem Begriff. Dabei steht das Symbol für ein Ding bzw. Gegenstand. Symbole erwecken bei Menschen einen Begriff der sich auf das Ding bezieht.

„Die gesprochenen Worte sind die Zeichen von Vorstellungen in der Seele und die geschriebenen Worte sind die Zeichen von gesprochenen Worten. So wie nun die Schriftzeichen nicht bei allen Menschen dieselben sind, so sind auch die Worte nicht bei allen Menschen dieselben; aber die Vorstellungen in der Rede, deren unmittelbare Zeichen die Worte sind, sind bei allen Menschen dieselben und eben so sind die Gegenstände überall dieselben, von welchen diese Vorstellungen die Abbilder sind.“ – Aristoteles, Peri hermeneias, Erstes Kapitel

Ort und Zeit Messung

Sie haben sich schon lange gefragt warum auf ihrem Ausweis ihr Geburtsort und Datum steht? Zeit und Ort bestimmen fast immer ein Ergebnis das tatsächlich stattgefunden hat. Somit können Sie als Person neben ihrem Namen und Geschlecht auch eindeutig identifiziert werden. Jedes reale Ereignis, ob es der Besuch einer Webseite ist, oder die Lieferung der letzten Amazon Bestellung. Jeder Messpunkt besitzt in der Regel immer mindestens zwei Dimensionen nämlich Zeit und Ort. Diese bestimmen ein Ereignis mehr oder weniger exakt.

data is the result of the observation of real events

Der Ursprung von Daten

Wenn Daten also immer einen Zeitpunkt und einen Ort als Merkmal haben kann man auch davon ausgehen das es Daten seit der Messung der Zeit geben muss. Die Geschichte der Zeitmessgeräte lässt sich schon bis zu den Sumerern und dem alten Ägypten zurückverfolgen. Bereits vor 3.000 Jahren vor Christus gab es Sonnenuhren die, die aktuelle Tageszeit angezeigt haben. So genau was das wohl damals noch nicht. Man sagt auch das die Zeit relativ ist also ist wohl auch die Messung an sich relativ genau.

Arten von Daten

Man unterscheidet folgende Arten von Daten:

  • Strukturierte Daten die eine gleichartige Struktur aufweisen z.B. formuliert in einem Datenmodell
  • Semistrukturierte Daten z.B. Extensible Markup Language (XML)
  • Unstrukturierte Daten bspw. Texte, Grafiken, sonstige Dokumente

Daten unterliegen wie alles einem Lebenszyklus. Dieser entspricht auch den Operationen die man auf Daten anwenden kann auch “CRUD” genannt.

“C”, steht für “create”: Die Daten werden erzeugt.
“R”, steht für “read/retrieve”: Die Daten werden gelesen oder beschaffen.
“U”, steht für “update”: Die Daten werden verändert bzw. angereichert.
“D”, steht für “delete”: Die Daten werden gelöscht.

Das Zeitalter von Big Data

Das “Daten-Kambrium”

Big Data” steht als Synonym für eine große Ansammlung von Daten mit unterschiedlicher Ausprägung. Man spricht auch von den s.g. 4 V’s also dem “Volumen”, der “Velocity” – die Zeitintervalle in denen Daten erzeugt werden, der “Variety” – der Vielfalt von unterschiedlichen Datenquellen und der “Veracity” – also dem Wahrheitsgehalt der in den Daten vorhanden ist.

In den kommenden Jahren soll sich laut der “IDC” die weltweit, jährlich erzeugte Datenmengen vor allem auf Grund von Sensordaten nochmal verzehnfachen. Unternehmen haben heute schon Probleme mit ihren vorhandenen Datenmengen richtig umzugehen. Wie soll das in Zukunft dann aussehen?

Smart Data soll das Datenchaos in den Griff bekommen

Wie kommt man von Big Data zu Smart Data? Mittels Algorithmen oder händischen Analysen können aus unterschiedlichen Datenmengen wertvolle Informationen extrahiert werden. Die Informationen die aus einer Analyse resultieren nennt man Smart Data. Ein Beispiel für Smart Data ist zum Beispiel “Google Trends”. Aus vielen Suchanfragen die weltweit erzeugt werden kann man mittels Google Trends schnell feststellen wie sich diese entwickelt haben. Mit Google Trends bekommt man nicht nur die Rohdaten, sondern erhält direkt die Information.

Smart Data Initiativen sind im vollen Gange. Die Bundesregierung selbst hat viele Programme z.B. das “Smart Data Forum”, dafür eingeleitet. Smart Data ist von großer Bedeutung, da es den Weg für eine künstliche Intelligenz ebnet.

Quellen:
https://smartdataforum.de/en/
https://seo-summary.de/suchmaschinen/
https://de.wikipedia.org/wiki/Semiotik

Literatur:
Daten- und Wissensmanagement (Prof. Dr. Freimut Bodendorf)

 

Sie kennen das Problem, die Zahlen in Ihren Excel Reports oder Dashboards weichen von den Zahlen in Ihrem Google Analytics Konto ab? Dann ist Ihnen sicherlich auch der Begriff „Daten-Sampling“ (Stichprobenerhebung) geläufig. Wie kann nun ein hochwertiges Google Analytics Reporting über mehrere Webseiten hinweg erstellt werden? Nun ja, in Google Analytics ist der Vergleich mehrere Datensichten s.g. Views gar nicht so möglich. Man kann immer nur eine View gleichzeitig analysieren. Wenn man z.B. für einen Kunden oder intern mehrere Seiten auswerten möchte muss man dies in einem weiteren Analysetool machen. Der folgende Artikel zeigt welche Schritte dazu nötig sind.

 

Was genau ist „Daten-Sampling“ (Stichprobenerhebung)

Google Analytics Server verarbeitet tagtäglich mehrere Milliarden Webanfragen. Sprich jedes Mal, wenn ein Webseiten-Besucher eine neue Aktion durchführt, ob es das Laden einer neuen Unterseite ist, oder einen Button drückt, wird ein so genannter Event an Google Analytics geschickt. Dieser wird registriert und erscheint dann in Ihren Google Analytics Statistiken. Um Ressourcen zu sparen werden bei großen Datenmengen nur Teilmengen betrachtet, wobei auf einer Datenstichprobe dann die entsprechenden Statistiken hochgerechnet werden. Damit ist die Auswertung schneller verfügbar und die Belastung der Server sinkt.

Laut Google erfolgt die Stichprobenerhebung in den Berichten automatisch sobald mehr als 500.000 Sitzungen erfasst wurden. Vor allem bei sehr großen Webseiten kann diese Grenze schnell erreicht werden.

 

Wie erkenne ich wann meine Google Analytics Daten gesampelt werden?

Ganz einfach, indem Sie unter Benutzerdefinierten Berichten einen Bericht mit den zu vergleichenden Metriken und Dimensionen anlegen und diesen als „Gesamtdatenbericht“ exportieren. Je nach Datenmenge kann es einige Minuten dauern bis der Gesamtdatenbericht zu Verfügung steht.

Der Gesamtdatenbericht enthält nun 100% korrekte Daten und kann nun dafür eingesetzt werden, ihre Reports auch Richtigkeit zu prüfen. Beachten Sie das für jeden Gesamtbericht auch s.g. Credits verbraucht werden. Diese werden jedoch täglich zurückgesetzt.

 

Wann die Stichprobenerhebung in Google Analytics für Ihr Reporting zum Problem wird

Normalerweise reicht es zur Betrachtung von Trends und der gesamten Entwicklung aus, mit Stichproben zu arbeiten. Problematisch wird das Ganze nur, wenn man zum Beispiel die Sitzungen oder Zielabschlüsse je nach Landingpage analysieren möchte. Umso mehr Dimensionen (Zeit, Landingpage, Medium, Source usw.) in einer Abfrage eingesetzt werden, desto wichtiger wird es mit ungesampelten Daten zu arbeiten. Man könnte sonst basierend darauf falsche Annahmen treffen.

 

Wie kann das Sampling verhindert werden?

Erstmal gar nicht, an die Vorgaben von Google Analytics muss sich wohl jeder halten. Es gibt jedoch Mittel und Wege dies elegant zu umgehen. Folgende Möglichkeiten gibt es:

  • Kleinere Betrachtungszeiträume wählen: Je kleiner der Ausschnitt ist, desto weniger Daten sind es.
  • Weniger Dimensionen verwenden: In einer Abfrage mit weniger Dimensionen dafür mehr Filtern arbeiten.
  • Unter Benutzerdefinierten Berichten kann man Daten auch als „unsampled Reports“, oder als s.g. Gesamtbericht herunterladen und in Excel oder sonstigen Tools weiterverarbeiten.

Bildergebnis für unsampled google analytics

 

Gibt es Tools oder Software die mir dabei hilft Daten aus Google Analytics zu extrahieren?

Es gibt diverse Tools z.B. Excel Plugins, die es ermöglichen Daten direkt in Excel zu laden um diese dort weiterzuverarbeiten. Aber auch diese Tools können das Sampling Problem nur bedingt lösen. Ich selbst habe folgende Tools analysiert und wurde leider vom Ergebnis jedes Mal enttäuscht.

  • NEXT Analytics: Ein Excel Plugin um Daten aus Google Analytics, Adwords und anderen Tools direkt in ein Excel File zu laden.
  • SSIS CDATA Google Analytics Connector: Eine SSIS Komponente die es ermöglicht Daten aus Google Analytics direkt in einer SQL Datenbank weiterzuverarbeiten.

 

Was also kann man tun damit man 100% richtige Daten aus Google bekommt?

Unser Entwicklungsteam hat eine eigene Lösung programmiert die es ermöglicht 100% richtige Daten aus Google Analytics zu exportieren. Dafür haben wir eigens einen API-Konnektor geschrieben und ausgiebig getestet. Das Ergebnis war jedes Mal positiv.

 

Wie haben wir es gemacht? Wie kann man das API Request Limit von Google Analytics umgehen?

Gar nicht, das steht ausdrücklich in der Beschreibung. Pro API Request erlaubt Google Analytics max. täglich 50.000 Request pro Projekt und 10 Datenbankabfragen pro Sekunde pro IP-Adresse. Wir haben es gelöst indem wir die Abfragen automatisiert solange verkleinern, bis wir von Google keine negative Meldung über ein Sampling zurückerhalten. Nutzt man außerdem mehrere IP-Adressen je nach Last, so kann man auch mehr Daten auf einmal ziehen.

Nutzen Sie doch ganz einfach unsere kostenlose Google Analytics App in ABIS. Hier erhalten Sie kostenlos einen Zugang den sie mit 3 Domains gleichzeitig nutzen können.

Schlusswort:

Wenn Sie das Thema näher interessiert und Sie Unterstützung benötigen, können Sie uns gerne kontaktieren. Wir helfen Ihnen dann gerne weiter.

In folgendem Artikel erklären wir wie sie Ihr eigenes Google Analytics KPI Dashboard einfach erstellen können: Wie erstelle ich ein eigenes Google Analytics KPI Dashboard?

 

Quellen:

https://developers.google.com/analytics/devguides/config/mgmt/v3/limits-quotas#unsampled_reporting