Erstellung maßgeschneiderter Datensätze für Kundenanforderungen: ein Projekt des BSC

Geschrieben von Cláudia Gómez | 05/26/23

Der schnelle technologische Fortschritt und der wachsende Bedarf an präzisen und effizienten Datenanalysen haben dazu geführt, dass Organisationen nach maßgeschneiderten Datensätzen suchen, die auf ihre spezifischen Bedürfnisse zugeschnitten sind.

EIn diesem Artikel beschäftigen wir uns mit der Erstellung maßgeschneiderter Datensätze, die zweisprachige, nach Domäne und Stil klassifizierte Segmente enthalten. Dabei dient uns das Pangeanic BSC-Projekt als Schlüsselbeispiel.

 

Was ist ein Datensatz und welche Arten gibt es?

Ein Datensatz (engl. Dataset) ist eine strukturierte Sammlung von Informationen, die numerisch, textuell, visuell oder eine Kombination dieser Datentypen sein können. Datensätze werden in diversen Bereichen und Disziplinen wie Data Science (Datenwissenschaft), Künstlicher Intelligenz (KI), Statistik, wissenschaftlicher Forschung und vielen anderen genutzt, um Analysen, Studien und Experimente durchzuführen. Datensätze lassen sich anhand ihres Typs und ihrer Struktur in verschiedene Kategorien einteilen.

Nach Datentyp

Es gibt verschiedene Arten von Datensätzen, die anhand diverser Merkmale wie Format, Struktur und Zweck klassifiziert werden können. Einige Beispiele für die gängigsten Datensatztypen sind:

  1. Zeitreihendaten: Dies sind Datensätze, welche die Entwicklung einer Variable im Laufe der Zeit erfassen. Sie enthalten in der Regel Zeitstempel, die eine Analyse von Mustern und Trends im Zeitverlauf ermöglichen. Beispiele hierfür sind Wetterdaten, Aktienkursdaten und Verkehrsdaten.

  2. Bilddaten: sDatensätze, die Bilder enthalten, sei es in Form von Fotografien, medizinischen Aufnahmen, Satellitenbildern oder anderen Bildtypen. Diese Datensätze werden typischerweise in Anwendungen der Computer Vision (maschinelles Sehen), Objekterkennung und Bildanalyse verwendet.

  3. Textdaten: Datensätze, die Text in Form von Dokumenten, Textnachrichten, Tweets oder Nachrichtenartikeln enthalten. Sie werden in Anwendungen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), Stimmungsanalyse (Sentiment-Analyse), Textklassifizierung und anderen textbezogenen Aufgaben eingesetzt.

  4. Social-Media-Daten: Datensätze mit Informationen, die von Nutzern in sozialen Netzwerken wie Facebook, Twitter oder Instagram generiert wurden. Diese Daten werden für die Analyse sozialer Netzwerke, Opinion Mining und Studien zum Online-Verhalten verwendet.

  5. Geodaten (Georäumliche Daten): Datensätze, die geografische Informationen wie GPS-Koordinaten, Karten oder Daten von geospatialen Sensoren enthalten. Sie finden Anwendung in der Kartografie, bei Standortanalysen und zur Geolokalisierung.

Dies sind nur einige Beispiele für existierende Datensatztypen. Datensätze können sehr vielfältig sein und variieren je nach Fachgebiet (Domäne) und Analysezweck.

Nach der Datenstruktur

Datensätze lassen sich auch nach ihrer Struktur klassifizieren. Einige der gängigsten Datentypen je nach Struktur sind:

  1. Strukturierte Daten: Dies sind Datensätze mit einer definierten und organisierten Struktur, bei denen die Daten in einem tabellarischen Format (Zeilen und Spalten) vorliegen. Strukturierte Daten sind leicht zu analysieren und zu verarbeiten, da sie meist ein vordefiniertes Schema aufweisen. Beispiele hierfür sind Datenbanken, Finanzdatensätze und Vertriebsdaten.

  2. Unstrukturierte Daten: Datensätze, die keine definierte Struktur besitzen und nicht in ein tabellarisches Format passen. Diese Daten sind oft schwieriger zu analysieren und zu verarbeiten, da sie in unterschiedlichen Formaten (wie Freitext, Bilder, Videos oder Audiodateien) vorliegen können. Beispiele sind Textdokumente, Bilder, Videos und Daten aus sozialen Netzwerken.

  3. Semistrukturierte Daten: Datensätze mit einer teilweise definierten Struktur. Diese Daten können Informationen in verschiedenen Formaten enthalten und eine gewisse Organisation aufweisen, haben aber keine vollständig definierte Struktur wie strukturierte Daten. Beispiele für semistrukturierte Daten sind XML-Dokumente, JSON-Dateien und Daten im CSV-Format mit optionalen Feldern.

  4. Hierarchische Daten: Datensätze mit einer hierarchischen Struktur, bei der die Daten in Ebenen oder Schichten organisiert sind. Hierarchische Daten werden in Anwendungen wie hierarchischen Datenbanken, Ordnerstrukturen in Dateisystemen und Daten im JSON-Format mit Objektverschachtelung (Nesting) verwendet.

  5. Graphdaten (Daten in Graphenform): Datensätze, die als Graphen repräsentiert werden, wobei die Daten als Knoten (Nodes) und die Beziehungen (Relations/Edges) zwischen ihnen modelliert werden. Graphdaten werden bei Anwendungen für soziale Netzwerke, in der Netzwerkanalyse, für Transportrouten und zur Darstellung komplexer Beziehungen zwischen Entitäten genutzt.

Vorteile der Nutzung von Datensätzen

Die Verwendung eines Datensatzes – einer organisierten und strukturierten Sammlung von Informationen – bietet in verschiedensten Kontexten zahlreiche Vorteile. Nachfolgend sind einige wichtige aufgeführt:

  1. Datenbasierte Analyse und Entscheidungsfindung: Ein gut aufbereiteter und repräsentativer Datensatz kann wertvolle Informationen für Analysen und fundierte Entscheidungen in einer Vielzahl von Bereichen liefern. Die Daten können Muster, Trends und Korrelationen aufdecken, die helfen, eine Situation oder ein Problem besser zu verstehen. Dies ermöglicht es, klügere, evidenzbasierte Entscheidungen zu treffen.


  2. Effizienz in Forschung und Wissensgewinn: Datensätze sind grundlegende Werkzeuge für die wissenschaftliche Forschung, die Wissenschaft (Hochschulwesen) und den Wissenserwerb im Allgemeinen. Sie ermöglichen es Forschern und Akademikern, Daten effizient zu sammeln, zu analysieren und zu synthetisieren, um aussagekräftige Informationen zu extrahieren, Theorien zu entwickeln und Hypothesen zu validieren.

  3. Entwicklung und Training von Modellen des Maschinellen Lernens: Datensätze sind für die Entwicklung und das Training von Modellen des Maschinellen Lernens (Machine Learning) unerlässlich. Diese Modelle nutzen Daten, um Muster zu lernen und Vorhersagen oder Klassifizierungen in einem breiten Spektrum von Anwendungen (wie Bilderkennung, Verarbeitung natürlicher Sprache, Produktempfehlungen u. a.) durchzuführen.

  4. Leistungsüberwachung und -verfolgung (Monitoring): Datensätze sind auch für die Überwachung und Verfolgung der Leistung in diversen Bereichen nützlich, z. B. bei der Unternehmensleistung, der Überwachung des Gesundheitszustands von Patienten, der Beobachtung von Klima und Umwelt und vielem mehr. Daten können zur Messung von Key Performance Indicators (KPIs) und zur Bewertung des Fortschritts bei der Erreichung gesetzter Ziele verwendet werden.

  5. Erkennung von Mustern und Chancen: Datensätze können helfen, Muster und Chancen zu erkennen, die andernfalls möglicherweise unbemerkt bleiben würden. Durch die Analyse großer Datenmengen lassen sich aufkommende Trends, Beziehungen und Möglichkeiten entdecken. Dies kann zur Identifizierung neuer Strategien, zur Prozessverbesserung und zur Ressourcenoptimierung führen.

  6. Personalisierung und Verbesserung der Nutzererfahrung (User Experience): Datensätze können auch genutzt werden, um die Nutzererfahrung in digitalen Anwendungen und auf Plattformen zu personalisieren. Durch das Sammeln und Analysieren von Daten über die Vorlieben, Verhaltensweisen und Bedürfnisse der Nutzer können Dienstleistungen, Produkte oder Inhalte angepasst werden, um ein relevanteres und ansprechenderes Erlebnis zu bieten.

Zusammenfassend lässt sich sagen, dass Datensätze fundamentale Werkzeuge bei der Datenanalyse, der Forschung, der Entwicklung von Modellen des Maschinellen Lernens und der fundierten Entscheidungsfindung sind. Sie bieten eine solide Grundlage für die Entscheidungsfindung, den Wissensgewinn, die Identifizierung von Mustern und Chancen sowie die Verbesserung der Nutzererfahrung, was in einer Vielzahl von Anwendungen und Kontexten zu besseren Ergebnissen und einem tieferen Verständnis führen kann.

Anwendungsbereiche von maßgeschneiderten Datensätzen

Maßgeschneiderte Datensätze ermöglichen es Unternehmen, ihre Kunden besser zu verstehen, was die Personalisierung des Produktangebots und die Verbesserung der Kundenerfahrung (Customer Experience) erlaubt.

Der Zugriff auf exklusive und maßgeschneiderte Datensätze kann Organisationen einen signifikanten Wettbewerbsvorteil verschaffen, der es ihnen ermöglicht, fundierte Entscheidungen schneller und effektiver zu treffen.

Maßgeschneiderte Datensätze können zudem wertvolle Einblicke in bestimmte Branchen (Sektoren) bieten und Organisationen dabei helfen, bei Trends und Entwicklungen an der Spitze zu bleiben. Darüber hinaus können sie die Leistung von Modellen des Maschinellen Lernens (ML) verbessern, indem sie hochgradig relevante und domänenspezifische Daten für das Training und die Validierung bereitstellen.

 

 

Das Pangeanic BSC-Projekt

Das Pangeanic BSC-Projekt konzentriert sich auf die Erstellung von maßgeschneiderten Datensätzen, die bilinguale, nach Domäne und Stil klassifizierte Segmente enthalten. Dieser innovative Ansatz reagiert auf die wachsende Nachfrage nach hochwertigen, personalisierten Daten in diversen Sektoren.

Das Projekt legt den Schwerpunkt auf die Sammlung bilingualer Daten, die für das Training von Systemen zur maschinellen Übersetzung (MÜ), Sprachmodellen und anderen Anwendungen zur Verarbeitung natürlicher Sprache (NLP) verwendet werden können. Die Datensätze werden nach Domäne klassifiziert; dies stellt sicher, dass Nutzer auf Daten zugreifen können, die für ihre Branche und ihr Interessengebiet relevant sind, was zu präziseren und aussagekräftigeren Ergebnissen führt. Darüber hinaus ermöglicht die stilistische Klassifizierung eine höhere Granularität der Daten, da die spezifischen Nuancen der verschiedenen Schreibstile und Register berücksichtigt werden.

Um einen annotierten (etikettierten) bilingualen Datensatz Englisch-Katalanisch zu erstellen, wurden die folgenden Schritte durchgeführt:

  1. Auswahl von Domänen und Textstilen: Es wurden sorgfältig 15 verschiedene Domänen ausgewählt, die eine breite Themenvielfalt abdecken (darunter Nachrichten, Sport, Technologie, Gesundheit u. a.). Zusätzlich wurden 7 verschiedene Textstile berücksichtigt (wie formelle Nachrichten, informelle Blogs, soziale Medien, Foren u. a.), um die Vielfalt der im Web vorhandenen Textstile zu erfassen.

  2. Identifizierung und Beschaffung von Datenquellen: Es wurde eine umfassende Webrecherche durchgeführt, um relevante und vertrauenswürdige Datenquellen in den ausgewählten Domänen und Textstilen zu identifizieren. Dies umfasste die Suche nach Websites, Blogs, sozialen Netzwerken und Foren, die Inhalte auf Englisch und Katalanisch bereitstellen.

  3. Data-Crawling (Datenerfassung): Es wurde ein Web-Crawling-Tool eingesetzt, um die Daten aus den ausgewählten Quellen zu beziehen. Komplette Webseiten, Dokumente und Social-Media-Beiträge wurden heruntergeladen, und der Text in beiden Sprachen (Englisch und Katalanisch) wurde systematisch und automatisiert extrahiert.

  4. Datenbereinigung und -verarbeitung: Die gewonnenen Daten durchliefen einen Bereinigungs- und Verarbeitungsprozess, um ihre Qualität und Kohärenz sicherzustellen. HTML-Tags wurden entfernt, Formatierungs- und Rechtschreibfehler korrigiert sowie irrelevante oder doppelte Daten (Duplikate) eliminiert.

  5. Validierung und Annotation der Daten: Es erfolgte eine gründliche Validierung der ausgerichteten (aligned) Daten, um ihre Qualität und Genauigkeit zu sichern. Mögliche Fehler bei der Ausrichtung (Alignment) wurden überprüft und korrigiert. Anschließend wurden die Daten mit relevanten Metadaten (wie Quelle, Domäne, Textstil, Sprache u. a.) annotiert, um ihre Nutzung in zukünftigen Anwendungen zu erleichtern.

  6. Aufbereitung des Datensatzes: Abschließend wurde der Datensatz aufbereitet und in einer relationalen Datenbank gespeichert, zusammen mit den jeweiligen Metadaten, die während der gesamten Segmentverarbeitung gesammelt wurden. Damit ist er für den Einsatz in NLP-Anwendungen bereit.

Da die Repräsentativität bei der Erstellung eines Textdatensatzes entscheidend ist, um die Qualität und Zuverlässigkeit der Modelle, die ihn verwenden, zu gewährleisten, wurden Richtlinien befolgt, um dies durch die Klassifizierung der Texte nach Domäne und Stil sicherzustellen. So wurde eine Analyse der Label-Definitionen (Annotationen) durchgeführt, um sicherzustellen, dass keine Inkongruenzen oder Überschneidungen (Overlaps) in ihren Definitionen bestanden.

Besondere Sorgfalt wurde zudem auf die Auswahl der Datenquellen gelegt, damit diese vielfältig waren, um Bias (Verzerrungen) zu vermeiden. Ebenso achtete man auf die Gewinnung einer angemessenen Datenmenge aus verschiedenen Quellen und Schreibstilen, um eine Überrepräsentation einzelner Bereiche zu verhindern.

Die Repräsentativität eines Datensatzes ist nicht statisch, sondern kann sich im Laufe der Zeit entwickeln. Es ist wichtig, den Datensatz regelmäßig zu aktualisieren, neue Daten aus verschiedenen Quellen und Schreibstilen hinzuzufügen, mögliche Annotationsfehler zu korrigieren und die Qualität des Datensatzes insgesamt zu verbessern.

Zusammenfassend lässt sich sagen, dass ein umfassender Prozess durchgeführt wurde, der die Auswahl von Domänen und Textstilen, die Identifizierung und Beschaffung von Datenquellen, das Data-Crawling, die Datenbereinigung und -verarbeitung, die Validierung und Annotation sowie die Aufbereitung des Datensatzes für NLP-Anwendungen umfasste. Dieser bilinguale Datensatz Englisch-Katalanisch kann eine sehr wertvolle Ressource sein, insbesondere wenn man bedenkt, dass Katalanisch eine ressourcenarme Sprache (Low-Resource Language) ist.

Indem es maßgeschneiderte Datensätze anbietet, die auf die einzigartigen Bedürfnisse der Kunden zugeschnitten sind, setzt das Pangeanic BSC-Projekt einen neuen Standard für Datenqualität und -relevanz. Es ebnet den Weg für die Schaffung effizienterer und präziserer datengesteuerter Lösungen in diversen Sektoren.