Creazione di dataset personalizzati per soddisfare le esigenze dei clienti: un progetto del BSC

Scritto da Cláudia Gómez | 05/26/23

Il rapido progresso della tecnologia e la crescente necessità di un'analisi dei dati precisa ed efficace hanno spinto le organizzazioni a cercare dataset personalizzati adattati alle loro esigenze specifiche.

In questo articolo, esploreremo la creazione di dataset personalizzati che contengono segmenti bilingui classificati per dominio e stile, utilizzando il progetto Pangeanic BSC come esempio chiave.

Cos'è un dataset e quali tipi esistono?

Un dataset (o insieme di dati) è una raccolta strutturata di informazioni che possono essere numeriche, testuali, visive o una combinazione di questi tipi di dati. I dataset vengono utilizzati in vari campi e discipline, come la scienza dei dati, l'intelligenza artificiale, la statistica, la ricerca scientifica e molti altri, per condurre analisi, studi ed esperimenti. I dataset possono essere suddivisi in diverse categorie in base al loro tipo e alla loro struttura.

In base al tipo di dati

Esistono vari tipi di dataset che possono essere classificati in base a diverse caratteristiche, come il formato, la struttura e lo scopo. Alcuni esempi dei dataset più comuni in base al tipo sono:

  1. Dati di serie temporali (Time series data): sono dataset che registrano l'evoluzione di una variabile nel tempo. Questi dataset hanno solitamente timestamp associati, che permettono di analizzare pattern e tendenze nel tempo. Alcuni esempi di dataset di serie temporali includono dati meteorologici, dati sui prezzi delle azioni e dati sul traffico.

  2. Dati di immagini (Image data): sono dataset che contengono immagini, siano esse fotografie, immagini mediche, immagini satellitari o di altro tipo. Questi dataset vengono generalmente utilizzati in applicazioni di visione artificiale (computer vision), riconoscimento di oggetti e analisi di immagini.

  3. Dati testuali (Text data): sono dataset che contengono testo, come documenti, messaggi di testo, tweet o notizie. Questi dataset vengono utilizzati in applicazioni di elaborazione del linguaggio naturale (NLP), analisi del sentiment, classificazione del testo e altri compiti legati all'elaborazione testuale.

  4. Dati dei social network (Social media data): sono dataset che contengono informazioni generate dagli utenti su social network come Facebook, Twitter o Instagram. Questi dataset vengono utilizzati nell'analisi dei social network, nell'opinion mining e negli studi sul comportamento online.

  5. Dati geospaziali (Geospatial data): sono dataset che contengono informazioni geografiche, come coordinate GPS, mappe o dati provenienti da sensori geospaziali. Questi dataset vengono utilizzati in applicazioni di cartografia, analisi della posizione e geolocalizzazione.

Questi sono solo alcuni esempi dei tipi di dataset esistenti. I dataset possono essere molto eterogenei e variare a seconda del dominio e dello scopo dell'analisi.

In base alla struttura dei dati

I dataset possono essere classificati anche in base alla loro struttura. Alcuni dei tipi di dati più comuni in base alla loro struttura sono:

  1. Dati strutturati: sono dataset che hanno una struttura definita e organizzata, in cui i dati si trovano in un formato tabellare con righe e colonne. I dati strutturati sono facili da analizzare ed elaborare, poiché tendono ad avere uno schema predefinito. Alcuni esempi di dati strutturati sono i database, i registri finanziari e i dati di vendita.

  2. Dati non strutturati: sono dataset che non hanno una struttura definita e non seguono un formato tabellare. Questi dati sono solitamente più difficili da analizzare ed elaborare, poiché possono presentarsi in diversi formati, come testo libero, immagini, video o file audio. Alcuni esempi di dati non strutturati sono documenti di testo, immagini, video e dati provenienti dai social network.

  3. Dati semi-strutturati: sono dataset che hanno una struttura parzialmente definita. Questi dati possono contenere informazioni in diversi formati e avere una certa organizzazione, ma non possiedono una struttura completamente definita come i dati strutturati. Alcuni esempi di dati semi-strutturati sono i documenti XML, i file JSON e i dati in formato CSV con campi opzionali.

  4. Dati gerarchici: sono dataset che hanno una struttura gerarchica, in cui i dati sono organizzati a livelli o strati. I dati gerarchici vengono utilizzati in applicazioni come database gerarchici, strutture di cartelle nei file system e dati in formato JSON con annidamento di oggetti.

  5. Dati sotto forma di grafo (Graph data): sono dataset che vengono rappresentati come grafi, in cui i dati sono modellati come nodi e relazioni (archi) tra di essi. I dati sotto forma di grafo vengono utilizzati in applicazioni di social network, analisi delle reti, percorsi di trasporto e relazioni complesse tra entità.

Vantaggi dell'utilizzo di un dataset

Utilizzare un dataset, che è una raccolta di informazioni organizzata e strutturata, offre numerosi vantaggi in diversi contesti. Di seguito ne elenchiamo alcuni importanti:

  1. Analisi e processo decisionale basati sui dati: un dataset ben preparato e rappresentativo può fornire informazioni preziose per l'analisi e per prendere decisioni informate in un'ampia gamma di settori. I dati possono rivelare pattern, tendenze e correlazioni che possono aiutare a comprendere meglio una situazione o un problema, consentendo di prendere decisioni più accurate e supportate da evidenze.


  2. Efficienza nella ricerca e nell'acquisizione di conoscenze: i dataset sono strumenti fondamentali per la ricerca scientifica, il mondo accademico e l'acquisizione di conoscenze in generale. Permettono a ricercatori e accademici di raccogliere, analizzare e sintetizzare i dati in modo efficiente per estrarre informazioni significative, sviluppare teorie e convalidare ipotesi.

  3. Sviluppo e addestramento di modelli di machine learning: i dataset sono essenziali per lo sviluppo e l'addestramento di modelli di machine learning (apprendimento automatico). Questi modelli utilizzano i dati per apprendere pattern ed effettuare previsioni o classificazioni in una vasta gamma di applicazioni, come il riconoscimento di immagini, l'elaborazione del linguaggio naturale, la raccomandazione di prodotti e altro ancora.

  4. Monitoraggio e tracciamento delle prestazioni: i dataset sono utili anche per il monitoraggio e il tracciamento delle prestazioni in vari ambiti, come le performance aziendali, il monitoraggio dello stato di salute dei pazienti, il monitoraggio del clima e dell'ambiente, e altro. I dati possono essere utilizzati per misurare gli indicatori chiave di prestazione (KPI) e valutare i progressi verso gli obiettivi stabiliti.

  5. Identificazione di pattern e opportunità: i dataset possono aiutare a identificare pattern e opportunità che altrimenti potrebbero passare inosservati. Analizzando grandi quantità di dati, si possono scoprire tendenze, relazioni e opportunità emergenti, che possono portare all'identificazione di nuove strategie, a miglioramenti nei processi e all'ottimizzazione delle risorse.

  6. Personalizzazione e miglioramento dell'esperienza utente: li dataset possono essere utilizzati anche per personalizzare l'esperienza dell'utente in applicazioni e piattaforme digitali. Raccogliendo e analizzando dati sulle preferenze, i comportamenti e le esigenze degli utenti, è possibile adattare servizi, prodotti o contenuti per offrire un'esperienza più pertinente e coinvolgente.

In sintesi, i dataset sono strumenti fondamentali nell'analisi dei dati, nella ricerca, nello sviluppo di modelli di machine learning e nel processo decisionale informato. Forniscono una base solida per prendere decisioni, acquisire conoscenze, identificare pattern e opportunità e migliorare l'esperienza utente, il che può portare a risultati migliori e a una maggiore comprensione in una grande varietà di applicazioni e contesti.

Usi dei dataset personalizzati

I dataset personalizzati permettono alle aziende di comprendere meglio i propri clienti, rendendo possibile la personalizzazione dell'offerta di prodotti e il miglioramento della customer experience.

L'accesso a dataset esclusivi e personalizzati può fornire alle organizzazioni un vantaggio competitivo significativo, consentendo loro di prendere decisioni informate in modo più rapido ed efficace.

I dataset personalizzati possono anche offrire informazioni preziose su settori specifici e aiutare le organizzazioni a rimanere all'avanguardia rispetto alle tendenze e alle evoluzioni. Inoltre, possono migliorare le prestazioni dei modelli di machine learning fornendo dati altamente pertinenti e specifici del dominio per l'addestramento e la validazione.

 

 

Alla scoperta del progetto Pangeanic BSC

Il progetto Pangeanic BSC si concentra sulla creazione di dataset personalizzati che contengono segmenti bilingui classificati per dominio e stile. Questo approccio innovativo risponde alla crescente domanda di dati personalizzati di alta qualità in diversi settori.

Il progetto pone l'accento sulla raccolta di dati bilingui, che possono essere utilizzati per addestrare sistemi di traduzione automatica, modelli linguistici e altre applicazioni di elaborazione del linguaggio naturale (NLP). I dataset sono classificati per dominio, garantendo agli utenti l'accesso a dati rilevanti per il loro settore e area di interesse, portando a risultati più precisi e significativi. Inoltre, la classificazione stilistica permette una maggiore granularità dei dati, tenendo conto delle sfumature specifiche dei diversi stili e registri di scrittura.

 

Per creare un dataset bilingue inglese-catalano etichettato, sono stati seguiti diversi passaggi, dettagliati di seguito:

  1. Selezione di domini e stili testuali: sono stati scelti con cura 15 domini diversi che coprivano un'ampia varietà di argomenti, come notizie, sport, tecnologia e salute, tra gli altri. Inoltre, sono stati considerati 7 stili testuali differenti, come notizie formali, blog informali, social network e forum, tra gli altri, per catturare la diversità degli stili testuali presenti sul web.

  2. Identificazione e reperimento delle fonti di dati: sono state condotte ricerche esaustive sul web per identificare fonti di dati rilevanti e affidabili nei domini e negli stili testuali selezionati. Ciò ha incluso la ricerca di siti web, blog, social network e forum che fornissero contenuti in inglese e catalano.

  3. Raccolta ("crawling") dei dati: è stato utilizzato uno strumento di web crawling per ottenere i dati dalle fonti selezionate. Sono state scaricate pagine web complete, documenti e post dei social network, ed è stato estratto il testo in entrambe le lingue, inglese e catalano, in modo sistematico e automatizzato.

  4. Pulizia ("cleaning") ed elaborazione dei dati: i dati ottenuti sono stati sottoposti a un processo di pulizia (data cleaning) ed elaborazione per assicurarne la qualità e la coerenza. Sono stati rimossi i tag HTML, sono stati corretti errori di formattazione e ortografia, e sono stati eliminati i dati irrilevanti o duplicati.

  5. Validazione ed etichettatura dei dati: è stata eseguita una validazione approfondita dei dati allineati per assicurarne la qualità e la precisione. Sono stati rivisti e corretti eventuali errori di allineamento. Successivamente, i dati sono stati etichettati con metadati rilevanti, come la fonte, il dominio, lo stile testuale e la lingua, tra gli altri, per facilitarne l'uso in applicazioni future.

  6. Preparazione del dataset: infine, il dataset è stato preparato e archiviato in un database relazionale, con i rispettivi metadati raccolti durante l'intera elaborazione dei segmenti, per il suo utilizzo in applicazioni di elaborazione del linguaggio naturale.

Poiché la rappresentatività nella costruzione di un dataset testuale è essenziale per assicurare la qualità e l'affidabilità dei modelli che lo utilizzeranno, sono state seguite alcune linee guida al fine di garantirla, classificando tali testi per dominio e stile. In questo modo, è stata effettuata un'analisi della definizione delle etichette (tag), per assicurare che non esistessero incongruenze o sovrapposizioni nelle loro definizioni.

Inoltre, è stata prestata particolare attenzione alla selezione delle fonti dei dati, in modo che fossero variegate per evitare bias (distorsioni), così come all'ottenimento di una quantità adeguata di dati da diverse fonti e stili di scrittura per evitare la sovrarappresentazione di alcuni di essi.

La rappresentatività di un dataset non è statica, ma può evolvere nel tempo. È importante effettuare aggiornamenti periodici del dataset, aggiungere nuovi dati da diverse fonti e stili di scrittura, correggere eventuali errori nell'annotazione e migliorare la qualità del dataset.

In sintesi, è stato condotto un processo esaustivo che ha incluso la selezione di domini e stili testuali, l'identificazione e l'ottenimento di fonti di dati, il crawling dei dati, la pulizia e l'elaborazione dei dati, la validazione e l'etichettatura dei dati, e la preparazione del dataset per il suo utilizzo in applicazioni di elaborazione del linguaggio naturale. Questo dataset bilingue inglese-catalano può essere una risorsa molto preziosa, soprattutto considerando che il catalano è una lingua con poche risorse (low-resource language).

Offrendo dataset personalizzati che si adattano alle esigenze uniche dei clienti, il progetto Pangeanic BSC stabilisce un nuovo standard di qualità e rilevanza dei dati, e apre la strada alla creazione di soluzioni basate sui dati più efficienti e precise in diversi settori.