Workshop: Nachhaltigkeit von Workflows zur Datenkuratierung
- Hanna Hedeland, Universität Hamburg, CLARIN-D/HZSK
- Timm Lehmberg, Universität Hamburg, INEL/HZSK
Bei der Reflexion von Fragen der Nachhaltigkeit digitaler linguistischer Ressourcen stehen traditionell die Daten selbst im Vordergrund. Dementsprechend beschränken sich viele der in diesem Kontext entwickelten Lösungen im Bereich der Datenmodellierung und -aufbereitung auf die Schaffung nachhaltiger Datenformate und die Implementierung entsprechender Zugriffsplattformen. Tatsächlich jedoch stellen nachhaltig aufbereitete Daten lediglich das Endprodukt von oft sehr komplexen und aufwendigen Workflows der Datenkuratierung dar. Die Dokumentation und Wiederverwendbarkeit der in diesem Rahmen eingesetzten bzw. entwickelten Verfahren und Werkzeuge, ist jedoch ein ebenso erstrebenswertes Ziel, wie die Nachhaltigkeit der Daten selbst. In dem Workshop wird zu drei Themenschwerpunkten aus verschiedenen Langzeit- und Infrastrukturvorhaben referiert.
Die Beiträge werden unter folgenden Aspekten der Nachhaltigkeit von Datenkuratierungsworkflows diskutiert:
- Modellierung und Dokumentation von Workflows zugunsten
- der Optimierung und Überwachung von Projektabläufen,
- der Möglichkeit einer (teil-)automatischen Kontrolle von Kuratierungsprozessen,
- der Nachvollziehbarkeit von Forschungsergebnissen, die auf
der Grundlage kuratierter Datensammlungen entstanden sind. - Modularisierung von Workflows zum Zweck einer nachhaltigen Nutzbarkeit bzw. Wiederverwendbarkeit ganzer Workflows bzw. Teilen davon.
- Skalierbarkeit und Anpassung von Workflows u. a. an sich verändernde technische und wissenschaftlich/methodische Rahmenbedingungen.
Programm
9:30-10:00 | Begrüßung und Formulierung der Workshopziele |
10:00-10:45 |
Thomas Schmidt (Institut für Deutsche Sprache, Mannheim) informiert über Verfahren der Datenkuratierung am Archiv für Gesprochenes Deutsch (AGD).
Das Archiv für Gesprochenes Deutsch (AGD - http://agd.ids-mannheim.de) am IDS Mannheim ist die zentrale Sammelstelle für Variations- und Gesprächskorpora des Deutschen und übernimmt in dieser Rolle regelmäßig Daten aus externen Projekten, die im Archiv für eine Nachnutzung aufbereitet und dann der wissenschaftlichen Gemeinschaft über die Datenbank für Gesprochenes Deutsch (DGD) zugänglich gemacht werden. Datenkuration ist somit eine zentrale und ständige Aufgabe in der Archivarbeit, der damit verbundene technische, organisatorische und personelle Aufwand eine stetige Herausforderung für die Archivplanung. In meinem Beitrag möchte ich versuchen, ausgehend von den konkreten Erfahrungen mit verschiedensten am AGD bearbeiteten Daten einige allgemeinere und verallgemeinerbare Erkenntnisse zu formulieren, die helfen können, solche und ähnliche Kurationsprozesse mittelfristig effizienter und einheitlicher zu gestalten bzw. in Teilen auch überflüssig zu machen. |
10:45-11:30 |
Peter Bouda und Felix Rau (Universität zu Köln) berichten über die Poio API: Eine im Rahmen eines CLARIN-D Kurationsprojektes entwickelte Bibliothek zur Verarbeitung und Analyse von im Bereich der Dokumentationslinguistik gebräuchlichen Datenformaten.
Poio API ist eine Software-Library, die es erlaubt, gängige Datenformate der linguistischen Feldforschung (insbesondere ELAN- und Toolbox-Dateien) auf einen Annotationsgraphen im GrAF-Datenmodell (ISO 24612:2012) abzubilden. Die Mächtigkeit des GrAF-Datenmodells erlaubt es dabei verschiedene und strukturell komplexe Annotationsmodelle abzubilden. Poio API stellt eine programmierbare Schnittstelle zur Verfügung, die es erlaubt Suchanfragen über diese Daten zu stellen und Annotationen in andere Datenformate zu konvertieren. |
11:30-12:00 | Kaffeepause |
12:00-12:45 |
Daniel Jettka und Tommi Pirinen (Hamburger Zentrum für Sprachkorpora) referieren über Datenkurationsworkflows, die in Projekten am HZSK und im Langzeitprojekt INEL zum Einsatz kommen.
Grundlage des Beitrages bildet die digitale Infrastruktur am HZSK, die an die zentrenbasierte Forschungsinfrastruktur CLARIN-D angebunden ist und deren zentrale Funktion die Sicherung der langfristigen Zugänglichkeit von Forschungsdaten ist. Um diese zu gewährleisten, wird das HZSK zunehmend als beratende Instanz im Rahmen von Forschungsprojekten in den Prozess der Ressourcenerstellung und -kuratierung einbezogen. Aus den sehr spezifischen Anforderungen dieser Projekte einerseits und der Notwendigkeit der Standardisierung und Generalisierung andererseits resultieren hohe Anforderungen an die zum Einsatz kommenden Workflows der Datenaufbereitung. Der Beitrag wird neben einer Vorstellung des Repositoriums des HZSK bereits vorhandene aber auch sich in der Entwicklung befindende generische Workflows zur Versionierung und Qualitätsüberprüfung von Forschungsdaten zum Gegenstand haben. |
12:45-13:30 | Diskussion und Wrap Up |