Abstracts und Materialien zur 1. sächsischen FDM-Tagung am 19.9.2019 (#SaxFDM19)

Grußworte

Dr. Jens Mittelbach ist studierter Anglist und Germanist. Er fungiert seit dem Jahr 2010 als Leiter der Abteilung Benutzung und Information der SLUB Dresden.
Dr. Lutz Bryja ist seit 12/2018 im Sächsischen Ministerium für Wissenschaft und Kultur (SMWK) Referatsleiter Grundsatzangelegenheiten der Forschung.

Aufzeichnung

Permanente Verfügbarkeit in der SLUB-Mediathek: http://mediathek.slub-dresden.de/vid90000867.html

Vorträge State-of-the-Art FDM in Sachsen und darüber hinaus

Forschungsdatenmanagement für die Geistes- und Sozialwissenschaften in CLARIN-D – Thomas Eckart

CLARIN ist eine europäische Forschungsinfrastruktur für Sprachressourcen in den Geistes- und Sozialwissenschaften. Auf Basis strukturierter Metadaten und einheitlicher Schnittstellen werden Daten und Services im Rahmen einer föderierten Infrastruktur angeboten und kontinuierlich weiterentwickelt. Ziel ist die Unterstützung der einzelnen Fachcommunities im gesamten Lebenszyklus von Forschungsdaten. Im Rahmen des Vortrages wird Aufbau und Zielsetzung des Projektes erläutert und genauer auf die verwendeten Strategien zur Beteiligung und Integration von Fachwissenschaftlern eingegangen.

Dr. Thomas Eckart  ist wissenschaftlicher Mitarbeiter am Institut für Informatik der Universität Leipzig und dort insbesondere in die Abteilung Automatische Sprachverarbeitung eingebunden. Er ist aktuell unter anderem an den Projekten Sprachdatenressourcen – Deutscher Wortschatz, multilinguale Corpora und Wörter-des-Tages sowie CLARIN-D beteiligt. 

Vortragsfolien

Aufzeichnung

Permanente Verfügbarkeit in der SLUB-Mediathek: http://mediathek.slub-dresden.de/vid90000870.html

Data Sharing als integraler Teil des Forschungsdatenmanagements – Toralf Kirsten

Daten sind als Grundlage neuer Erkenntnisse in vielen Wissenschaftszweigen nicht mehr wegzudenken; sie werden oftmals unter hohem Einsatz finanzieller und personeller Ressourcen erzeugt, analysiert und interpretiert sowie oftmals in Publikationen in verdichteter und un-terschiedlicher Form visualisiert. Dabei kommt zunehmend ihrer Verwaltung im Datenlebenszyklus eine hohe Bedeutung zu, hängen doch daran sowohl die Nachvollziehbarkeit als auch Reproduzierbarkeit von erzielten Ergebnissen. Die Dokumentation der Datenerzeugung wird schon seit längerer Zeit in Publikationen (Section Materials and Methods) notwendig. Dieser Ansatz greift jedoch zu kurz. Oftmals sind die der Publikation zugrundeliegenden Daten nicht verfügbar; im Supplement werden oftmals nur die in den Publikationen abgebildeten Abbil-dungen und Tabellen wiedergegeben sowie diejenigen, die dort keinen Platz mehr gefunden haben. Damit ist eine Nachvollziehbarkeit und Reproduzierbarkeit von Forschungsergebnis-sen nur bedingt möglich. Während das Sharing von Daten in einigen Wissenschaftsdisziplinen, wie z.B. Astronomie und Biodiversität, schon seit vielen Jahren gelebt wird, sind andere Disziplinen aktuell auf dem Weg, entsprechende organisatorische und technische Infrastrukturen zu etablieren, um das Data Sharing abzubilden. Dabei müssen oftmals nicht nur kulturelle Hürden in den jeweiligen Wissenschafts-Communities genommen werden, sondern auch rechtliche und ethische Be-denken ausgeräumt werden. Insbesondere wenn es um Daten geht, die einen Personenbezug aufweisen, sind in den letzten Jahren erhebliche Fortschritte gemacht worden. Dies bezieht sich sowohl auf die Umsetzung der FAIR Prinzipien als auch auf die die Daten beschreibenden Metadaten, Infrastrukturen für explorative Datenanalyse ohne direkten Datenzugriff als auch verteilte Infrastrukturen, die eine Analyse vornehmen ohne die Daten zuvor zusammenzuführen und damit wichtige Datenschutzaspekte abbilden. Im Rahmen des Vortrags geben wir aktuelle Beispiele aus den Bereichen der Epidemiologie, Medizin und Verbrechensbekämpfung

Prof. Dr. Toralf Kirsten hat seit 2018 den Lehrstuhl für Datenbanksysteme an der Hochschule Mittweida inne. Zuvor verantwortete er den IT-Bereich am LIFE Forschungszentrum für Zivilisiationserkrankungen der Universität Leipzig.

Vortragsfolien

Aufzeichnung

Permanente Verfügbarkeit in der SLUB-Mediathek: http://mediathek.slub-dresden.de/vid90000875.html

Integriertes Management und Publikation von wissenschaftlichen Artikeln, Software und Forschungsdaten am Helmholtz-Zentrum Dresden-Rossendorf (HZDR) – Edith Reschke, Uwe Konrad

„Mit dem Ziel, das Publizieren von Artikeln, Forschungsdaten und wissenschaftlicher Software gemäß den FAIR-Prinzipien (https://www.go-fair.org/fair-principles/) zu unterstützen, wurde am HZDR ein integriertes Publikationsmanagement aufgebaut. Insbesondere Daten- und Softwarepublikationen erfordern die Entwicklung bedarfsgerechter organisatorischer und technischer Strukturen ergänzend zu bereits sehr gut funktionierenden Services im Publikationsmanagement. In der Zusammenarbeit mit Wissenschaftlern des HZDR und internationalen Partnern in ausgewählten Projekten wurde der Bedarf an Unterstützung im Forschungsdatenmanagement analysiert. Darauf aufbauend wurde schrittweise ein integriertes System von Infrastrukturen und Services entwickelt und bereitgestellt. In einer seit Mai 2018 gültigen Data Policy wurden die Rahmenbedingungen und Regelungen sowohl für wissenschaftliche Mitarbeiter als auch für externe Messgäste definiert. Im Vortrag wird auf die Erfahrungen im integrierten Publikationsmanagement für Artikel, Forschungsdaten und Forschungssoftware eingegangen und daraus resultierend werden die nächsten Aufgaben und Ziele entwickelt.“

Dr. Uwe Konrad studierte Elektrotechnik in Leipzig und ist seit 2002 Leiter der IT und seit 2015 Leiter der Zentralabteilung Informationsdienste und Computing am HZDR. 
Edith Reschke studierte Bibliothekswissenschaft an der Humboldt-Universität zu Berlin. Seit 2003 ist sie die Leiterin der Bibliothek des Helmholtz-Zentrums Dresden-Rossendorf. Zu ihren Kernaufgaben gehören das Publikationsmanagement und die Entwicklung der dazu notwendigen Policies und Workflows. 

Vortragsfolien

Aufzeichnung

Permanente Verfügbarkeit in der SLUB-Mediathek: http://mediathek.slub-dresden.de/vid90000877.html

Mehr als Daten – Dokumentation des Erkenntnisprozesses am Beispiel von digitalen 3D-Rekonstruktionsprojekten – Markus Wacker

Forschungsdatenrepositorien repräsentieren zumeist nur das Ergebnis von Forschungsprozessen, nicht jedoch deren Genese. Fehlende Dokumentation der Rekonstruktionsprozesse und des darin enthaltenen Diskurses führen ebenfalls dazu, dass Wissen zu verworfenen Lösungen verloren geht. Auch hier stecken wertvolle Informationen, die im Laufe des Rekonstruktionsprozesses gesammelt wurden. Im Fall einer Änderung der Quellenlage oder Neubewertung herangezogener Quellen würde eine Dokumentation zunächst verworfener oder als nicht so plausibel eingestufter Quellen die Möglichkeit bieten, an den entsprechenden Stellen neu mit der Rekonstruktion anzusetzen und Teile des Erkenntnisgewinnprozesses idealerweise nachzunutzen.  Mit dem Online-Tool DokuVis wird der Ansatz verfolgt sowohl während der Projektbearbeitung als auch bei der Nachnutzung ein Werkzeug zur Verfügung zu stellen um die Erkenntnisprozesse und Ergebnisse transparent zugänglich zu machen und nachhaltig zu speichern. 
Im Anwendungsbeispiel von 3D-Rekonstruktionen ist eine zentrale Idee, dass der Austausch zwischen Modellierer und Experte direkt am 3D-Modell an den jeweiligen Problem- bzw. Diskussionsstellen erfolgt und somit dort verortet ist. Daher steht das entstehende 3D-Modell im Zentrum der Darstellung. Die Daten werden im Hintergrund konform zur Ontologie CIDOC CRM gehalten, aber aufgrund der zum Teil abstrakten Natur dieser Ontologie wird der Nutzer damit nicht konfrontiert. Letztendlich dient das Online-Tool DokuVis zum einen als Kollaborationswerkzeug für die Arbeit an dem Projekt und zum anderen als Forschungswerkzeug zur Exploration der Daten auch für extern Interessierte. 

Prof. Dr. rer. nat. Markus Wacker hat an der Fakultät Informatik/Mathematik der HTW Dresden die Professur für Computergrafik inne.

Vortragsfolien

Aufzeichnung

Permanente Verfügbarkeit in der SLUB-Mediathek: http://mediathek.slub-dresden.de/vid90000878.html

Management großer ingenieurwissenschaftlicher Datenmengen am Beispiel der numerischen Strömungsmechanik – Dorothea Iglezakis, Björn Selent

Die Leistungssteigerung der zur Verfügung stehenden Ressourcen im HPC-Bereich bietet die Möglichkeit, grundlegende Fragestellungen der Stömungsmechanik mit numerischen Werkzeugen (CFD) in hoher zeitlicher und räumlicher Auflösung zu untersuchen. Nicht selten werden eine Billion Datenpunkte (1 TB) pro Simulation gespeichert und verarbeitet. Dabei ist nicht von vornherein klar, welche Daten relevant für das Verständnis der physikalischen Prozesse sind. Daher werden im Lauf eines Forschungsprojektes hunderte bis tausende Simulationen durchgeführt, um den Einfluss einzelner Parameter zu untersuchen. Die reine Datenmenge kann durch geeignete Datenkompressionsalgorithmen reduziert werden. Es bleibt jedoch als wichtige und herausfordernde Aufgabe, wie diese Simulationen strukturiert verwaltet werden können, um Reproduzierbarkeit, Wiederauffindbarkeit und Übersichtlichkeit zu gewährleisten. Ebenso wichtig ist die anschließende Frage, wie Methodik, Verlauf und Ergebnisse des Forschungsprojektes langfristig gesichert und bei Bedarf geteilt werden können. Bisher ist eine Veröffentlichung der Daten in der Fachkultur nicht verankert und aufgrund der technischen Gegebenheiten nicht leicht zu bewerkstelligen.  Ausgehend von dieser Ausgangslage entwickeln Mitglieder des IAG in Zusammenarbeit mit den Infrastruktureinrichtungen der Universität Stuttgart einen Arbeitsprozess, in dem bereits direkt nach der Erzeugung der Daten automatisiert beschreibende Metadaten aus Log- und Inputfiles extrahiert und im Datenrepositorium DaRUS gespeichert werden. Das Repositorium basierend auf der Open-Source-Software DataVerse (https://dataverse.org) wird daher nicht – wie sonst üblich – in erster Linie für die Publikation, sondern vor allem für die lokale Verwaltung der Daten als Metadatenspeicher genutzt. Das dafür entwickelte Metadatenschema EngMeta ermöglicht eine detaillierte Beschreibung des Forschungsprozesses, des Forschungsgegenstandes und der zeitlichen und räumlichen Auflösung der Beobachtung. Durch die leichte Durchsuchbarkeit der beschreibenden Daten sollen wiederholte Fehlkonfigurationen vermieden werden (auch Negativergebnisse können gefunden werden) und vorhandene Daten vermehrt nachgenutzt werden. Neue Doktoranden können auf bestehenden Ergebnissen leichter aufsetzen und diese in ihrer eigenen Arbeit weiterverwenden. Nicht zuletzt sind die bereits beschriebenen Daten gut für eine Veröffentlichung und Archivierung vorbereitet. Für die Zukunft streben wir zudem klare Kriterien für die Auswahl, Qualitätskontrolle und Aufbewahrungsdauer der Daten an.

Björn Selent, Dipl.-Ingenieur für Luft- und Raumfahrttechnik, ist IT-Koordinator / Akademischer Mitarbeiter in der Arbeitsgruppe Grenzschichten am Institut für Aerodynamik und Gasdynamik der Universität Stuttgart. 
Dr. Dorothea Iglezakis ist akademische Projektmitarbeiterin an der Universitätsbibliothek Stuttgart im Kompetenzzentrum für Forschungsdaten der Universität Stuttgart (FOKUS). 

Vortragsfolien

Aufzeichnung

Permanente Verfügbarkeit in der SLUB-Mediathek: http://mediathek.slub-dresden.de/vid90000872.html

Impulsvortrag

Datenmanagementplan – Fluch oder Segen? – Andreas von der Dunk

Der Datenmanagementplan (DMP) ist die derzeit vielleicht bekannteste Manifestation des Forschungsdatenmanagements – von manchen als Segen begrüßt und von anderen als unnötige Mehrbelastung geschmäht. Der Vortrag geht kurz darauf ein, was ein DMP ist. Vor allem aber werden wir uns ansehen, wie ein DMP Forschenden die Arbeit erleichtern, die Qualität der Forschung erhöhen und das Risiko von reputationsschädigenden Datenpannen verringern kann – und warum die EU bei ihren Forschungsprojektanträgen deshalb die Erstellung eines DMP einfordert. An einigen praktischen Beispielen werden wir nachvollziehen, welche teils gravierenden Datenpannen durch einen DMP abgewendet werden können. Dazu geben wir Tipps, auf welche Intention die Fragen eines DMP, beispielsweise von der EU, abzielen. Durch den ganzen Vortrag wird sich die These ziehen, dass mehr Forschende in ihren Projekten mit einem DMP arbeiten sollten – und zwar nicht OBWOHL, sondern WEIL ihr Arbeitsalltag sich mit immer mehr administrativen Aufgaben zu füllen scheint.
Der Beitrag zur Datenmanagementplanung greift die Themen aus den vorangegangenen Präsentationen auf und schlägt die Brücke zur nachfolgenden Poster-Session und den Diskussionen an den Thementischen des World-Cafés. Als „Anschauungsobjekt“ dient dabei der Datenmanagementplan (DMP).

Dr. Andreas von der Dunk, studierter und promovierter Wirtschaftsgeograf und Geoinformatiker, ist Mitarbeiter des Teams Forschungsdatenmanagement an der SLUB Dresden. Er ist gleichzeitig Teammitglied der gemeinsamen Kontaktstelle Forschungsdaten der SLUB und des ZIH der TU Dresden, betrieben mit weiteren Partnern.

Vortragsfolien

Aufzeichnung

Permanente Verfügbarkeit in der SLUB-Mediathek: http://mediathek.slub-dresden.de/vid90000869.html

Poster

FoDaMa HTWD – Vernetztes FDM an HAW – Knut Schmidtke, Elfi Hesse, Juliane Baier (HTW Dresden)

Auf dem Poster erfolgt die Vorstellung des vom BMBF geförderten Projektes „Vernetztes Forschungsdatenmanagement an Hochschulen für angewandte Wissenschaften am Beispiel der HTW Dresden“. Der dem Projekt zugrundeliegende Vernetzungsgedanke ist der Idee geschuldet, dass nicht jede Institution (unabhängig von fachlicher Ausrichtung, Größe, Struktur und verfügbaren Personalressourcen) die gleichen Services aufbauen kann und muss. Zur Verdeutlichung wird der von OCLC in der Reportserie „The Realities of Research Data Management“ vorgestellte Handlungsrahmen und dessen einzelne Komponenten zur Etablierung von FDM‐Services an Hochschulen auf die HTW Dresden übertragen und grafisch dargestellt. Aufgrund der eigenen Erfahrungen beim Aufbau von FDM‐Services werden Empfehlungen für HAW aufgezeigt und in diesem Zuge das FDM‐Handbuch für HAW vorgestellt, welches zum Projektende im Herbst 2019 veröffentlicht werden soll, und die Projektergebnisse zusammenfasst. Neben der Erfahrungsdokumentation und den Empfehlungen zur Vorgehensweise wird das Handbuch auch eine Sammlung nachnutzbarer und hilfreicher Tools und Materialien beinhalten und somit den HAW eine Orientierung und Unterstützung beim Aufbau von Services im Bereich Forschungsdatenmanagement bieten.  

Forschungsdatenmanagement für die Geistes- und Sozialwissenschaften in CLARIN-D – Thomas Eckart (Uni Leipzig)

CLARIN ist eine europäische Forschungsinfrastruktur für Sprachressourcen in den Geistes- und Sozialwissenschaften. Auf Basis strukturierter Metadaten und einheitlicher Schnittstellen werden Daten und Services im Rahmen einer föderierten Infrastruktur angeboten und kontinuierlich weiterentwickelt. Ziel ist die Unterstützung der einzelnen Fachcommunities im gesamten Lebenszyklus von Forschungsdaten. Das Poster verdeutlicht in Ergänzung zum Vortrag den Aufbau und Zielsetzung des Projektes.

Der Leipzig Health Atlas – Frank Meineke et al. (Uni Leipzig / Hochschule Mittweida)

Die Notwendigkeit des Managements von Forschungsdaten ist von der Forschungscommunity erkannt – Sponsoren, Gesetzgeber, Verlage erwarten und fördern die Einhaltung der guten wissenschaftlichen Praxis, was nicht nur die Archivierung umfasst, sondern auch die Verfügbarkeit von Forschungsdaten- und ergebnissen im Sinne der FAIR-Prinzipien. Der Leipzig Health Atlas (LHA) ist ein Projekt zur Präsentation und zum Austausch eines breiten Spektrums von Publikationen, (bio) medizinischen Daten (z.B. klinisch, epidemiologisch, molekular), Modellen und Tools z.B. zur Risikoberechnung in der Gesundheitsforschung. Die Verbundpartner decken hierbei einen breiten Bereich wissenschaftlicher Disziplinen ab, beginnend von medizinischer Systembiologie über klinische und epidemiologische Forschung bis zu ontologischer und dynamischer Modellierung. Derzeit sind 18 Forschungskonsortien beteiligt (u.a. zu den Domänen Lymphome, Gliome, Sepsis, Erblicher Darm- und Brustkrebs), die Daten aus klinischen Studien, Patientenkohorten, epidemiologischen Kohorten, teilweise mit umfangreichen molekularen und genetischen Profilen, sammeln. Die Modellierung umfasst algorithmische Phänotypklassifizierung, Risikovorhersage und Krankheitsdynamik. Wir konnten in einer ersten Entwicklungsphase zeigen, dass unsere webbasierte Plattform geeignet ist, um (1) Methoden zur Verfügung zu stellen, um individuelle Patientendaten aus Publikationen für eine Weiternutzung zugänglich zu machen, (2) algorithmische Werkzeuge zur Phänotypisierung und Risikoprofilerstellung zu präsentieren, (3) Werkzeuge zur Durchführung dynamischer Krankheits- und Therapiemodelle interaktiv verfügbar zu machen und (4) strukturierte Metadaten zu quantitativen und qualitativen Merkmalen bereit zu stellen. Die semantische Datenintegration liefert hierzu die Technologien (Ontologien und Datamining Werkzeuge) für die (semantische) Datenintegration und Wissensanreicherung. Darüber hinaus stellt sie Werkzeuge zur Verknüpfung eigener Daten, Analyseergebnisse, öffentlich zugänglicher Daten- und Metadaten-Repositorien sowie zur Verdichtung komplexer Daten zur Verfügung. Eine Arbeitsgruppe zur Applikationsentwicklung und –validierung entwickelt innovative paradigmatische Anwendungen für (1) die klinische Entscheidungsfindung für Krebsstudien, die genetische Beratung, für Risikovorhersagemodelle sowie Gewebe- und Krankheitsmodelle und (2) Anwendungen (sog. Apps), die sich auf die Charakterisierung neuer Phänotypen (z.B. ‚omics‘-Merkmale, Körpertypen, Referenzwerte) aus epidemiologischen Studien konzentrieren. Diese Anwendungen werden gemeinsam mit klinischen Experten, Genetikern, Systembiologen, Biometrikern und Bioinformatikern spezifiziert. Der LHA stellt Integrationstechnologie bereit und implementiert die Anwendungen für die User Communities unter Verwendung verschiedener Präsentationswerkzeuge bzw. Technologien (z.B. R-Shiny, i2b2, Kubernetes, SEEK). Dazu ist es erforderlich, die Daten und Metadaten vor dem Hochladen zu kuratieren, Erlaubnisse der Datenbesitzer einzuholen, die erforderlichen SaxFDM Leipzig Health Atlas Seite 2 von 2 Datenschutzkriterien zu berücksichtigen und semantische Annotationen zu überprüfen. Zudem werden die zugelieferten Modellalgorithmen in einer qualitätsgesicherten Weise aufbereitet und, soweit anwendbar, online interaktiv zur Verfügung gestellt. Der LHA richtet sich insbesondere an die Zielgruppen Kliniker, Epidemiologen, Molekulargenetiker, Humangenetiker, Pathologen, Biostatistiker und Modellierer ist aber unter www.healthatlas.de öffentlich zugänglich – aus rechtlichen Gründen erfordert der Zugriff auf bestimmte Applikationen und Datensätze zusätzliche Autorisierung. Das Projekt wird über das BMBF Programm i:DSem (Integrative Datensemantik für die Systemmedizin, Förderkennzeichen 031L0026) gefördert.

Vom Remote Sensor zum Forschungsdatensatz: Automatisierte Datenflüsse am Helmholtz-Zentrum für Umweltforschung – Robert Günther, Thomas Schnicke, Jan Bumberger (UFZ Leipzig)

Hintergrund

Am Helmholtz-Zentrum für Umweltforschung – UFZ arbeiten Forschende an Fragestellungen, die sich u.a. mit den aktuellen Veränderungen des Klimas und dessen Auswirkungen auf die Landnutzung beschäftigen. Dazu werden an verschiedenen Orten eine Vielzahl unterschiedlichster Umweltparameter mit Sensoren erfasst. Diese Daten werden kontinuierlich erhoben, um die Veränderungen möglichst in Echtzeit zu beobachten (Monitoring). Teilweise kommen pro Beobachtungsort mehrere Hunderte solcher Sensoren zum Einsatz.
Die dafür eingesetzten Sensoren erfassen z.B. Bodenfeuchte, Niederschlagsmenge, Strahlungen und andere abiotische Kenngrößen. Damit die Daten (nach)nutzbar sind, müssen sie so aufbereitet und beschrieben werden, dass sie für nachfolgende Prozesse maschinen-lesbar bearbeitet werden können und in einer Form vorliegen, die eine Veröffentlichung nach den FAIR-Prinzipien ermöglicht.

Herausforderung

Die erhobenen Messdaten müssen nicht nur gesichert werden, sondern auch auf Plausibilität geprüft, prozessiert und mit hinreichender Detailtiefe beschrieben werden, damit sie nachfolgend den Forschenden für die Beantwortung ihrer Forschungsfragen als Grundlage zur Verfügung stehen. Eine Herausforderung dabei ist, dass die Daten kontinuierlich als Datenstrom anfallen. Folglich müssen Prozesse wie die strukturierte Ablage, die Anreicherung mit Metadaten sowie Prüfung auf Fehlmessungen (sog. Qualitätssicherung) automatisiert werden. Aufgrund der Heterogenität der Sensoren (unterschiedliche Hersteller stellen Daten in unterschiedlichen Formaten zur Verfügung) muss bei diesen Prozessen auch eine Formatumwandlung erfolgen. Darüber hinaus sind je nach Messgröße und -verfahren verschiedene Methoden zur Plausibiläts- und Qualitätsprüfung anzuwenden.

Lösungsansatz

Das Research Data Management Team des UFZ hat gemeinsam mit der IT-Abteilung einen Daten-Workflow entwickelt, der die unterschiedlichen Daten automatisch zusammenführt, sichert und nach einem vordefinierten Schema mit Metadaten anreichert.

Der Einsatz des Workflows wird exemplarisch anhand von aktuellen Forschungsprojekten vorgestellt und die darin enthaltenen Schritte detailliert beschrieben, wobei auch auf die technische Umsetzung eingegangen wird.
Insbesondere werden die Komponenten zur Datenstrukturierung und semiautomatischen Qualitätssicherung vorgestellt, bei denen auch Methoden des Machine Mearning zum Einsatz kommen. Innerhalb des Workflows können die prozessierten Daten nach verschieden Verfahren aggregiert und weiterverarbeitet werden. Das geschieht u.a. über definierte Schnittstellen zu internen und externen Services (z.B. durch Bereitstellung als Sensor Observation Service (SOS) oder mittels einer API).

Fazit

Die im Rahmen des hier vorgestellten Workflows entwickelten Prozesse und Komponenten zum automatisierten Management von Forschungsdaten bilden eine wichtige Grundlage für das Forschungsdatenmanagement am UFZ. Durch die modulare Ausgestaltung können die Komponenten an den Bedarf der Forschenden angepasst werden und sind auch für Szenarien geeignet, in denen die Messdaten nicht als Datenstrom anfallen.

Mit diesem Workflow ist die Voraussetzung geschaffen, die am UFZ erhobene Daten auch als Linked Data der wissenschaftlichen Community und anderen Stakeholdern zur Verfügung zu stellen.

Datenmanagement im Rahmen eines Transregios an der Universität Leipzig, der TU Chemnitz und des Leibniz Instituts für Oberflächenmodifizierung e.V. (IOM) – Stefan Zahn, Stefan Kühne, Stephan Frenzel (Uni Leipzig / Leibniz IOM)

Im Rahmen eines Transregios soll ein nachhaltiges Datenmanagement an der TUChemnitz, der Universität Leipzig sowie am Leibniz Institut für Oberflächenmodifizierung e.V. (IOM) etabliert werden. Eine Besonderheit des Transregios “Spin-Maschinen“ ist die interdisziplinäre Aufstellung mit Projektleitern aus den Fachbereichen Physik, Chemie, Biologie und Medizin, für die ein gemeinsames Konzept entwickelt werden soll. Hierbei soll vorhandene Open Source Software verwendet und weiterentwickelt werden. Dies gewährleistet ein Datenmanagement, welches den FAIR-Prinzipien folgt, als auch langfristig kostenfrei zugänglich ist. Dabei wird sich an bereits vorgeschlagenen Standards von NFDI4Chem, FAIRmat und NFDI4cat orientiert.

Unter anderem soll open enventory als elektronisches Labortagebuch eingeführt werden. Insbesondere in synthetisch arbeitenden Gruppen bietet dieses erhebliche Vorteile. Zusätzlich sollen neue Standards in der Digitalisierung von Forschungsrohdaten umgesetzt werden. Als Beispiel sei die NMR Spektroskopie genannt, wo man sich an der NMReDATA Initiative orientiert. Diese hat bereits ein einheitliches Datenformat vorgeschlagen, welches als Standard am Magnetresonanzzentrum in Leipzig eingeführt werden soll. Schließlich soll die Teamkommunikation und Ausbildung über den Einsatz von Teammessangern (Mattermost) sowie e-learning Platformen (Moodle und Mahara) verbessert werden.

Die Kontaktstelle Forschungsdaten für die TU Dresden – Johannes Sperling et al. (SLUB Dresden / ZIH TU Dresden)

Die Kontaktstelle Forschungsdaten für die TU Dresden bietet seit 2017 umfangreiche Unterstützung rund um das Thema Forschungsdaten für die Forschenden an. Sie ist eine Kooperation der Sächsischen Landesbibliothek – Staats- und Universitätsbibliothek Dresden, des Zentrums für Informationsdienste und Hochleistungsrechnen, des Institut für Geistiges Eigentum, Technik- und Medienrecht (IGETeM) der Juristischen Fakultät und weiteren Partnern. Beratung wird sowohl für einzelne Forschende als auch Gruppen angeboten. Das Themenspektrum umfasst dabei die gesamte Breite des Datenlebenszyklus – von Datenmanagementplanung bis Publikation. Seit Anfang 2019 wird auch konkrete
Implementierungsunterstützung angeboten. Forschende können sich mit Projekten bewerben und bekommen für einen begrenzten Zeitraum einen Wissenschaftler und Fachinformatiker an die Seite, der sie bei der Umsetzung ihres FDM praktisch unterstützt. Weiterbildung und Trainings sind das dritte Standbein der Kontaktstelle, um FDM im Forschungsalltag zu etablieren.

Data Sharing als zentraler Baustein des Forschungsdatenmanagement am Beispiel des LIFE
Forschungszentrums der Universität Leipzig – Kirsten et al. (HS Mittweida / Uni Leipzig)

Das Forschungsdatenmanagement (FDM) hat mit der Zunahme an erzeugten und zu sammelnden Daten in den letzten Jahren erheblich an Bedeutung gewonnen. Davon zeugen nicht nur die Bemühungen an einzelnen Institutionen und Einrichtungen, z.B. mit der Einrichtung zentraler Organsiationseinheiten zum FDM, sondern ebenso einrichtungsübergreifende nationale Aktionsbündnisse und Initiativen. Zu diesen zählen bspw. die Medizininformatik Initiative des BMBF und die DFG gesteuerte Initiative zum Aufbau nationaler Forschungsdateninfrastrukturen (NFDI) für verschiedene Wissenschaftsdomänen und zum Anschluß an die European Open Science Cloud. Inhärentes Interesse aller dieser Bemühungen ist neben der Langzeitarchivierung der Forschungsdaten den Zugang zu den Daten für interessierte Wissenschaftler zu ermöglichen. Damit werden die Daten von dritter Seite überprüfbar, das Vorgehen zur Auswertung und Publikation von gewonnenen Ergebnissen leichter nachvollziehbar und zur Beantwortung weiterer Fragestellungen nutzbar. Dies bedingt jedoch eine organisatorische Infrastruktur, die den Zugang zu Daten entsprechend gesetzlicher Vorschriften (z.B. Datenschutz von personenbezogenen Daten), ihre Verwendung und die Beteiligung der insbesondere am Datenerzeugungsprozess beteiligten Wissenschftler prüft und würdigt. 

Am LIFE Forschungszentrum für Zivilisationserkrankungen der Universität Leipzig werden seit 2009 verschiedene epidemiologische Studien durchgeführt, in denen Probanden und Patienten, entweder aus der Leipziger Bevölkerung oder aus den Leipziger Kliniken, rekrutiert und untersucht werden. Die dabei entstehenden Daten werden in einer zentralen Forschungsdatenbank annotiert zusammengefasst, einem Kontrollprozess (Data Cleaning) unterzogen und Kurationen durchgeführt. Die Menge der aufzunehmenden Daten (derzeit studienübergreifend mehr als 55.000 Datenelemente) und ihre Heterogenität in der Entstehung bedingt eine organsatorische Aufgabenteilung. Dem Open Archival Information System (ISO 14721:2012) als Referenzmodell folgend wurden am LIFE Forschungszentrum (LIFE FZ) eng verzahnte Arbeitsgruppen eingerichtet, die die Daten entgegennehmen, intern aufbereiten und zusammenfassen sowie die Datenherausgabe organisieren und durchführen. Die zeitlich befristete Datennutzung basiert auf einem umfassenden Regelwerk (Use&Access Regularien), das Grundlagen der Nutzung, Rechte und Pflichten sowie Haftungsansprüche der Datennutzer und des LIFE FZ festschreibt. Demnach muss jedwede Datennutzung formal beantragt werden. Die Anträge werden von der Transferstelle am LIFE FZ entgegengenommen und zur Begutachtung an das zentrale Use&Access Board weitergeleitet, die über dessen Annahme entscheidet. Bislang wurden mehr als 500 Anträge zur Auswertung der am LIFE FZ gesammelten Daten eingereicht und bewilligt. Die Anträge stammen nicht nur von an den epidemiologischen Studien beteiligten Wissenschaftlern sondern generieren sich aus Fragestellungen von Wissenschaftlern der gesamten Leipziger Universitätsmedizin. Firmenkooperationen, z.B. zur Ableitung von Normwertbereichen in Bezug auf Laborwerte oder die zur Durchführung einer Studie überlassenen Gerätschaften, sind dabei ebenso eingeschlossen, bedingen jedoch einen Wissenschaftler der Leipziger Universitätsmedizin (oftmals einer Studie selbst) als Bindeglied sowie entsprechende vertragliche Vereinbarungen. 

Aufbauend auf den am LIFE Forschungszentrum etablierten organisatorischen und technischen Strukturen sowie Prozessen werden die in Studien gesammelten Daten verwahrt und bleiben so für längere Zeit interessierten Wissenschaftlern in einem kontrollierten Prozess zugänglich. Davon profitieren nicht nur die die Daten auswertenden Wissenschaftler sondern über die Beteiligung an den Auswertungsprojekten die Initiatoren und verantwortlichen Wissenschaftler der Studien selbst. Dadurch konnten mehrere Kooperationen zu weiteren Wissenschaftlern innerhalb und außerhalb der Leipziger Universitätsmedizin sowie Firmenkooperationen aufgebaut werden. Zudem hat sich die Geschwindigkeit des Erkenntnisgewinns (in Form von Publikationen) erhöht. 

LIFE Metadaten Repository – Mapping-basierte Integration von Forschungsdaten am LIFE
Forschungszentrum – Matthias Rühle et al. (Uni Leipzig / HS Mittweida)
 

Am LIFE Forschungszentrum der Universität Leipzig werden verschiedene epidemiologische Studien geführt, die darauf abzielen, Prävalenzen und Merkmale von häufigen Erkrankungen in zivilen Gesellschaften zu finden. Dazu werden Personen aus der Leipziger Bevölkerung (Probanden) und Patienten Leipziger Krankenhäuser mit dedizierten Erkrankungen rekrutiert und umfassend untersucht. Jede dieser Personen mit einem speziellen Untersuchungsprogramm entsprechend dem Studien-Design assoziiert, das aus verschiedenen Fragebögen, Interviews, gerätebezogene Untersuchungen und Probenentnahmen (z.B. Blut und Urin) besteht. Die Daten jeder Untersuchung werden personenspezifisch erfasst. Dazu stehen verschiedene, jeweils an die Erfassungssituation und die individuellen Fähigkeiten des Erfassers / Patienten / Probanden angepasste Eingabeformulare in ausgewählten Informationssystemen zur Verfügung. Während computeraffine Probanden und Patienten die Fragebögen online direkt im Eingabesystem beantworten können, verwenden andere Personen papierbasierte Erfassungbögen oder Eingabeformulare mit vielen Grafiken (vorallem Personen im Vorschulalter). Dadurch ist ein Eingabeformular evtl. in verschiedenen Ausprägungen und in mehreren Eingabesystemen verfügbar. Darüber hinaus ist zu beachten, dass die Studien teilweise mehrere Jahre laufen und sich in dieser Zeit Anpassungen in dem Befragungsprogramm und den Eingabeformularen ergeben können. Demnach können den Eingabeformularen neue Fragen und Eingabefelder hinzugefügt werden, während bei anderen der Fragetext sowie die zugeordneten auswählbaren Antworten (Antwortkategorien, Code-Liste) geändert oder ganz entfernt werden. Im Ergebnis entstehen verschiedene digitale Abbilder eines Eingabeformulars, die vor der Auswertung der aufgenommenen Daten zusammengefasst und harmonisiert werden müssen.

Am LIFE Forschungszentrum wird der Datenintegration mit einem Mapping-basierten Ansatz begegnet. Alle Datenelemente der verschiedenen Eingabeformulare werden dazu in einem Metadaten Repository aufgenommen und entsprechend annotiert. Mappings bestimmen die Abbildung des Datenformats (Datenschema) der Eingabeformulare in den dedizierten Eingabesystemen auf das Schema der zentralen Forschungsdatenbank. In den Mappings können verschiedene Transformationen eingebunden werden, die bspw. die Konvertierung von Daten in einen vom Eingabesystem verschiedenen Datentyp in der Forschungsdatenbank vornehmen. Sie bestimmen somit den ETL Prozess (Extraktion, Transformation, Laden). Die Mappings werden mit einem innovativen Algorithmus automatisiert erzeugt und stehen im Anschluss für eine Überprüfung und ggfs. Anpassung durch das Domänenpersonal (entweder zentrales Datenmanagement oder geschultes Studienpersonal) zur Verfügung bevor sie in den produktiven Einsatz übergehen.

Der Algorithmus nutzt alle verfügbare Metadaten, z.B. Fragentexte und Parameternamen, Datentypen und Wertebereiche sowie Code-Listen (kategorialer Antwortvorrat) um Eingabeformulare aufeinander abzubilden. Das Ziel ist, das Wissens aus bestehenden Mappings wiederzuverwenden und in die Erstellung von neuen Mappings einzubeziehen.

Am LIFE Forschungszentrum wird das Metadaten Repository und der Algorithmus zur Erzeugung der Mappings seit 2012 zur Integration der Studiendaten verwendet. Bislang sind ca. 2000 Mappings für ca. 650 Eingabeformulare erzeugt worden.

Archivierung und Publikation digitaler Forschungsdaten mit OpARA – Christian Löschen et al. (ZIH TU Dresden)

Für Wissenschaftler der Technischen Universitäten Dresden und Bergakademie Freiberg, die ihre Forschungsdaten archivieren und publizieren möchten, steht seit Anfang 2018 der Dienst OpARA (Open Access Repository and Archive) als institutionelles Repositorium zur Verfügung. Wissenschaftler haben hier die Möglichkeit, ohne zusätzliche Kosten die Anforderungen der Guten Wissenschaftlichen Praxis an die langfristige sichere Aufbewahrung von Forschungsdaten (Archivierung über mindestens zehn Jahre) unkompliziert zu erfüllen. Der Dienst OpARA wird von den Rechenzentren der beiden Universitäten gemeinsam betrieben, die Daten werden lokal archiviert und optional publiziert. Vor der Archivierung findet ein Begutachtungsprozess statt, um die fachliche und technische Qualität der Daten zu gewährleisten. Es wird dabei insbesondere die Dokumentation und Aufbereitung für Daten, die publiziert werden sollen, unter dem Aspekt einer guten Nachnutzbarkeit beurteilt und bei Bedarf unterstützt.

Forschungsdateninfrastruktur zur Flächennutzung in Deutschland – der IÖR-Monitor – Gotthard Meinel, Tobias Krüger (Leibniz IÖR Dresden)

Ziele

  • Bereitstellung von Informationen zur Flächennutzungsentwicklung Deutschlands und damit in Zusammenhang stehender Themen für Wissenschaft, Politik, Verwaltung, Wirtschaft und Öffentlichkeit
  • Themenspektrum: Siedlung, Verkehr, Freiraum, Nachhaltigkeit, Bevölkerung, Zersiedelung, Gebäude, Landschafts- und Naturschutz, Landschaftsqualität, Ökosystemleistungen, Risiko, Energie, Materiallager und Relief
  • Quantitative indikatorbasierte Beschreibung der Entwicklung im Internet in Form von Karten, Wertetabellen, Diagrammen und Geodiensten für administrative Gebietseinheiten sowie Rastergeometrien mit hoher Auflösung
  • Zusammenfassende Analyseberichte und Entwicklungsbewertungen

Datenbasis

  • Geobasisdaten: Amtliches Topographisch-Kartographisches Informationssystem ATKIS (Basis-Landschaftsmodell), Digitales Landbedeckungsmodell (LBM-DE), digitalisierte topographische Karten 1:25 000 (TK25), Hausumringe (HU-DE), georeferenzierte Adressdaten (GA), 3D-Gebäudemodelle (LOD1/2-DE)
  • Geofachdaten: Schutzgebiete des Landschafts- und Naturschutzes, (BfN), Über-schwemmungsgebiete (Landesbehörden), Bodenversiegelung (EEA)
  • Statistikdaten: Bevölkerungs-, Verkehrs-, Wirtschafts- und Finanzdaten (Statistisches Bundesamt, Statistische Ämter der Länder)

Methode

  • Quantitative Charakterisierung des Zustandes und der Veränderung der Flächen-nutzung durch Berechnung flächenbezogener Indikatorwerte
  • Nutzung von großmaßstäbigen Geobasis- und Geofachdaten als Berechnungsgrund-lage
  • Bezug auf administrative Gebietseinheiten (Länder, Kreise, Gemeindeverbände, Ge-meinden), Raumordnungsregionen, Stadtteile und Rasterzellen bis 100 m Rasterweite für das terrestrische Staatsgebiet der Bundesrepublik
  • Berücksichtigung des ATKIS-Datenalters nach Kacheln bzw. Kartenblättern durch Be-rechnung und Visualisierung der mittleren Grundaktualität für jede Gebietseinheit
  • Verknüpfung mit statistischen Merkmalen
  • Anwendung von Aggregations- und Disaggregationsverfahren

Umsetzung

  • Internetbasiert Anwendung mit eigenprogrammierter Geoviewer
  • Datenhaltung in PostgreSQL/mySQL
  • Indikatorwerte für alle administrativen Einheiten vom Bund bis zur Kommune sowie Stadtteilebene, Rasterdaten bis 100m Rastergröße
  • Usability-Optimierung mit der Erkenntnissen aus einer Eyetracker-Studie
  • Angebot von 83 WFS, 41 WCS und 41 WMS-Diensten über GeoMIS-Sachen und Geoportal.de

Forschungsdaten der Geisteswissenschaften zum östlichen Europa und deren Management – Moritz Kurzweil, Thomas Skowronek (Leibniz GWZO)

Das GWZO möchte mit seinem Poster auf seine Aktivitäten im Bereich FDM aufmerksam machen und nach Möglichkeit Forschende der am GWZO betriebenen Disziplinen für das Thema sensibilisieren und interessieren, weil dies nach seiner Erfahrung in den Geisteswissenschaften leider immer noch oft notwendig ist.
Dafür ist vorgesehen, auf etwa einem Drittel des Posters einen Überblick über die Disziplinen und (derzeit) üblichen, meist qualitativen Daten am GWZO sowie die bisherige Planung und Struktur des FDM am GWZO (Definitionen und Richtlinien) zu geben und Erfahrungen aus einer Umfrage und ersten Antrags- und Projektberatungen vorzustellen. Sofern es die Gestaltung zulässt, wird in diesem Teil die am GWZO in seinem Teilprojekt der „Virtuelle[n] Archive für die geisteswissenschaftliche Forschung“ aufgebaute Expertise mit einfließen. Ein zweiter etwa ebenso großer Abschnitt soll für die zukünftigen Planungen am GWZO sowie für die Skizze einer „idealen“ Vorstellung von digitalem Datenmanagement im geisteswissenschaftlichen Forschungsprozess zur Verfügung stehen. In einem dritten Teil möchte das GWZO seine Vernetzungsaktivitäten und Kooperationen sowie seinen Anteil am DFG-Verbundprojekt OstData darstellen, welches über die Grenzen des Freistaats ausgreift und zentrale Akteure der deutschen Osteuropaforschung -auch mit weiteren Fachdisziplinen- zusammenbringt.

Daten für Medizinische Forschung: Das Datenintegrationszentrum des Universitätsklinikums Leipzig – Thomas Wendt et al. (Uniklinikum Leipzig / Uni Leipzig)

Das IPF und seine Forschungsdaten im Verbund der Nationalen Forschungsdateninfrastruktur – Ulrich Seltmann, Ron Dockhorn (Leibniz IPF)