{"id":1006,"date":"2023-07-04T14:14:18","date_gmt":"2023-07-04T12:14:18","guid":{"rendered":"https:\/\/www.fid-bbi.de\/blog\/?p=1006"},"modified":"2023-11-30T08:03:10","modified_gmt":"2023-11-30T07:03:10","slug":"von-software-erkundung-bis-datenverwaltung-der-ocr-praxisworkshop-des-fid-bbi","status":"publish","type":"post","link":"https:\/\/www.fid-bbi.de\/blog\/index.php\/2023\/07\/04\/von-software-erkundung-bis-datenverwaltung-der-ocr-praxisworkshop-des-fid-bbi\/","title":{"rendered":"Von Software-Erkundung bis Datenverwaltung: Der OCR-Praxisworkshop des FID BBI"},"content":{"rendered":"\n<p>Samantha Tirtohusodo<\/p>\n\n\n\n<p>Am 8. und 9. Mai 2023 fand ein spannender Workshop zum Thema Optical Character Recognition (OCR) statt, der vom FID BBI organisiert wurde. Unter der Leitung von Florian Langhanki (Universit\u00e4t W\u00fcrzburg) erkundeten die Teilnehmer*innen die vielseitige OCR-Software OCR4all und hatten die M\u00f6glichkeit, eigene Projekte mitzubringen. Der Workshop war offen f\u00fcr sowohl OCR-Neulinge als auch erfahrene Nutzer*innen und bot einen schrittweisen Einblick in die verschiedenen Funktionen der Software. Vor dem abschlie\u00dfenden Diskussionspanel beantwortete Stefan B\u00fcdenbender (Hochschule Darmstadt) in einem interessanten Vortrag die Frage: &#8222;Was geschieht mit meinen Forschungsdaten, die ich in OCR4all erstellt habe?&#8220; und gab den Teilnehmenden einen Einblick in die Services des NFDI-Konsortiums <a href=\"https:\/\/www.text-plus.org\/\">text+<\/a>. <\/p>\n\n\n\n<p>Der Workshop begann mit einer einf\u00fchrenden Pr\u00e4sentation von Anna Lingnau vom FID BBI in Wolfenb\u00fcttel und Lena Hinrichsen von OCR-D. Die beiden Expertinnen vermittelten den Teilnehmer*innen ein grundlegendes Verst\u00e4ndnis von OCR und erl\u00e4uterten die Besonderheiten und Herausforderungen dieses faszinierenden Bereichs. Die einf\u00fchrende Pr\u00e4sentation legte den Grundstein f\u00fcr die weiteren Themen, mit denen sich die Teilnehmer*innen in den kommenden zwei Tagen intensiv besch\u00e4ftigen w\u00fcrden.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img src=\"https:\/\/www.ocr4all.org\/images\/about\/ocr4all\/workflow.png\" alt=\"Workflow\"\/><figcaption>Diese Grafik zeigt die einzelnen Schritte eines OCR-Verfahrens, die beim Tool OCR4all zur Anwendung kommen. (Quelle:\u00a0<a href=\"https:\/\/www.ocr4all.org\/about\/ocr4all\">About us \u2013 OCR4all<\/a>\u00a0[17.03.2023])<\/figcaption><\/figure>\n\n\n\n<p>Florian Langhanki, Projektmitarbeiter von OCR4all, \u00fcbernahm dann das Wort und f\u00fchrte die Teilnehmer*innen durch die verschiedenen Schritte der Software. Mit seiner fachkundigen Anleitung der OCR-Technologie konnten selbst Laien schnell erste Erfolge erzielen und die umfangreichen Funktionen der Software nutzen. Zu Beginn des Workshops hatten alle Teilnehmer*innen bereits vorbereitete Bilder ihrer Textdokumente zur Verf\u00fcgung. Schritt f\u00fcr Schritt wurden sie angeleitet, zun\u00e4chst eine Region-Segmentierung durchzuf\u00fchren, um die Textbereiche auf den Bildern zu identifizieren. Anschlie\u00dfend folgte eine Line-Segmentierung, bei der die einzelnen Textzeilen extrahiert wurden. Diese strukturierte Herangehensweise erm\u00f6glichte es den Teilnehmer*innen, die OCR4all-Software effektiv einzusetzen und die Grundlage f\u00fcr die Texterkennung zu schaffen. Durch diese praktische \u00dcbung konnten sie die verschiedenen Schritte des OCR-Prozesses verstehen und anwenden, um ihre eigenen Textdokumente erfolgreich zu bearbeiten. Ein bemerkenswerter Aspekt des Workshops war die M\u00f6glichkeit f\u00fcr die Teilnehmer*innen, die Ground Truth Production eigenst\u00e4ndig maschinell zu trainieren. Diese Funktion erlaubte es ihnen, die Genauigkeit und Qualit\u00e4t der OCR-Ergebnisse durch die Anpassung der Trainingsdaten und -parameter zu verbessern. Es war faszinierend zu sehen, wie die Teilnehmer*innen ihre Projekte voranbrachten und ihre eigenen Texterkennungsmodelle erstellten, um spezifische Anforderungen und Herausforderungen zu bew\u00e4ltigen. Diese praktische Erfahrung er\u00f6ffnete neue M\u00f6glichkeiten und verdeutlichte die Flexibilit\u00e4t und Anpassungsf\u00e4higkeit von OCR4all.<\/p>\n\n\n\n<h3>Diskussion: OCR-Daten als Forschungsdaten<\/h3>\n\n\n\n<figure class=\"wp-block-image\"><img src=\"https:\/\/forschungsdaten.info\/fileadmin\/kooperationen\/bwfdm\/fdm\/4-veroeffentlichung-archivieren\/FAIR.PNG\" alt=\"\"\/><figcaption>Graphik:<a rel=\"noreferrer noopener\" href=\"https:\/\/zenodo.org\/record\/3267168#.XykzZjVCQ2w\" target=\"_blank\">\u00a0Paulina Halina Sieminska\u00a0<\/a><em>\/\u00a0<\/em>Bearbeitung: Dr. Ilona Lang \/<a rel=\"noreferrer noopener\" href=\"https:\/\/creativecommons.org\/licenses\/by-sa\/4.0\/deed.de\" target=\"_blank\">\u00a0CC BY-SA 4.0<\/a><\/figcaption><\/figure>\n\n\n\n<p>Vor der Abschlussdiskussion bot Stefan B\u00fcdenbender von der Hochschule Darmstadt einen interessanten Einblick, wie Forschungsdaten, die mit OCR4all erstellt wurden, verwaltet werden k\u00f6nnen. Dabei wurden auch die Prinzipien der FAIR (Findable, Accessible, Interoperable, Reusable) und CARE (Collectability, Analyzability, Reusability, Ethics) diskutiert. B\u00fcdenbender betonte die Bedeutung der Datenmanagement-Praktiken und gab wertvolle Tipps zur effektiven Organisation und Archivierung von OCR-Projekten, unter Ber\u00fccksichtigung der FAIR- und CARE-Prinzipien.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" width=\"468\" height=\"498\" src=\"https:\/\/www.fid-bbi.de\/blog\/wp-content\/uploads\/image-18.png\" alt=\"\" class=\"wp-image-1009\" srcset=\"https:\/\/www.fid-bbi.de\/blog\/wp-content\/uploads\/image-18.png 468w, https:\/\/www.fid-bbi.de\/blog\/wp-content\/uploads\/image-18-282x300.png 282w\" sizes=\"(max-width: 468px) 100vw, 468px\" \/><figcaption>Das NFDI-Konsortium text+ widmet sich dem Erhalt text- und sprachbasierter Forschungsdaten und erm\u00f6glicht ihre breite Nutzung in der Wissenschaft. Abb.: <strong>T<\/strong>ext+ Pr\u00e4sentation bei der NFDI Konferenz 2020. URL: https:\/\/www.text-plus.org\/links-und-downloads\/ [04.07.2023].<\/figcaption><\/figure>\n\n\n\n<p>Ein zentrales Thema der Diskussion war die Frage der Nachnutzbarkeit und Interoperabilit\u00e4t der erstellten Daten. B\u00fcdenbender wies darauf hin, dass eine sorgf\u00e4ltige Dokumentation der OCR-Prozesse und der angewandten Einstellungen f\u00fcr die sp\u00e4tere Interpretation und Verwendung der Daten von entscheidender Bedeutung sei, im Einklang mit den FAIR-Prinzipien. <\/p>\n","protected":false},"excerpt":{"rendered":"<p>Samantha Tirtohusodo Am 8. und 9. Mai 2023 fand ein spannender Workshop zum Thema Optical Character Recognition (OCR) statt, der vom FID BBI organisiert wurde. Unter der Leitung von Florian Langhanki (Universit\u00e4t W\u00fcrzburg) erkundeten die Teilnehmer*innen die vielseitige OCR-Software OCR4all und hatten die M\u00f6glichkeit, eigene Projekte mitzubringen. Der Workshop war offen f\u00fcr sowohl OCR-Neulinge als&hellip; <a class=\"more-link\" href=\"https:\/\/www.fid-bbi.de\/blog\/index.php\/2023\/07\/04\/von-software-erkundung-bis-datenverwaltung-der-ocr-praxisworkshop-des-fid-bbi\/\">Continue reading <span class=\"screen-reader-text\">Von Software-Erkundung bis Datenverwaltung: Der OCR-Praxisworkshop des FID BBI<\/span><\/a><\/p>\n","protected":false},"author":3,"featured_media":0,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"https:\/\/www.fid-bbi.de\/blog\/index.php\/wp-json\/wp\/v2\/posts\/1006"}],"collection":[{"href":"https:\/\/www.fid-bbi.de\/blog\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.fid-bbi.de\/blog\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.fid-bbi.de\/blog\/index.php\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.fid-bbi.de\/blog\/index.php\/wp-json\/wp\/v2\/comments?post=1006"}],"version-history":[{"count":4,"href":"https:\/\/www.fid-bbi.de\/blog\/index.php\/wp-json\/wp\/v2\/posts\/1006\/revisions"}],"predecessor-version":[{"id":1012,"href":"https:\/\/www.fid-bbi.de\/blog\/index.php\/wp-json\/wp\/v2\/posts\/1006\/revisions\/1012"}],"wp:attachment":[{"href":"https:\/\/www.fid-bbi.de\/blog\/index.php\/wp-json\/wp\/v2\/media?parent=1006"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.fid-bbi.de\/blog\/index.php\/wp-json\/wp\/v2\/categories?post=1006"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.fid-bbi.de\/blog\/index.php\/wp-json\/wp\/v2\/tags?post=1006"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}