Cybercrime | Ermittlungen | TK & Internet | Literatur | intern | Impressum |
Archivierung | |||
gegen das digitale Vergessen |
archivfeste Formate | ||||||||
Die Mahnung ist nicht neu und wird dadurch auch nicht falsch. Ich habe einen USB-Stick (2), der seit sechs Jahren solide speichert und gelesen werden kann. Er trägt einen aus der Musikbranche bekannten Markennamen. Ein anderer, preisgünstiger, gab seinen Geist nach ein paar Monaten auf. Ein dritter überlebte in der Hosentasche meines Sohnes einen Waschgang - kurzfristig. CDs und DVDs (3) sind mit organischem Material beschichtet, in das der Laser des Brenners Vertiefungen einbrennt. Je nach Feuchtigkeit, Licht und Wärme der Umgebung verändert sich die Oberfläche. Selbst die ersten industriell gefertigten CDs, die ohne Biomaterial mit erheblich leistungsfähigeren Geräten hergestellt wurden, sind heute nicht mehr lesbar. Die pingeligsten Testformate waren die frühen von Word. Adobe's PDF (4), die Grafikkompression von JPG (5) und von vielen anderen Multimediaprogrammen stehen dem in nichts nach. Sie brauchen "ihr" Programm (Editor) und lassen sich von keinem anderen lesen. |
Zwei Lehren aus der Vergangenheit verheißen einen Lichtblick. Eine ist alt und wurde in speziellen katholischen Klöstern gepflegt: Kopieren und aktualisieren. Beim Aktualisieren wurde häufig leider auch interpretiert, so dass die Quellenrichtigkeit auch unter diesem Gesichtspunkt geprüft werden muss. Sei es drum. Wegen der digitalen Überlieferung kann man nur zwei Ansätzen eine echte Zukunftssicherheit zusprechen. Obwohl ich mich lange dagegen ausgesprochen habe: Die Archivare haben recht. Bilder sollten in einem sklavisch pixelgenauen Format (TIFF, 6) überliefert werden. Es garantiert, dass jeder einzelne Bildpunkt genau definiert und wieder realisiert werden kann. Das ermöglicht es auch künftigen Programmen, die Informationen zu rekonstruieren. Schwieriger ist das bei Texten. Ganz schlimm ist das PDF-Format (2). Ihm geht es um Druckgetreue und um die spiegelbildliche Wiedergabe papierner Dokumente. Dazu ist es genial. Um den textlichen Inhalt kümmert es sich wenig. Spaltenweise aufgebaute Dokumente interpretiert es lustig durcheinander und platziert Informationsinselchen gerne 'mal irgendwo hin. Vor Jahren sollte eine Langzeitversion entwickelt werden, von der ich lange nichts mehr gehört habe. |
|||||||
Dagegen ist XML (7) ein revolutionäres Konzept. Es trennt Inhalt und Form und lässt sich dadurch eine langfristige Hintertür offen. Selbst wenn künftige Interpreten nicht mehr wissen, was eine Überschrift oder die Fettschrift sind, bleibt davon der Container mit dem schieren Text unberührt. Er enthält nur Text. Wenn der einfache Code (ASCII; 8) für die Textinterpretation erhalten bleibt, dann bleibt sein Informationsgehalt auch dauerhaft lesbar oder wenigstens - wegen seiner Einfachheit - entschlüsselbar.
Die klassischen Lehren aus den überlieferten Quellen alten Wissens sind
noch lange nicht in der digitalen Welt realisiert worden: Einfache
Zeichen, die auch künftige Generationen durch Logik verstehen können,
und dauerhafte Informationsträger. |
(1) Rasante Entwicklung gefährdet digitale Daten, tecchannel 16.02.2008 (3) Compact Disc, Digital Video Disc (4) Adobe Systems, Portable Document Format (5) JPEG File Interchange Format (6) Tagged Image File Format - TIFF |
|||||||
Weltkulturerbe im Leibniz-RZ | ||||||||
In einer bereits seit 2005 bestehenden Kooperation mit der Bayerischen Staatsbibliothek - BSB - (siehe auch Googlen in Bayerischer Staatsbibliothek) soll jetzt ein Bibliothekarisches Archivierungs- und Bereitstellungssystem - BABS - in Betrieb genommen werden, das die Landzeitarchivierung digitaler Schriftwerke sichern soll. Innerhalb
der zweijährigen Projektlaufzeit von BABS wurden mehr als 19 Millionen
Objekte mit einem Datenvolumen von über 36 TByte digitalisiert und im
Archivsystem des LRZ gesichert. Die BSB verfügt somit über eines der
größten und am schnellsten wachsenden elektronischen Langzeitarchive in
Deutschland. |
Bernd
Reiner, Sicherung des Weltkulturerbes am
Leibniz-Rechenzentrum, tecchannel 18.12.2007 |
|||||||
Handlungsleitfaden | ||||||||
Am Anfang steht die qualitative Bestimmung der Dokumente, die archiviert werden sollen. Der Leitfaden benennt dazu eine Reihe von gesetzlichen Aufbewahrungsvorschriften, die jedenfalls dann greifen, wenn von der körperlichen zur digitalen Archivierung übergegangen werden soll (Seite 13). Maßgebend sind drei Ziele der Archivierung (Seite 15):
|
Wirtschaftsministerium gibt Leitfaden zur rechtssicheren Archivierung heraus, Heise online 13.04.2007 Handlungsleitfaden zur Aufbewahrung elektronischer und elektronisch signierter Dokumente, BMWi August 2007
|
|||||||
Informations- und Wissensmanagement | ||||||||
Die Zugangsregelung berührt nur einen wenn auch wichtigen Teil der Fragen zur Informationsverwaltung. Im Hinblick auf das Informationsmanagement ist die Verfügbarkeit der Informationen angesprochen. Mit Suchmaschinen, Datenbanken und standardisierten Schlagworten können inhaltliche Kombinationen erstellt werden, durch die die Informationsmenge erst sinnvoll genutzt werden kann. Während das Informationsmanagement im Schwerpunkt die Vertraulichkeit,
die Zugangsregeln und die Erleichterung des Zugriffs auf Informationen
betrifft, geht das Wissenmanagement einen Schritt weiter. Es hat den
hohen Anspruch, Prozesse einzurichten, die die Sammlung und
Dokumentation des Mitarbeiterwissens sichern, Standards für die
Datenqualität einzurichten und schließlich Methoden für die optimale
Datenauswertung und Kombination unterschiedlicher Datenquellen
einzuführen. |
Eine gute Planung, Umsetzung und Ablaufkontrolle (Revision) sind deshalb die obersten Gebote. Erica Naone, Organisationstalent für den Schreibtisch, Technology Review 09.01.2008
Ben
Schwan, Das nützliche Ignorieren, Technology Review
28.04.2008 |
|||||||
Data Mining: Auswertung von Daten | ||||||||
Der zweite Teil widmet sich dem Datenmanagement (5), die dritte, am 16.04.2008 gestartete Staffel den BI-Methoden (5a) und die vierte seit dem 05.062008 den Berichtsmethoden (5b). Das Datenmanagement stellt Klaus Manhart mit praktischen Beispielen für die Methoden des Data Minings vor (6): Eine datenbanktypische Methode ist die Ad-Hoc-Analyse mit dem
Online Analytical Processing - OLAP (7). Dazu
werden die Daten
in einem
multidimensionalen Datenwürfel, dem „Cube“, präsentiert. Auf diese Weise
lassen sich die Daten aus unterschiedlichen Perspektiven und
Detaillierungsstufen betrachten. |
Bei der Assoziationsanalyse werden Regeln entwickelt, die beschreiben, wie Datentypen zueinander in Beziehung stehen (z.B. Geschlecht - Alter - Einkommen). (8) Die Clusteranalyse klassifiziert (hingegen) eine Datenmenge in verschiedene Teilmengen, die sich jeweils ähnlich sind. Die Ähnlichkeiten der Objekte innerhalb einer Kategorie sollen möglichst groß, zwischen den Kategorien gering sein. (8) Ein schönes Beispiel:
Banken können mit neuronalen Netzen aus
bereits abgewanderten Kunden Merkmale extrahieren, die diese gemeinsam
haben. Selektiert man über diese Faktoren Kunden des aktuellen
Kundenbestands, erhält man die aktuell abwanderungsgefährdeten Kunden.
Diese können dann gezielt „umsorgt“ werden. (8) |
|||||||
(2)
Grundlagen, 27.11.2007 (3) Otto Neuer, Was ist eigentlich Datenintegration? 24.07.2007; besonders Seite 4: ETL: Extract - Transform - Load |
(6) Klaus Manhart, BI-Analysemethoden OLAP und Data Mining, 21.03.2008 (7) siehe (6), Seite 2: Ad-Hoc-Analyse: OLAP (8) siehe (6),
Seite
3: Data Mining – nach Mustern schürfen |
|||||||
|
digitale Weltbibliothek | ||
"Digitale Weltbibliothek": Mehr als 1,2 Millionen Bücher digitalisiert und ins Internet gestellt, Heise online 27.11.2007 Ziel der Weltbibliothek ist, möglichst alle Bücher zu digitalisieren. Vor dem Jahr 1900 seien dies nur etwa 10 Millionen, insgesamt etwa 100 bis 300 Millionen. Das größte ungelöste Problem sind die Urheberrechte an den aktuellen
Werken. Siehe auch
digitales
Vergessen. |
|
|
Googlen in Bayerischer Staatsbibliothek | ||
|
Klaus Ceynowa, Eine Million Bücher kostenlos online. Google digitalisiert Bücher der Bayerischen Staatsbibliothek, tecchannel 08.11.2007 Die Kooperation hat tatsächlich für beide Partner Vorteile. Google trachtet schon länger danach, wissenschaftliche und literarische Werke zu digitalisieren, um die Qualität und Menge seiner Suchergebnisse zu vergrößern. Hinzu kommt, dass sich Google dadurch exklusiv von konkurrierende Suchmaschinen abheben kann, weil die digitalisierten Druckwerke nicht woanders im Internet verfügbar sind. Die
Bayerische Staatsbibliothek hat auch die Aufgabe, ihre Bestände nicht
nur barrierefrei, also besonders auch für Sehbehinderte, zur Verfügung
zu stellen, sondern überhaupt vor Zerfall dauerhaft zu sichern. |
Drei Aspekte lassen das Projekt als besonders interessant erscheinen: 1. Es sollen besonders auch Handschriften digitalisiert werden. Deren elektronische Aufbereitung macht für Google nur Sinn, wenn sie nicht als Grafiken zur Verfügung stehen, sondern tatsächlich als binärer Code, der suchmaschinengeeignet ist. Das ist durchaus eine anspruchsvolle Aufgabe. 2. Schon jetzt leistet die Bayerische Staatsbibliothek mit ihrem seit Jahren laufenden Digitalisierungsprojekt eine Aufgabe mit Vorbildcharakter. Mit Googles Beteiligung wird das Ganze zu einem technologisch anspruchsvollem Großprojekt. 3. Das Projekt führt zur Allgemeinverfügbarkeit von Informationen aus klassischen Quellen und gleichzeitig zu ihrer Bewahrung und Langzeitverfügbarkeit. es wirkt dem digitalen Vergessen entgegen. ...
und das ist gut so! |
Kommunikationsflut | ||
Dasselbe gilt für die kontinuierliche Bereitschaft und persönliche Verfügbarkeit zur Kommunikation. Vor dem übermäßigen Gebrauch von E-Mail-fähigen Handys warnt jetzt eine Studie der Universität Sankt Gallen. Ihre Folgen seien vermehrte Konflikte im Privatleben, weil sie von menschlich-interaktiven Prozessen ablenken würden. Auch im Arbeitsleben seien sie eher hinderlich als fördernd. Sie würden Leitungspersonen dazu verleiten, alle Arbeitsschritte ihrer Kollegen begleiten und beeinflussen zu wollen, und Mitarbeiter dazu bringen, sich aus der Verantwortung dadurch zu stehlen, dass sie ihre Arbeitsschritte kommunizieren und die Adressaten in eine Mitverantwortung zwingen. Kommunikationsflut führt zu privaten Konflikten, tecchannel 29.10.2007
Das Thema ist
nicht neu und der erste Ernst zu nehmende Kritiker wider die
bedenkenlose Kommunikationswut war
Freyermuth. |
Diese Nachteile kann nur ein Wissensmanagement beseitigen. Es verlangt nicht nur nach einer intelligenten und aufwändigen (elektronischen) Informationsverarbeitung, sondern auch nach der Mitarbeit des Informationsproduzenten, der die Relevanz und die Ausrichtung seiner Information (z.B. durch Verschlagwortung) "verarbeiten" muss, und nach Informationsbrokern, die mit fachkundiger und intellektueller Arbeit Informationen bewerten, verknüpfen, zusammen fassen und verwerfen. Sie müssen Datenqualität schaffen. Vor
diesem Aufwand, hochwertiges Personal für die Qualitätssicherung für die
Informationsverwaltung abzustellen, drücken sich alle Unternehmen und
Institutionen, die ich in der Vergangenheit kennen gelernt habe. |
|
Rekonstruktion verfremdeter Bilder | ||
Verfremdete Aufnahme eines mutmaßlichen Kinderschänders rekonstruiert, Heise online 08.10.2007 Auch der Verfasser der Meldung fragt: Geht das überhaupt? Im Übrigen stellt er die Frage, ob nicht vielleicht die "künstlerische Freiheit" der Rekonstrukteure falsche Wiedergaben hervorgerufen haben könnten. Bei genauer Überlegung könnte sogar die Wiederherstellung des Originalzustandes oder eine ganz nahe Version davon möglich sein. Wenn der Täter mit einem Grafikprogramm gearbeitet hat und das Pinsel-Werkzeug genommen hätte, wären alle "alten" Pixel ersetzt worden. Wenn er das Bild dann auch noch händisch mit einem Rahmen kopiert und in eine neue Datei eingefügt hätte, dann, so vermute ich, wäre auch die dokumentinterne Historie verschwunden gewesen. Das hat er wohl nicht getan, sondern das Verfremdungswerkzeug "Farbstrudel"
verwendet. Dahinter steckt ein mathematischer Algorithmus, der wegen
seiner Eigenschaften in aller Regel mit Variablen verändert werden kann. |
Man liest die Historie über die Änderungen am Bild aus und macht sie rückgängig. Das geht aber nur bei solchen Bildformaten, die tatsächlich die Historie im Dokument speichen. Das machen nur spezielle Formate, die für die arbeitsteilige Bildbearbeitung bestimmt sind und gängige wie zum Beispiel "JPG", soweit ich weiß nicht. Der mathematische Algorithmus ist jedoch bekannt und wenn nicht in seinen Einzelheiten, so doch im Grundsatz. Damit ist klar, dass die Verfremdung starren Regeln folgt und keinem Zufall. Das wiederum ermöglicht es - mit vielen Versuchen und Irrtürmern - den Prozess umzukehren. Wenn man dabei die richtigen Variablen findet, dann müsste es tatsächlich möglich sein, den Originalzustand wieder herzustellen. Sogar Kontrollmechanismen sind denkbar: Benachbarte Bildpunkte haben jedenfalls dann gleiche oder sehr ähnliche Eigenschaften, wenn sie zu einem gleichartigem Hintergrund gehören (Himmel, Wand). Solche gleichen oder gleichmäßig fließenden Eigenschaften in der Helligkeit und Farbe von Bildpunkten könnten für eine Feinabstimmung genutzt werden. Das Ganze scheint tatsächlich möglich zu sein! |
|
16.10.2007: Zwei Hinweise, die ich bekommen habe, sind nachzutragen: Eine zusätzliche Verfremdung tritt bei den meisten Grafikprogrammen durch das Antialiasing ein. Nach der Veränderung eines Bildbestandteils versucht das Programm, den veränderten Teil harmonisch in den Hintergrund einzupassen. Das bedeutet, dass die umliegenden Pixel geglättet werden, wobei grundsätzlich eine Weichzeichner-Funktion zum Einsatz kommt. Das mittlere Bild in der gestrigen Meldung macht das sehr deutlich. Die Abbildung wirkt trotz der professionellen Feinarbeit verschwommen. Trotzdem: Hut ab! vor der Leistung! |
Der zweite Faktor ist die Eigenschaft des JPG-Formats, aber auch anderer Formate, die Bildinformationen auf Kosten der Pixelpräzision zu glätten und damit zu verfremden. Die Überlegung dabei ist logisch und völlig richtig: Das Auge und die Bildverarbeitung im Gehirn verwenden ihre eigenen Routinen, um das Bildganze zu erfassen und Details zu erkennen. JPG setzt die Praktiken ein, die für die Kompressionen von anderen Dateien entwickelt wurden. Wenn ein Fleck aus "Rot" besteht, dann werden nur seine Ausmaße definiert. Wenn es einen mathematisch gleichmäßigen Farbverlauf gibt, so wird nur er gespeichert - und Abweichungen gesondert eingesetzt. Diese Beispiele zeigen, dass die Rückentwicklung von
Bildverfremdungen im Einzelfall äußerst kompliziert sein kann. Aber sie
funktioniert, wenn Fachleute am Werk sind. |
|
mediale Namensnennung | ||
Peter
Mühlbauer, Hamburger Pressekammer schützt
Schwerverbrecher. Muss das deutsche Internet bald ohne die Namensnennung
von Serienmördern auskommen? Telepolis 22.09.2007 |
Die Kehrseite davon ist das
digitale
Vergessen, das dann einsetzt, wenn Daten unwiederbringlich gelöscht,
bereinigt und geglättert werden müssen. Gebt künftigen Historikern und
an uns Interessierten die Chance, uns und unser Handeln zu begreifen,
indem sie auf echte Fakten und nicht nur auf geschwärzte, nichts
aussagende Werbespots zugreifen dürfen. Die richtige Strategie dafür
fehlt noch - und dennoch breche ich einen Stab für die Archivare! |
|
Bilder gegen die Zensur | ||
Mit
Schnappschüssen durch die Große Firewall, Heise online 04.09.2007 |
|
|
gegen das digitale Vergessen | ||
|
Im Flugzeugbau müssen die Konstruktionszeichnungen, Berechnungen und
sonstigen Pläne mindestens 50 Jahre zur Verfügung stehen. So lange
braucht es nämlich von der Konstruktion über die Produktion bis zur
Außerbetriebnahme der letzten Maschine. Wenn dazu digitale Daten
gebraucht werden, dann müssen sie auch korrekt, vollständig und vor Allem
lesbar sein. |
|
Wegen des Formats "PDF" experimentiert die Firma Adobe mit einer Version für die Langzeitarchivierung - darum geht es nämlich. Ob es wirklich in der Lage sein wird, 40 Jahre und länger "frisch" zu bleiben, ist offen. Der richtige Durchbruch steht noch aus. Eine reelle Chance hat das
Speicherformat "XML". Es baut auf dem für Webseiten gebräuchlichen
HTML-Format auf, das für seine Einfachheit bekannt ist (aber auch seine
Ausrutscher hat), und trennt Inhalt und Darstellung voneinander. Das hat
einen bedeutenden Vorteil: Selbst wenn die grafische Darstellung nicht "Punkt
für Punkt" wieder hergestellt werden kann, so sind doch die Inhalte in
ihrer einfachsten Form rekonstruierbar. |
Gregor Honsel, Hundert Jahre auf Band, Technology Review 23.08.2007 Das digitale Gedächtnis der Welt soll online nutzbar werden, Heise online 20.10.2007
Kai
Hamann, Kostenlose Ratgeber: Digitale
Langzeitarchivierung. Nestor, tecchannel 16.06.2008 |
|
Cyberfahnder | ||
|
© Dieter Kochheim, 11.03.2018 |