Informationsintegration

Als Informationsintegration lässt sich das Problem der Zusammenführung von Daten und Inhalten aus verschiedenen Quellen zu einer einheitlichen Menge von Informationen bezeichnen. Dabei sollen vor allem heterogene Quellen möglichst vollständig und effizient zu einer strukturierten Einheit zusammengeführt werden, die sich effektiver nutzen lässt, als dies bei direktem Zugriff auf die einzelnen Quellen möglich wäre. Informationsintegration ist vor allem dort notwendig, wo mehrere gewachsene Systeme miteinander verbunden werden sollen, also beispielsweise bei der Zusammenführung von Firmen, Arbeitsabläufen und Anwendungen oder bei der Informationssuche im Internet. Konkret müssen dabei eine Reihe von Datenbanken und Informationssystemen integriert werden. Ein relativ einfaches Beispiel für ein integrierendes Informationssystem ist eine Metasuchmaschine. Die Integration komplexerer Systeme ist erst in den 1990er Jahren in den Blickpunkt der informatischen Forschung gerückt und somit in der Entwicklung begriffen.

Inhaltsverzeichnis

Methoden der Informationsintegration

Die Integration heterogener Informationen aus unterschiedlichen Quellen betrifft sowohl die Integration konkreten Daten als auch der Strukturen (Schemata), in denen sie vorliegen. Zunächst müssen in der Regel die lokalen Schemata integriert werden (Schemaintegration), wozu auch (teil)automatische Verfahren herangezogen werden können (Schema Matching). Zur anschließenden Datenintegration sind Verfahren der Datenfusion und Duplikaterkennung notwendig.

Möglichkeiten und Ziele

Integration ist nur möglich, wenn eine gewisse Redundanz der lokalen Schemata (intensionale Redundanz) besteht. So lassen sich beispielsweise mehrere Telefonlisten oder eine Telefonliste und ein Mitarbeiterverzeichnis integrieren, da sie (teilweise) über gemeinsame Strukturen besitzen. bei einer Telefonliste und einem Einkaufzettel ist dies nicht der Fall. Die Übereinstimmung von Strukturbestandteilen verschiedener Quellen wird als Schema Mapping bezeichnet.

Bei Redundanz zwischen den Daten verschiedener Quellen (extensionale Redundanz) lassen sich Zusammengehörigkeiten teilweise automatisch bestimmen und für die Komplementierung von Datensätzen (Datenfusion) nutzen. So können beispielsweise die Einträge einer Telefonliste und eines Mitarbeiterverzeichnisses bei Übereinstimmung von Personennamen kombiniert werden. Da somit mehr Informationen über einzelne Objekte zur Verfügung stehen, spricht man auch von Verdichtung.

Insgesamt ist das Ziel der Integration eine vollständigere Quelle. Zusätzlich lassen sich redundante Datenquellen zur Verifikation nutzen. Die Zusammenführung von intensional redundanten Quellen führt zu einer höheren Abdeckung (Coverage) und die Komplementierung von Datensätzen bei extensionaler Redundanz von Quellen zu einer höheren Dichte (Density).

Materialisierte vs. Virtuelle Integration

Grundsätzlich lassen sich zwei Arten der Integration unterscheiden:

Im Vergleich ergeben sich folgende Vor- und Nachteile

Verwandte Themengebiete

Die Informationsintegration weist unter Anderem Überschneidungen und Verwandtschaften mit folgenden Themengebieten auf:

Siehe auch

Literatur


Kategorie:Data Warehouse Kategorie:Wirtschaftsinformatik

See also: Informationsintegration, Arbeitsablauf, Caching, Data Fusion, Data Lineage, Data Mining, Data Warehouse, Daten, Datenbank, Datenbankschema