Suchmaschine

Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine eine Liste von Verweisen auf möglicherweise relevante Dokumente, meist dargestellt mit Titel und einem kurzen Auszug (Snippet) des jeweiligen Dokuments. Dabei können verschiedene Suchverfahren Anwendung finden.

Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind

In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch Webcrawler, auf einem einzelnen Computer durch regelmäßiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem.

Inhaltsverzeichnis

Arten von Suchmaschinen

Websuchmaschinen sind die bekannteste Form von Suchmaschinen. Sie durchsuchen das World Wide Web, das meistgenutzte Dateiformat ist hierbei HTML.

Metasuchmaschinen schicken Suchanfragen parallel an mehrere normale Suchmaschinen und kombinieren die Einzelergebnisse zu einer Ergebnisseite. Als Vorteil ist die größere (da kombinierte) zugrundeliegende Datenmenge zu nennen. Ein Nachteil ist die lange Dauer der Anfragebearbeitung. Außerdem ist das Ranking durch reine Mehrheitsfindung (welche Seite taucht in den meisten verwendeten Suchmaschinen auf?) von fragwürdigem Wert. Metasuchmaschinen sind vor allem bei selten vorkommenden Suchbegriffen von Vorteil.

Als Desktop-Suchmaschine werden neuerdings Programme bezeichnet, welche den lokalen Datenbestand eines einzelnen Computers durchsuchbar machen.

Wird die Datenbeschaffung manuell mittels Anmeldung oder durch Lektoren vorgenommen, handelt es sich nicht um eine Suchmaschine sondern um einen Katalog (auch Verzeichnis genannt). In solchen Verzeichnissen wie beispielsweise Yahoo! und dem Open Directory Project sind die Dokumente hierarchisch in einem Inhaltsverzeichnis nach Themen organisiert.

So genannte Echtzeit-Suchmaschinen starten den Indexierungsvorgang erst nach einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die Qualität der Ergebnisse ist aber aufgrund der fehlenden breiten Datenbasis insbesondere bei weniger gängigen Suchbegriffen schlecht.

Ranking

Die Darstellung der Suchergebnisse geschieht sortiert nach Relevanz (Ranking), wofür jede Suchmaschine ihre eigenen, meist geheim gehaltenen Kriterien heranzieht. Dazu gehören:

Größere Bekanntheit erlangt hat PageRank, eine Komponente des Ranking-Algorithmus' der erfolgreichen Suchmaschine Google.

Manche Suchmaschinen sortieren Suchergebnisse nicht nur nach Relevanz für die Suchanfrage, sondern lassen gegen Bezahlung auch Einflussnahme auf ihre Ausgabe zu. In den letzten Jahren hat sich allerdings bei den großen Anbietern eine Trennung zwischen Suchergebnissen und als "bezahlte Treffer" markierte eingeblendeter Werbung durchgesetzt. Die "bezahlten Treffer" werden kontextbezogen zur Suchanfrage ausgegeben.

Geschichte

Archie kann als ältester Vorfahre der heute allseits bekannten Suchmaschinen und Webverzeichnisse angesehen werden.

Der erste Vorläufer der heutigen Suchmaschinen war eine im Jahr 1991 an der University of Minnesota maßgeblich von Paul Lidner und Mark P. McCahill entwickelte Software namens Gopher. Sie wurde als Campuswide Information System (CWIS) zur Vernetzung der dortigen Informationsserver entwickelt und basiert auf dem Client-Server-Prinzip. Die Struktur von Gopher war für den damaligen Zeitpunkt richtungsweisend; alle Gopher-Seiten wurden katalogisiert und konnten vom Gopher-Sucher Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) komplett durchsucht werden. Allerdings verschwand Gopher schon einige Jahre später, vermutlich vor allem wegen der fehlenden Möglichkeit, Bilder und Grafiken einzubinden.

Mit der Freigabe des WWW-Standards zur kostenlosen Nutzung 1993 und einer handvoll Webseiten begann die einzigartige Erfolgsgeschichte des weltweiten Datennetzes. Der erste Webcrawler namens The Wanderer wurde im selben Jahr von Mathew Gray programmiert, einem Studenten des Massachusetts Institute of Technology (MIT). The Wanderer durchsuchte und katalogisierte von 1993 bis 1996 halbjährlich das zu dieser Zeit noch sehr übersichtliche Web. Im Juni 1993 wurden insgesamt 130 Websites gezählt. Im Oktober des gleichen Jahres wurde Aliweb (Archie-Like Indexing of the Web) entwickelt, bei dem die Betreiber von Webservern eine Beschreibung ihres Dienstes in einer Datei ablegen mussten, um so ein Teil des durchsuchbaren Index zu werden.

Im Dezember 1993 gingen die Suchmaschinen Jumpstation, WorldWideWeb Worm und RBSE Spider ans Netz. Die beiden erstgenannten waren Crawler, die Webseiten nach Titel und URL indizierten. RBSE Spider war die erste Suchmaschine, die ihre Ergebnisse nach einem eigenen Ranking-System sortiert anzeigte. Keine dieser Suchmaschinen bietet heute noch ihre Dienste an.

Im April 1994 ging eine weitere Suchmaschine namens WebCrawler online, die ebenfalls eine nach Ranking sortierte Trefferliste vorweisen konnte. 1995 wurde sie an AOL verkauft, ein Jahr später weiter an Excite. Im Mai begann die Arbeit von Michael Mauldins an der Suchmaschine Lycos, die im Juli 1994 online ging. Neben der Worthäufigkeit der Suchbegriffe innerhalb der Webseiten durchsuchte Lycos auch die Nähe der Suchbegriffe untereinander im Dokument.

Im selben Jahr riefen David Filo und Jerry Yang, beide damals Studenten des Fachbereichs Elektrotechnik an der Stanford University, eine Sammlung ihrer besten Web-Adressen in einem online verfügbaren Verzeichnisdienst ins Leben – die Geburtsstunde von Yahoo! (für Yet Another Hierarchical Officious Oracle).

Das Jahr 1995 sollte eine bedeutende Trendwende für die erst kurze Geschichte der Suchmaschinen werden: In diesem Jahr wurden erstmals Suchmaschinen von kommerziellen Firmen entwickelt. Aus diesen Entwicklungen entstanden Infoseek, Architext (wurde später in Excite umbenannt) und AltaVista. Ein Jahr später wurde Inktomi Corp. gegründet, deren gleichnamige Suchmaschine zur Grundlage von Hotbot und anderen Suchseiten wurde. Führend in dieser Zeit war der Verzeichnisdienst von Yahoo, aber AltaVista (der Name bedeutet „Blick von oben“, ist aber auch ein Wortspiel den Standort Palo Alto betreffend) wurde zunehmend populär.

1996 war das Startjahr von zwei Metasuchmaschinen. MetaCrawler erblickte in den USA das Licht der Welt und - in Deutschland - MetaGer. Bis zur Marktdurchdringung von Google galten Metasuchmaschinen als eine der interessantesten Informationsbeschaffer, da der Suchindex der Suchmaschinen meist nur Teilbereiche des Internets enthielt. Metasuchmaschinen leiten die Abfragen des Nutzers parallel an mehrere Suchmaschinen weiter und fassen die Treffer formatiert zusammen.

Ende 1998 veröffentlichten Larry Page und Sergey Brin ihre innovative Suchmaschinen-Technologie in dem Artikel The Anatomy of a Large-Scale Hypertextual Web Search Engine. Diese Arbeit stellte den Startschuss für die bisher erfolgreichste Suchmaschine der Welt dar: Google. Im September 1999 erreichte Google Beta-Status. Die geordnete Benutzeroberfläche, die Geschwindigkeit und die Relevanz der Suchergebnisse bildeten die Eckpfeiler auf dem Weg, die computererfahrenen Nutzer für sich zu gewinnen. Ihnen folgten in den nächsten Jahren bis heute Scharen von neuen Internetbenutzern. Doch Google dominiert den Suchmaschinenmarkt nicht allein, durch spektakuläre Aufkäufe im Frühjahr 2003 sicherte sich Yahoo! den Anschluss in diesem Marktsegment.

Seit 2004 gibt es nach einigen Firmenübernahmen nur mehr drei große (bezogen auf die Anzahl erfasster Dokumente) indexbasierte Websuchmaschinen. Neben Google sind dies Yahoo! Search und Microsofts MSN Search.

Herausforderungen

Siehe auch (Themen die noch nicht ausreichend im Artikel behandelt werden):

Wichtige Suchmaschinen

Wichtige Verzeichnisse

Wichtige MetaSuchmaschinen

Suchmaschinen für die eigene Website (Auswahl)

Literatur

Weblinks

Dieser Artikel ist Teil des WikiReader Internet. Dies bedeutet, dass der Artikel zusammen mit anderen Artikeln in ein PDF eingearbeitet ist und es dadurch einen gebündelten Überblick über das Thema Internet gibt.

See also: Suchmaschine, 2002, 2004, AOL, Algorithmus, AltaVista, Archie Suchmaschine, Client-Server-Prinzip, Computer