Wie Suchmaschinen eine Suchanfrage behandeln

Verfasst am 17. August 2012

Der Query-Prozessor ist dafür verantwortlich, dass Ergebnislisten zu den eigegebenen Suchwörtern ausgegeben werden. Diese sind dann bereits nach Wichtigkeit von der Suchmaschinen geordnet. Die Verknüpfung von Frontend (Benutzeroberfläche des Internetusers)  und Informationsbeschaffungssystem wird auch als Searcher bezeichnet. Der Query-Prozessor übernimmt hier alle wichtigen Funktionen. Dabei spielt die Geschwindigkeit häufig eine große Rolle. Dabei kann es vorkommen, dass bei den Faktoren Qualität und Geschwindigkeit oft der Faktor Geschwindigkeit priorisiert wird und dementsprechende Suchergebnisse ausgegeben werden.

Wie ein Query Prozessor arbeitet

Bis eine Suchergebnisliste ausgegeben wird, sind mehrere Schritte nötig. Um diese Schritte genauer zu erläutern, sollten zunächst ein paar Begriffe geklärt werden. Eine Suchmaschine setzt sich grob gesagt aus 3 Komponenten zusammen.

  1. Einem Web-Robot, der neue und veränderte Daten erfasst
  2. Einem Informationsbeschaffungssystem (Information Retrieval System), welches die erfassten Daten in einem Datenbanksystem bewertet
  3. Einem Query Prozessor, der die passende Suchergebnisse aus der Datenbank ausgibt

Nach Sebastian Erlhofer (aus:  Suchmaschinen-Optimierung: Das umfassende Handbuch; Galileo Computing) sind die Arbeitsschritte des Query-Prozessors in sieben Schritte unterteilt.

Tokenizing

Nach der Eingabe der Suchanfrage durch den Benutzer sendet der Browser via HTTP die eingegebenen Inhalte an den Query-Prozessor. Anschließend müssen die einzelnen Tokens (Elemente) identifiziert werden.

Parsing

Da Suchanfragen häufig mit Operatoren wie „AND“ oder „OR“ (genauere Information zu den genannten Operatoren folgen im zweiten Teil des Artikels) eingegeben werden, müssen die eingegebenen Operatoren auf Funktionen anhand einer reservierten Liste für Operatoren bestimmt werden. Bei natürlichsprachigen Systemen werden diese Begriffe aufgrund einer durchgeführten Sprachanalyse sofort erkannt und daraus logische Zusammenhänge generiert. Da Google jedoch eine stichwortbasierte Suchmaschine ist, muss auf eine reservierte Liste zurückgegriffen werden, um derartige Operatoren zu erkennen.

Stoppwörter und Stemming

Suchanfragen werden auf Stoppwörter d.h. Wörter, die nicht bei der Interpretation eines Themenbereichs hilfreich sind wie zum Beispiel „und“, “oder“, “in“, untersucht. Da es schneller geht die Wörter zu entfernen, als alle indexierten Seiten zu durchsuchen, wird auf die Stoppwörter in der Suchanfrage verzichtet. Das Weglassen bestimmter Stoppworte findet bei Google erst bei einer bestimmten Anzahl an eingegeben Suchworten statt. Es ist auch möglich, dass eingegebene Suchbegriff auf Ihren Wortstamm reduziert werden, sodass eine passende Suchergebnisliste ausgegeben werden kann.

Erzeugung der Query

Bei der Suchanfrage „ Welche Website Software ist gut?“ bleibt vermutlich noch „Website Software gut“ übrig. Um Stichwörter aus der Suchanfrage mit den indexierten Seiten abzugleichen werden die entfernten Operatoren aus dem Parsing-Schritt genutzt.

Verwendung des Thesaurus

Häufig werden Suchmaschinen befragt, wenn man genauere Informationen über etwas haben möchte. Daher kann der Thesaurus hilfreich sein um ein bestimmtes Themengebiet zu erschließen. Dabei geht die Suchmaschine so vor, dass Synonyme und Abkürzungen zum eingegebenen Suchbegriff berücksichtigt werden.

Matching und Gewichtung

An dieser Stelle beginnt der richtige Matching-Prozess. Zuerst werden die Begriffe der Suchabfrage in IDs übersetzt. Anhand der bestimmten ID wird der Index nach passenden Dokumenten durchsucht. Das Ziel dieses Schrittes ist es, dass eine Auswahl von infrage kommenden Dokumenten ermittelt wird. Von der Suchmaschine werden anschließend Berechnungen, welches Dokument welche Relevanz im Verhältnis zu anderen Dokumenten erhält, abgewägt.

Darstellung der Trefferliste

Je weiter oben das Dokument gelistet ist, desto ähnlicher ist laut der Suchmaschine die Wahrscheinlichkeit, dass der User mit den angebotenen Websites auf ein passendes Suchergebnis stößt.

Sollte der User auf keine passende Website gestoßen sein, so besteht die Möglichkeit erneut eine Suchanfrage zu stellen.

Tipps für Ihre zukünftigen Suchanfragen

Da sich die Anzahl an indexierten Seiten der Suchmaschinen ständig erhöht, muss jeder Nutzer die Suchanfragen möglichst genau definieren, um eine Website mit den gewünschten Inhalten angezeigt zu bekommen. Um schneller auf eine passende Website zu stoßen, kann der Nutzer selbst zusätzliche Operatoren angeben. Sollten zwei Begriffen ohne Operatoren ins Suchfeld eingegeben werden, so setzt die Suchmaschine automatisch einen booleschen Operator dazwischen. In diesem Fall würde es sich um ein „AND“ handeln. Wenn man boolesche Operatoren selbst setzen möchte, dann wäre das wie folgt möglich:

Website +software oder Website AND software

Bei dem Operator „OR“ (|) muss lediglich einer der beiden Begriffen im Dokument vorkommen, dass er bei den Suchergebnissen erscheint.

Eine Suchanfrage von jemandem, der eine Website erstellen lassen oder selbst erstellen lassen möchte könnte dann folgendermaßen aussehen:

Website AND (selbst erstellen OR erstellen lassen)

Der Operator „NOT“ (-)kann verhindern, dass Wörter von der Suche ausgegrenzt werden.

Wenn Sie nach einer Webdesign Software suchen, die kein CMS sein soll, so könnte die Suchanfrage durchaus so aussehen:

Webdesign Software NOT cms  oder Webdesign Software -cms

Sollten Sie auf der Suche nach Begriffen mit einer bestimmten Reihenfolge sein, so besteht die Möglichkeit, dass Sie die Begriffskombination in Anführungsstriche setzen.   Damit wird sichergestellt, dass die angegeben Begriffe auch in angegebener Reihenfolge im gesuchten Dokument auftauchen. Dies kann bei der Such nach Zitaten sehr hilfreich sein.

Sollten Sie auf der Suche nach einem Begriff sein, der mit „web“ beginnt und dann aber beliebig endet, so können Sie den * hinter das Wort „web“ anhängen. Die Suchmaschine gibt Ihnen dann Suchergebnisse aus, bei denen das Wort Website, Webpage oder Web-Records enthält. Ebenso kann die Trunkierung(*) zu Beginn des Wortes angebracht werden.

Bei vielen Suchmaschinen wird die Trunkierung automatisch angebracht. Sollte man dies verhindern wollen, so ist dies bei der Suchmaschine Google durch die Eingabe des Begriffs in eckigen Klammern möglich.

Viele Suchmaschinen bieten die Möglichkeit einer erweiterten Suche an. Diese ermöglicht den Ausschluss von Wörtern oder Themen bei der Suche. Letztendlich wird dabei jedoch auch nur mit booleschen Operatoren gearbeitet, was bedeutet, dass man die Eingrenzungen der Suche nicht zwingend über die erweiterte Suchmaske sondern einfach über das Suchfeld mit Operatoren vornehmen kann.

Screenshot Google-Suche: Ergebnisse eingrenzen-http://www.google.de/advanced_search

Land: Sollten Sie nur nach Websites suchen, die in Deutschland veröffentlicht wurden, so kann dies hier festgelegt werden.Die Möglichkeit, dass nach einer Website auf einer bestimmter Sprache gesucht werden kann, setzt die Bedingung voraus, dass das IR (Information Retrieval-System) die Sprache der Websites erkennen kann. Die Vielfalt an verschiedenen auswählbaren Sprachen ist bei jeder Suchmaschine anders, die meisten bieten eine geringer Sprachauswahl als Google es tut. Desweitern bietet Google weitere Eingrenzungen:

Letzte Aktualisierung: Wenn Sie nach besonders aktuellen Informationen suchen, kann unter „Letzte Aktualisierung“ ausgewählt werden, wie lang der gesuchte Inhalt schon online ist.

Unter Website oder Domain kann die Suche auf eine Website oder eine Domain (.org,   .de, .at) eingegrenzt werden.

Desweiteren kann unter Begriffe erscheinen bestimmt werden, wo die eingegebenen Suchwörter auf der Website erscheinen sollen.

Um auszuschließen, dass ihnen pornografische Inhalte angezeigt werden können Sie SafeSearch auf „strikt“ stellen.

Sollten Sie nach einer PDF oder nach einem anderen Datenformat suche, so kann dies unter Dateityp eingestellt werden. Wollen Sie nur kostenfreie Inhalte angezeigt bekommen, so können Sie dies unter Nutzungsrechte konfigurieren.