Das Geheimnis der Google-sitemap!

Woher weiß Google eigentlich, welche Seiten und Unterseiten Ihrer Webpräsenz von der Suchmaschine gescannt werden sollen?

Tatsächlich neigen die Roboter von Google und Konsorten dazu, alle Inhalte einer Website zu indizieren – es sei denn, Sie stellen selber eine Liste relevanter Seiten zur Verfügung. Aber warum ist das wichtig?

Der Google-Index und das große Chaos

Standardgemäß durchleuchten Suchmaschinen eine Website inklusive aller Unterseiten und erstellen daraus ein bisweilen chaotisches Gesamtbild: In diesem Mischmasch schweben wichtige Blogbeiträge und Hilfsseiten zwischen kaputten Links, leeren Testseiten und „Zutritt verweigert“-Fehlermeldungen. Möchten Sie diese Liste selber einsehen, geben Sie auf Google einfach site:link ein, wobei statt „link“ der Link Ihrer Website stehen sollte. Sieht die Liste aus wie zusammengewürfelt? Testen Sie außerdem die Links darauf, ob sie zu konkreten Inhalten oder leeren Seiten weiterleiten. Vor kurzem erst hatten wir bei Strategiepool einen Kunden, dessen Site-Ergebnisse auf knapp 170 Einträge kam, darunter sehr viele, die in Google-Ergebnissen irrelevant sind.

Stichwort relevant: Warum sollte es Sie überhaupt interessieren, welche Unterseiten Ihrer Website indiziert werden?

Das große Problem indizierter Seiten ist, dass Google die gesamte Ergebnisliste als Indikator dafür nimmt, wie relevant Ihre Inhalte sind. Wenn von dutzenden, hunderten oder tausenden Inhalten Ihrer Website die Hälfte in Googles Augen unwichtig sind, kann die Suchmaschine das mit einem schlechteren Ranking abstrafen. Abgesehen davon besteht immer die Gefahr, dass Ihre Besucher in den Suchergebnissen auf wenig hilfreiche Seiten stoßen und abspringen. Genau an diesem Punkt setzt die sitemap.xml an.

Was ist sitemap.xml?

Sitemap.xml ist eine Textdatei im xml-Format, in der Sie eben solche Links Ihres Webauftritts listen können, auf die Google und andere Suchmaschinen achten sollen. Pro Dokument können bis zu 50.000 Einträge gespeichert werden; im Notfall lässt sich die Sitemap auf mehrere Dateien verteilen. Jeder Link kann mit einer ganzen Reihe Eigenschaften beschrieben werden, die Webcrawler dann auslesen und verarbeiten. Ein typischer URL-Eintrag sähe zum Beispiel so aus:

<url>

<loc>http://example.com/</loc>

<lastmod>2006-11-18</lastmod>

<changefreq>daily</changefreq>

<priority>0.8</priority>

</url>

Eine vollständige Liste möglicher sitemap-Eigenschaften finden Sie hier.

Neben der URL und dem letzten Änderungsdatum sind hier vor allem zwei Attribute interessant: „changefreq“ beschreibt, wie oft die Seite voraussichtlich geändert wird und kann zwischen „hourly“ (stündlich) und „yearly“ (jährlich) eine Bandbreite an Hinweisen hinterlassen, wie oft Crawler Änderungen erwarten können. Zwar gibt es keine Garantie, dass die Seite auch entsprechend oft gescannt wird, aber als „freundliche Bitte“ an Suchmaschinen ist changefreq allemal interessant.

Richtig spannend wird es mit dem Wert „priority“. Er kann zwischen 0.0 (nicht relevant) und 1.0 (sehr relevant) und beschreibt, wie wichtig diese URL im Verhältnis zu allen anderen URLs Ihrer Website ist.

Eine gut sortierte sitemap.xml macht Google und Konsorten glücklich und kann Ihr Ranking in den Suchergebnissen nachhaltig verbessern – den Aufwand für das Aufsetzen der Liste ist es auf jeden Fall wert!

Haben Sie Ihre eigene Seite über eine sitemap indizieren lassen? Teilen Sie uns Ihre Erfahrungen in den Kommentaren mit!

Sind sitemaps, robots.txt und meta robots anstrengend und Sie möchten professionelle Hilfe? Kontaktieren Sie uns!

Sagen Sie etwas...