5 Gründe, warum deine Seiten von Google nicht indexiert werden

Veröffentlicht am 26. April 2017 in der Kategorie IT & Technik von

Themen: , ,

 

Du hast endlich deine neue Webseite online gestellt und bist gespannt auf die Besucher. Aber keiner kommt – denn deine URLs erscheinen nach Monaten immer noch nicht in den Google Suchergebnissen. In diesem Artikel erfährst du mehr über mögliche Gründe und lernst, Fehler selbst zu beheben. Für eine grundsätzliche Erklärung, wie die Google-Suche funktioniert und wie Seiten gecrawlt und indexiert werden, sieh dir doch erst einmal das obige Video an.

Auch die schönste Webpräsenz muss indexiert werden, damit Online-Leser sie entdecken können. Voraussetzung dafür ist, dass der Googlebot sie crawlt:

Ein von Algorithmen gesteuertes Programm findet deine Webseite und listet alle Links, die gecrawlt werden sollen. Die Informationen nimmt der Googlebot auf und sortiert sie in einem Index im Hinblick auf ihre Relevanz und mögliche Zielgruppen.

Diesen Vorgang wiederholt er in regelmäßigen Abständen, deine Webseite wird also nicht nur ein einziges Mal gecrawlt. Also keine Panik, wenn es nicht sofort klappt – der Googlebot braucht Zeit bei der Masse der täglich weltweit neu zu verarbeitenden Web-Informationen. Aufgrund eines begrenzten Crawlbudgets durchsucht er oft auch nicht die gesamte Website, sondern nur ausgewählte Seiten. Im Google Search Console Forum findest du dazu eine deutliche Aussage:

„Google crawlt nicht alle Seiten im Web, und es werden nicht alle gecrawlten Seiten indexiert.“

Wenn jedoch zu viele deiner Seiten ignoriert werden, solltest du die Fehlerquellen finden.

Keine Indexierung: Erste Schnellmaßnahmen

Auf der Spurensuche unterstützt dich zum einen Google in der Search Console im Bereich „Crawling“. Im Report „Crawling-Fehler“ erfährst du, ob in den letzten 90 Tagen Fehler aufgetreten sind. Sie könnten den Googlebot daran gehindert haben, auf manche Bereiche deiner Webseite zuzugreifen. Die Rubrik „URL-Fehler“ weist auf fehlende 301-Weiterleitungen und auf nicht gefundene Seiten (404-Fehler) hin.

5 Gründe, warum deine Seiten von Google nicht indexiert werden

Crawling Fehler mit der Google Search Console identifizieren (zum Vergrößern klicken)

Einen zusätzlichen Überblick gibt dir auch die „Site-Abfrage” bei Google. Gib hierzu zunächst deine Domain in folgendem Format in der Google-Suchmaske ein:

site:beispieldomain.de

Wenn du gefragt wirst, ob dir diese Domain gehört, solltest du die Seite in der Google Search Console erst einmal anmelden. Melde dich mit deinem Login an und wähle auf der Startseite „Property hinzufügen“. Hier gibst du die Domain ein.

5 Gründe, warum deine Seiten von Google nicht indexiert werden

Die eigene Webseite in der GSC anmelden (zum Vergrößern klicken)

Du erhältst Informationen darüber, wie du deine Inhaberschaft bestätigen kannst. Am besten ist es, den angegebenen Code herunter- und auf deine Website hochzuladen. Ist deine Seite dem Googlebot aber schon „bekannt“, siehst du an dieser Stelle deine indexierten URLs. Entspricht die Anzahl der Seiten ungefähr der online gestellten Anzahl oder gibt es starke Abweichungen? Überprüfe folgende fünf Punkte, wenn es Abweichungen gibt.

1. Nicht vorhandene XML-Sitemap

Webcrawler wie der Googlebot durchforsten das Internet nach neuen Inhalten und wandern von Seite zu Seite. Auf deine Seite sollte also mindestens ein Link führen, sonst bleibt sie für den Bot unsichtbar. Bei einer guten Onpage-Optimierung ist das kein Problem – irgendwann wird jede neue Seite gefunden. Um den Suchprozess zu beschleunigen, solltest du jedoch für Google eine XML-Sitemap als Indexierungshilfe erstellen.

XML-Sitemaps sind standardisierte Textdateien, die in maschinenlesbarer Form die Struktur deiner Webpräsenz enthalten und die Suchmaschinen problemlos interpretieren können. Sie übermitteln Google nicht nur die URLs, sondern auch Änderungsdatum und -frequenz sowie die Priorität oder Hierarchie des Seiteninhalts.

Content Management Systeme wie WordPress bieten Plugins und Tools für die Erstellung einer Sitemap an, du kannst sie aber auch manuell erstellen. Ist deine Sitemap im unkomprimierten Zustand größer als 10 MB, musst du sie in mehrere kleinere Sitemaps unterteilen und in einer Sitemap-Indexdatei einreichen.

Sitemap hinzufügen: So geht's

Am bequemsten übermittelst du sie Google über das Sitemaps-Tool der Google Search Console. Logge dich mit deinem Account ein und suche die entsprechende Webseite aus. Im linken Reiter findest du den Punkt „Crawling“ und darunter „Sitemap“. Wenn noch keine eingereicht ist, siehst du eine Fehlermeldung. Klickst du auf „Sitemap hinzufügen“, erscheint deine URL und ein leeres Feld, in das du die erstellte Sitemap einfügen kannst.

Google schlägt dir auch andere Wege vor, um eine Sitemap einzureichen. Wenn du gute Kenntnisse in Code-Änderungen besitzt, gib den Pfad zu deiner Sitemap an, indem du an einer beliebigen Stelle in deiner robots.txt-Datei folgende Zeile einfügst:

Sitemap: http://beispieldomain.de/sitemap_location.xml.

Mögliche Sitemap-Fehler

Auch wenn du die Sitemap bereits eingereicht hast, kann es zu Fehlern kommen, die du ebenfalls im Bereich „Sitemaps“ in der Search Console identifizieren kannst. Im Folgenden findest du einige Probleme, die Google unter „Sitemap-Fehler und Lösungen“ auflistet.

5 Gründe, warum deine Seiten von Google nicht indexiert werden

Sitemaps in der GSC auf Fehler prüfen (zum Vergrößern klicken)

  • URLs nicht zugänglich / URL nicht zulässig
    Prüfe, ob deine Datei am richtigen Speicherort und auf der richtigen Ebene liegt. Vergewissere dich, dass alle URLs mit demselben Domainnamen wie der Speicherort deiner Sitemap anfangen, also einheitlich mit www., http oder https.
  • Nicht aufgerufene URLs / 404 Fehler
    Google kann deine Sitemap nicht vollständig verarbeiten. Das passiert z.B., wenn einige URLs zu viele Weiterleitungen enthalten, die der Googlebot nicht abrufen kann. Beseitige deine Broken Links und richte permanente Weiterleitungen ein.
  • Ungültige oder unvollständige URL
    URLs sind ungültig, wenn sie nicht unterstützte Zeichen enthalten, also nicht lesbar codiert sind, oder wenn die Formatierung mit htp:// anstatt http:// angegeben sind (oder andersherum).

2. Duplicate Content

Überprüfe auch, ob Google deine bevorzugte Seite indexiert hat oder eine andere Version des Domain-Namens. Wenn http://beispieldomain.de nicht indexiert wurde, füge deinem Konto auch http://www.beispieldomain.de und die eventuell vorhandene https-Version hinzu. Klick auf der Search Console Startseite auf deine Webseite und gib unter dem Zahnradsymbol „Websiteeinstellungen“ an, welche Seite Google indexieren soll.

Nutze auch das Canonical Tag, um Duplicate Content zu vermeiden: Es wird in den Header des Quellcodes platziert und zeigt dem Crawler an, welche der URLs die Originalquelle ist. Das kann dann für die bevorzugte Domain wie folgt aussehen:

<link rel="canonical" href="http://www.beispieldomain.de/beispielseite.htm"/>

Aber Vorsicht: Nicht überall ist das Canonical Tag notwendig, und es kann bei falscher Handhabung grobe Crawling-Fehler verursachen. Es darf z.B. nicht im Body-Bereich des Seitenquelltextes auftauchen oder in den Metadaten doppelt verwendet werden.

3. Technische Voraussetzungen für die Indexierung

Status Codes

Beschäftige dich auch mit den HTTP-Statuscodes deiner Seite: Überprüfe regelmäßig, ob 301-Weiterleitungen nicht funktionieren oder ob 404-Statuscodes existieren. Seiten mit diesem Status sind unauffindbar für potenzielle Leser und Webcrawler. Links, die auf solche Seiten verweisen, werden „Tote Links“ genannt.

robots.txt-Datei

Möglicherweise liegt der Fehler auch in der robots.txt-Datei. Bei der robots.txt Datei handelt es sich um eine Textdatei, in der festgelegt werden kann, welche Bereiche einer Domain vom Crawler der Suchmaschine gecrawlt werden dürfen und welche nicht. Mit ihr können Webmaster also das Verhalten von Suchmaschinen-Crawlern beeinflussen. Verzeichnisse, die nicht indexiert werden sollen, können darin mit „Disallow“ gekennzeichnet werden.

User-agent: * Disallow

Mit diesem Befehl weist du Webcrawler an, ganze Seitenbereiche zu ignorieren. In der Search Console erscheinen diese URLs dann unter „Blockierte URLs“. Mit dem Report „Abruf wie durch Google“ in der Search Console erfährst du zudem, ob der Googlebot durch die robots.txt blockiert wird. Spätestens nach einem Relaunch empfiehlt sich übrigens generell eine genaue Prüfung der robots.txt.

Metatag „noindex“

Mit dem Eintrag „noindex“ in den Meta-Tags wird einem Suchmaschinen-Robot mitgeteilt, dass die besuchte Seite nicht in den Index aufgenommen werden soll. Webmaster haben mit „noindex“ also die Möglichkeit, die Indizierung ihrer Seiten zu beeinflussen.

Sinnvoll kann die Verwendung des noindex-Tags sein für:

  • interne Suchergebnisseiten
  • doppelte Kategorieseiten
  • urheberrechtlich geschützte Inhalte

„nofollow“-Attribut

Das Attribut rel=“nofollow“ ist eine Mikroauszeichnung im HTML-Code einer Website. Es wird verwendet, um bestimmte Links auszuzeichnen, damit sie bei der Bildung des Google-Indexes nicht berücksichtigt werden. Mit dem Attribut rel=“nofollow“ wird den Robots der Suchmaschinen, die eine Website crawlen, mitgeteilt, dass sie diesem Link nicht folgen müssen oder dürfen.

4. WordPress-Einstellungen

Wenn du WordPress als Content Management System nutzt und dein Blog nicht indexiert wird, kann die Lösung ganz nah liegen. Prüfe im Bereich „Einstellungen“ in der linken Spalte, ob die Funktion „Suchmaschinen davon abhalten, diese Website zu indexieren“ aktiviert ist. Wenn du sie deaktivierst, wird der Googlebot nicht länger daran gehindert, sie in den Suchergebnissen zu zeigen.

5 Gründe, warum deine Seiten von Google nicht indexiert werden

Einstellung im WordPress Dashboard überprüfen (zum Vergrößern klicken)

5. Bad Neighbourhood

Wenn du eine Domain gekauft hast, fragst du dich sofort, über welche Backlinks neuer Traffic auf deine Seite kommt. Linkfarmen oder gekaufte Links kommen natürlich nicht infrage, vielmehr hochwertige Links mit thematischem Bezug. Wenn deine Seite trotzdem nicht indexiert wird, beschäftige dich mit deren Vorgeschichte. Hat der ehemalige Besitzer eventuell „Bad Neighbourhood Links“, Spam oder versteckte Elemente auf der Seite platziert?

Zeigt ein schlechter Link auf eine Website oder weist ein ausgehender Link auf eine Website mit vielen schlechten Links hin, dann befindet sich diese Website in schlechter Nachbarschaft und verliert ihr Vertrauen von Google. Es kann sich um einen qualitativ schlechten Link handeln, wenn eine der Webseiten gegen die Richtlinien der Suchmaschinen wie Google oder Bing verstößt.

Falls die Seite eine vorherige Abstrafung von Google erhalten hat und aus diesem Grund desindexiert wurde, stelle einen „Antrag auf erneute Überprüfung der Website“ und erkläre Google, dass du unwissentlich eine Domain übernommen hast, die leider nicht den Google Richtlinien entsprach. Die Überprüfung und Neuindexierung ist möglich, kann aber einige Zeit dauern.

Fazit: Indexierung ist Pflicht

Die Indexierung von Startseite und Unterseiten sind essenziell für deinen Erfolg im Internet. Wozu die ganze Arbeit, wenn die Seite im Nirvana verschwindet? Nimm dir also Zeit für die Überprüfung eventueller Webcrawling-Fehler mit der Google Search Console.

Halte dich an die Webmaster Richtlinien, vermeide schlechte Links und versteckten Text. Auch technische Tücken wie falsch programmierte robots.txt Dateien, „nofollows“ in Meta Tags oder Mehrfach-Indexierungen zählen zu häufigen Gründen für eine schlechte Sichtbarkeit. Und natürlich müssen die Inhalte Google überzeugen! Mit einer simplen Landingpage ohne Links gelingt das selten.

Buchtipp für ein besseres Suchmaschinenranking

SEO Praxisbuch 2017: Top Rankings in Google & Co. durch Suchmaschinen-OptimierungSEO Praxisbuch 2017: Top Rankings in Google & Co. durch Suchmaschinen-Optimierung

Taschenbuch: 340 Seiten (8.12. 2016)
Preis: 24,90

Jetzt ansehen