In dieser Lektion wird die Möglichkeit der Zugriffsbeschränkung der Suchmaschinen-Crawler mittels robots.txt erläutert.
Upgedatet am 04.11.2019
Lassen Sie uns nun über die robots.txt Datei sprechen. Mit der robots.txt Datei habe ich die Möglichkeit, dass ich den Crawlern, also ob das jetzt ein Google Crawler, ein Crawler einer anderen Suchmaschine oder auch im Prinzip ein Crawler eines Softwareherstellers, der sich die Daten holen möchte ist. Mit der robots.txt Datei kann ich im Prinzip jeden Crawler aussperren. Es ist die Frage eben, ob sich die Softwarehersteller an die Anweisung der robots.txt halten. Die Suchmaschinen müssten es eigentlich tun. Also ganz klar von Google hier zum Beispiel definiert, die robots.txt Datei sollte man eigentlich nur dafür verwenden, um das Crawling zu steuern. Das heißt, wenn ich nicht möchte, dass bestimmte Unterseiten, bestimmte Verzeichnisse oder bestimmte URLs mit diversen Parametern gecrawlt werden, kann ich die robots.txt Datei verwenden. So viel zur Theorie. Schauen wir uns an, wie das in der Praxis funktioniert.
Erstellen kann ich die robots.txt Datei ganz einfach mit jedem Computer. Ich brauche nur einen Texteditor und erstelle dann ein Dokument. Eine Textdatei die robots.txt heißt. Das machen wir gleich gemeinsam und im Anschluss schauen wir uns dann an, ob die robots.txt Datei auch mehr oder weniger funktioniert. Ob sie Fehler beinhaltet, ob Google in der Lage ist die Inhalte, die gecrawlt haben möchten, zu crawlen oder ob die irgendwo ein Problem finden können. Den robots.txt Tester können Sie natürlich auch verwenden, wenn Sie schon eine rotbots.txt Datei online haben. Ich wechsle mal kurz raus aus dem PowerPoint und zuerst möchte ich Ihnen mal kurz zeigen, dass sie eigentlich von jeder Webseite, wenn es eine robots.txt Datei gibt, Sie sich diese anschauen können. Also wenn ich hier einfach bei der Domain hinten /robots.txt eingebe, komme ich auf die robots.txt Datei jeder Webseite. Das muss natürlich für jeden zugänglich sein, sonst könnte die Suchmaschine auch nicht schauen, ob sie jetzt zum Beispiel bestimmte Unterordner oder URLs durchsuchen oder speichern darf. Im Prinzip ist, das die erste Datei die sich eine Suchmaschine anschaut, wenn sie auf die Webseite kommt. Ich kann das auch machen mit chip.de, zum Beispiel. Ich gebe hier ein robots.txt und sehe die chip.de robots.txt Datei. Hier sehen wir gleich die erste Zeile, User-agent. Das betrifft den Crawler. Ich könnte hier sagen, also mit dem Sternchen habe ich definiert, dass es für alle gilt, ich könnte hier aber auch sagen User-agent: Googlebot. Dann würde es nur für Googlebot gelten und ich könnte zum Beispiel auch definieren nur für Googlebot Images oder nur für den Yandexbot oder für den Yahoobot usw. Ich könnte hier speziell für jeden Bot etwas definieren. Im Normalfall macht man es einfach so, dass eben diese Sachen ausgeschlossen werden. Was ich hier machen kann oder was Chip hier gemacht hat, ist ein Dialog, mit dem Dialog sage ich dem Bot, er darf es nicht durchsuchen. Und hier ist eben dieser ganze Folder usercenter ausgeschlossen vom Crawling. Man sieht hier auch, dass dezidiert hier ein paar Bilder ausgeschlossen wurden, in der robots.txt Datei. Ganz wichtig, die robots.txt Datei bitte nicht dafür verwenden, um irgendwas vor irgendwem zu verstecken. Das heißt, Sie sehen jetzt wir können in jede robots.txt Datei reinschauen. Also wirklich nur Dinge vom Robot ausschließen. Hier unten sehen wir auch, dass User-agent: Googlebot-Image definiert wurde und der Googlebot-Image darf hier nicht den Subfolder /preisvergleich/images/pricegraph, da darf man nicht rein. Und zusätzlich sind hier, in der robots.txt Datei, auch die Sitemaps definiert. Das ist die beste Möglichkeit Google zu sagen, dass hier Sitemaps vorhanden sind. Und Google wird das dann gleich weiterverarbeiten. Also jetzt haben wir gesehen, diese Webseiten haben schon Sitemaps und die haben auch schon eine robots.txt Datei. Und falls Sie jetzt aber noch keine robots.txt Datei haben, wie bekommen Sie diese. Also im Normalfall, wenn ein WordPress installiert wird, bekommen Sie so eine Standard robots.txt Datei, im Normalfall. Das heißt, das gilt für alle User-agent und das Einzige, was hier blockiert wird, ist das wp-admin Verzeichnis, sozusagen der Admin Bereich. Falls Sie das nicht haben, können Sie, also falls sie ein WordPress verwenden, ganz einfach diese Zeilen herauskopieren. Ich zeige Ihnen natürlich später auch noch, was sie machen können, wenn sie kein WordPress verwenden.
Im Prinzip brauchen sie dann ein FTP Programm. Das kann das FTP Programm Ihrer Wahl sein. Sie müssen einfach in der Lage sein, Daten hinauf und hinunterzuladen. Und Sie brauchen einen simplen Texteditor. Ich starte hier mal meinen Texteditor. Mache ein neues Dokument und kopiere einfach diese zwei Zeilen hier rein. Das Einzige, was ich da noch machen muss ist, ich muss das umbenennen. Also ich muss speichern unter robots.txt und ich ersetze das hier mal und speichere mir das dann noch mal auf den Desktop, damit ich es wieder finden kann. Robots.txt verwenden und jetzt ziehe ich diese .txt Datei in das Root Verzeichnis meines Servers. Das Root Verzeichnis, ist das oberste Verzeichnis, das es gibt. Mit diesem reinziehen ins Verzeichnis, habe ich jetzt diese robots.txt Datei erstellt und die ist somit zugänglich. Wenn ich die ändern möchte, würde ich die einfach, ich schmeiß die mal in den Papierkorb, wenn ich die ändern möchte, muss ich die einfach wieder herziehen. Anklicken, editieren und dann wieder raufziehen. Jetzt haben wir eine Datei erstellt, jetzt möchte ich aber auch wissen, funktioniert denn das Ganze, wie ich das möchte oder blockiere ich vielleicht irgendwas, was ich nicht blockieren sollte.
Es ist jetzt leider nicht mehr so einfach diesen robots.txt Tester zu finden. Also dieses Testing Tool. Da die Search Console von Google umgebaut wurde und meines Wissens nach, der normale robots.txt Tester noch nicht in der neuen Console zur Verfügung steht. Das heißt, das Beste was Sie machen können ist, Sie suchen einfach im Internet nach robots.txt Tester. Sie werden dann diese Seite finden von Google, wo man dann auf die alte Version des robots.txt Testers kommt. Bis er in der neuen Version eingebaut ist. Also einfach dann hier draufklicken und dann kommen Sie im Prinzip zum robots.txt Tester. Und brauchen dann einfach hier nur die Property auswählen und dann kann es schon losgehen.
Ich sehe hier die robots.txt Datei, die ich erstellt habe und sage dann hier testen. Ich sehe hier keine Fehler und keine Warnings. Ich kann auch sagen, ich möchte das testen mit dem Googlebot Images. Ich kann es testen mit dem Googlebot Mobile und Sie sehen hier es steht hier überall „zugelassen“. Also das ist dann okay. Wenn ich jetzt aber irgendwo, sagen wir, das schaut jetzt relativ banal aus, aber sagen wir, ich hätte in diesem Verzeichnis dann noch irgendein Verzeichnis und dann hätte ich hier noch ein Verzeichnis und da irgendeine Datei drinnen und würde das testen. Dann sehen Sie, hoppla, ich hab das ja blockiert. Weil dieser gesamtes Subfolder ist blockiert, das heißt, Google kann diese ganzen Dinge hinten auch nicht mehr erreichen. Also das ist wichtig zu wissen, dass man hier einen großen Fehler machen kann, wenn hier relativ tiefe Strukturen sind, ist das gar nicht mehr so einfach zu sehen. Also ist hier geblockt, wie man sieht und das ist gefährlich. Weil es kann mir passieren, dass die ganze Webseite aus dem Index heraus fällt oder ganze Subfolder. Schauen wir zurück in die Folien.
Jetzt haben wir gesehen, wie man so eine robots.txt Datei erstellen kann. Wie man sie hinaufladen kann und wie man sie testen kann. Also nochmals zur Zusammenfassung. Die robots.txt Datei muss unbedingt eine .txt, also eine Textdatei sein und sie muss in der obersten Ebene abgelegt sein. Sie muss den Name robots.txt haben, damit Google verstehen kann, das hier die Anweisungen für die robots.txt Datei enthalten sind.
Die Syntax schauen wir uns auch noch an. Wir haben ja kurz gesehen, wenn es zum Beispiel ein Sternchen ist, gilt das für alle Suchmaschinen, für alle Bots. Im Prinzip kann ich definieren, den User-agent: [the name of the robot the following rule applies to] also wirklich den Namen des Roboters, des Crawlers, für den die nachfolgenden Anweisungen gelten. Mit Disallow kann ich sagen, dass es nicht erlaubt ist. Mit Allow kann ich sagen, dass es erlaubt ist. Wenn Sie diese URL unten klicken, sehen Sie dann auch noch genauere Spezifikationen von Google. Also was man alles machen kann. Ich kann zum Beispiel, also dieser Disallow: /, wäre zum Beispiel die gesamte Webseite wäre dann hier blockiert. Das ist ganz schön gefährlich und kann dazu führen, dass die gesamte Webseite nicht mehr im Index ist. Ich kann einzelne Verzeichnisse aus dem Index halten. Ich kann hier einzelne Dokumente, also einzelne Files, HTML Seiten, wie auch immer, ich kann Bilder raushalten, ich kann den Googlebot Image definiere, ich kann einen anderen Bot definiere, ich kann generell GIFs raushalten aus dem Index. Also da gibt es einiges, was ich da mitmachen kann. Für jeden der sich das im Detail anschauen möchte, gibt es einen Link hier zu den Details von Google.