Leistungsschutzrecht und robots.txt

Posted by & filed under misc.

Es geistert ja zur Zeit überall die Diskussion um das Leistungsschutzrecht in den Medien herum. Mich hat es mal interessiert, welche Verleger ihre Webauftritte bereits mit einer robots.txt versehen haben. Schließlich wäre das der erste Weg, um seine doch so wertvollen Inhalte vor unberechtigtem Lesen zu schützen.

Ich fange mal an mit unserer geliebten Bild-„Zeitung“ (http://www.bild.de/robots.txt):

User-agent: *
Crawl-delay: 10

User-agent: WebReaper
Disallow: /

User-agent: *
Disallow: /test/
Disallow: /*/vorprod/
Disallow: /*inRegularien=
Disallow: /*view=ajax
Disallow: /*uniqueframe=
Disallow: /suche.bild.html

Rein technischer Hintergrund würde ich sagen. Wobei mich wundert, was ein test Verzeichnis auf dem Liveserver zu suchen hat…

Die Welt (http://www.welt.de/robots.txt):

User-agent: *
Disallow: /*.xmli*
Disallow: /*?service=Ajax
Disallow: /*?service=ajax
Disallow: /channels-extern/
Disallow: /*?config=newsmli_bloomberg2

Mehr oder weniger auch nur technischer Hintergrund.

Der Westen ist da auch nicht anders (http://www.derwesten.de/robots.txt):

User-agent: *
Disallow: /*/comments/create
Disallow: /*/detail.xml
Disallow: /*/print.html
Disallow: /*/recommend.html
Disallow: /*?aservice=versenden
Disallow: /*?resourceId=0
Disallow: /*?service=print
Disallow: /*aservice=cancelSubscription&cache=false*
Disallow: /*aservice=leserreise*
Disallow: /*cache=false
Disallow: /*report=true&comment=*
Disallow: /*sendarticle=true*
Disallow: /*service=ajax*
Disallow: /*service=hfs*
Disallow: /*view=post_comment*
Disallow: /*view=print*
Disallow: /abo/bestellung/
Disallow: /abo/gratis-testen/*
Disallow: /media/
Disallow: /layoutvorlagen/
Disallow: /resources/
Disallow: /static/
Disallow: /stats/
Disallow: /schulung/
Disallow: /suche
Disallow: /suche/
Disallow: /test/
Disallow: /widget/
Disallow: /nrz/widget/
Disallow: /wr/widget/
Disallow: /wp/widget/
Disallow: /ikz/widget/
Disallow: /ipad_wazplus/*
Disallow: /ipad_wazplus_marketing/*
Disallow: /*lastinline*.html

Der Spiegel (http://www.spiegel.de/robots.txt):

User-agent: WebReaper
Disallow: /

User-agent: Slurp
Crawl-delay: 18

Aha, der verbietet alles, allerdings nur für den WebReaper und Slurp darf nur alle 18 Sekunden nach neuen Seiten schauen.

Weiter geht es mit FOCUS (http://www.focus.de/robots.txt):

# robots.txt for http:www.focus.de .
# Gibt an, welche Unterverzeichnisse nicht durch Crawler durchsucht werden sollen

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /ERRORS/    # Fehler-Seiten
Disallow: /test/      # Test-Seiten
Disallow: /test1/     # Test-Seiten
Disallow: /test2/     # Test-Seiten
Disallow: /test3/     # Test-Seiten
Disallow: /test4/     # Test-Seiten
Disallow: /test5/     # Test-Seiten
Disallow: /test6/     # Test-Seiten
Disallow: /Test/      # Test-Seiten
Disallow: /cgi-bin/   # Scripts
Disallow: /GLOBPICS/  # allg. Grafiken
Disallow: /intern/service/suche/    # Sucheergebnisse raus
Disallow: /service/suche/    		# Sucheergebnisse raus
Disallow: /service/archiv/ 			# Sucheergebnisse raus
Disallow: /suche/    				# Sucheergebnisse raus
Disallow: /panorama/welt/playboy_aid_119773.html
Disallow: /mylife    # Mylife-Koop als eigenes Ressort
Disallow: /*?omiid
Disallow: /*?drucken
Disallow: /*&drucken
Disallow: /fol/XML/video/vpl    # Video-Playlisten ausschliessen
Disallow: /*?surveyItem
Disallow: /*autoren?id=70$
Disallow: /*autoren?id=70&
Disallow: /schlagwoerter/personen/k/norbert-klein/
Disallow: /*?snr
Disallow: /*_aid_656913.html
Disallow: /finanzen/news/bilanzen-trickser-in-nadelstreifen_aid_205744.html

FOCUS hat auch einige Test-Verzeichnisse auf seinem Live-Server, ist aber der Erste, den ich mit detaillierteren Regeln sehe. Hier hat sich wohl ein Autor mit der ID 70 beschwert, er sei auf Google zu finden 😉 und sogar ein paar einzelne Artikel sind zu finden.

Der Stern hat offensichtlich kein Interesse am Schutz seiner Artikel (http://www.stern.de/robots.txt):

User-agent: *
Disallow: /api/
Disallow: /static/
Disallow: /syndication/
Disallow: /noch-fragen/suche.html
Disallow: /noch-fragen/antwort-geben

Die Api will natürlich niemand auf Google sehen, FAQs zu blocken, hm nun gut, die werden ihre Gründe dazu gehabt haben.

Die Süddeutsche (http://sueddeutsche.de/robots.txt):

# Robots.txt for sueddeutsche.de
# www.robotstxt.org/
# www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156449

# Exclude SEO-Tools & SPAM-Bots

User-agent: backlink-check.de
Disallow: /

User-agent: BacklinkCrawler
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: Fasterfox
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: rogerbot 
Disallow: /

User-agent: searchpreview
Disallow: /

User-agent: SEODAT
Disallow: /

User-agent: SEOENGBot
Disallow: /

User-agent: SEOkicks-Robot
Disallow: /

User-agent: sistrix
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: xovi
Disallow: /

Sieht auf dem ersten Blick aus, als würden die gar nicht gefunden werden wollen, allerdings, wo ist denn der Google Bot?!

Desweiteren gibt es auch noch die kleineren Zeitungen wie zum Beispiel die BNN. Dort gibt es noch nicht einmal eine robots.txt (was mich allerdings auch nicht weiter wundert, die haben eh das Internet verschlafen), auf der verschlafenen Seite der Kreiszeitung meines Heimatlandkreises (https://www.dieharke.de/robots.txt) findet sich allerdings was interessantes:

User-agent: Googlebot-News
Disallow: /content/meldung.php
Disallow: /Meldungen/

Ehrlich gesagt, kein Wunder, daß dieser Landkreis nie irgendwo in den Nachrichten auftaucht und auch kaum jemand kennt.

Mein Fazit:

Die großen Verlage kennen die robots.txt, setzen sie aber nur selten ein, einzige von mir gefundene Ausnahme war der FOCUS, der aber wahrscheinlich nur auf Drängen einzelner diese Datei angepasst hat. Meine Meinung zum Leistungsschutzrecht:

Gute Lobbyarbeit, die grossen Verlage wollen Geld von Google für das Anzeigen von Teilen ihrer Artikel bekommen. Ich denke, sollte das Gesetz durchkommen und auf Google nur noch Links zu den deutschen Zeitungen erscheinen, werden diese Artikel halt noch weniger gelesen. Ich als End“leser“ suche mir die besten Artikel aus, die ich lesen will. Und das mache ich anhand der kurzen Textausschnitte auf Google. Ein einzelner Link ohne zusätzlichen Text ist uninteressant.

One Response to “Leistungsschutzrecht und robots.txt”

Leave a Reply