Jaký je soubor robots.txt?
Soubor robots.txt řídí přístup vyhledávačů na webu, umožňuje nebo omezuje indexaci obsahu. Zjistěte, jak jej efektivně vytvořit a nakonfigurovat.
Úvod
Soubor robots.txt je jednoduchý textový soubor, který je součástí protokolu pro vylučování robotů (REP - Robots Exclusion Protocol). Obsahuje pokyny pro vyhledávače ohledně toho, jak mají přistupovat k webu a jak ho indexovat. Aby měl účinek, musí být soubor robots.txt umístěn ve root složce webu (například https://domeniu.ro/robots.txt).
Důležitost souboru robots.txt
Soubor robots.txt je zásadní pro správu interakce robotů se stránkami. Existuje mnoho robotů, kteří mohou agresivně indexovat stránky, což může ovlivnit jejich výkon. Pomocí tohoto souboru můžete:
- Kontroluje přístup vyhledávačů k obsahu webu.
- Povoluje indexaci pouze od požadovaných robotů (např. Google, Bing).
- Omezte přístup k citlivým složkám nebo souborům.
Příklady použití
1. Zablokování konkrétního vyhledávače
Pro blokaci přístupu vyhledávače Bing (bingbot) zahrňte následující řádky do souboru robots.txt:
User-agent: bingbotDisallow: /
Vysvětlení:
User-agent: Určuje vyhledávač, pro který se nastavení aplikují.
Disallow: Definuje části webu, ke kterým robot nemá přístup. Symbol / blokuje přístup k celému webu.
2. Blokování všech vyhledávačů
Pro ochranu před přístupem všech vyhledávačů na webové stránky použijte:
User-agent: *Disallow: /
Vysvětlení: Symbol * (wildcard) v poli User-agent se vztahuje na všechny vyhledávače, zatímco / blokuje přístup na celý web.
3. Blokování přístupu pouze k určitým složkám nebo souborům
Pro blokaci přístupu k folderu a konkrétnímu souboru, nakonfigurujte:
User-agent: *Zakažte: /blog/Disallow: /newsletter.php
Vysvětlení: Všechny vyhledávače budou zablokovány, aby indexovaly složku /blog/ a soubor newsletter.php.
Vytvoření souboru robots.txt
Pro vytvoření souboru robots.txt můžete použít online generátor, který vám pomůže rychle a bez chyb přizpůsobit pravidla. Příklady online generátorů lze nalézt prostřednictvím vyhledávání: Generátor robots.txt.
Po vytvoření souboru jej nahrajte do kořenového adresáře webu pomocí správce souborů nebo FTP klienta.