Ako upraviť súbor txt robots. Ako upraviť súbor txt robots Vytvorte súbor txt robots

Rýchla navigácia na tejto stránke:

Moderná realita je taká, že v RuNet sa ani jedna stránka, ktorá rešpektuje seba, nezaobíde bez súboru s názvom robots.txt – aj keď nemáte čo zakázať indexovanie (hoci takmer každá stránka má technické stránky a duplicitný obsah, ktorý vyžaduje zatvorenie pred indexovaním ), potom sa určite oplatí zaregistrovať smernicu s www a bez www pre Yandex - na to slúžia pravidlá pre písanie robots.txt, o ktorých sa bude diskutovať nižšie.

Čo je robots.txt?

Súbor s týmto názvom pochádza z roku 1994, keď sa konzorcium W3C rozhodlo zaviesť takýto štandard, aby stránky mohli poskytovať vyhľadávačom pokyny na indexovanie.

Súbor s týmto názvom musí byť uložený v koreňovom adresári lokality, jeho umiestnenie do iných priečinkov nie je povolené.

Súbor vykonáva nasledujúce funkcie:

  1. zakazuje indexovanie akýchkoľvek stránok alebo skupín stránok
  2. umožňuje indexovanie ľubovoľných stránok alebo skupín stránok
  3. ukazuje robotovi Yandex, ktoré zrkadlo stránky je hlavné (s www alebo bez www)
  4. zobrazuje umiestnenie súboru sitemap

Všetky štyri body sú mimoriadne dôležité pre optimalizáciu webových stránok pre vyhľadávače. Blokovanie indexovania vám umožňuje zablokovať indexovanie stránok, ktoré obsahujú duplicitný obsah – napríklad stránky s tagmi, archívy, výsledky vyhľadávania, stránky s verziami na tlač atď. Prítomnosť duplicitného obsahu (keď je rovnaký text, aj keď vo veľkosti niekoľkých viet, prítomný na dvoch alebo viacerých stránkach) je pre stránku mínusom v hodnotení vyhľadávačov, preto by malo byť duplicitných čo najmenej.

Direktíva allow nemá žiadny nezávislý význam, pretože štandardne sú všetky stránky už dostupné na indexovanie. Funguje to v spojení s disallow – keď je napríklad určitá kategória úplne uzavretá pre vyhľadávače, no chceli by ste si v nej otvoriť túto alebo samostatnú stránku.

Ukazovanie na hlavné zrkadlo stránky je tiež jedným z najdôležitejších prvkov optimalizácie: vyhľadávacie nástroje považujú stránky www.yoursite.ru a yoursite.ru za dva rôzne zdroje, pokiaľ im priamo nepoviete inak. Výsledkom je zdvojnásobenie obsahu – výskyt duplikátov, zníženie sily externých odkazov (externé odkazy môžu byť umiestnené s www aj bez www) a v dôsledku toho to môže viesť k nižšiemu umiestneniu vo výsledkoch vyhľadávania.

Pre Google je hlavné zrkadlo zaregistrované v nástrojoch správcu webu (http://www.google.ru/webmasters/), ale pre Yandex môžu byť tieto pokyny zaregistrované iba v tom istom robots.tkht.

Ukázanie na súbor xml s mapou webu (napríklad sitemap.xml) umožňuje vyhľadávacím nástrojom zistiť tento súbor.

Pravidlá pre špecifikáciu User-agent

User-agent je v tomto prípade vyhľadávač. Pri písaní pokynov musíte uviesť, či sa budú vzťahovať na všetky vyhľadávače (v takom prípade je uvedená hviezdička - *) alebo či sú určené pre konkrétny vyhľadávací nástroj - napríklad Yandex alebo Google.

Ak chcete nastaviť User-agent označujúci všetkých robotov, napíšte do súboru nasledujúci riadok:

User-agent: *

Pre Yandex:

Používateľský agent: Yandex

Pre Google:

User-agent: GoogleBot

Pravidlá pre špecifikáciu nepovoliť a povoliť

Po prvé, treba poznamenať, že súbor robots.txt musí obsahovať aspoň jednu direktívu disallow, aby bola platná. Teraz sa pozrime na aplikáciu týchto smerníc na konkrétnych príkladoch.

Pomocou tohto kódu povolíte indexovanie všetkých stránok lokality:

User-agent: * Disallow:

A s týmto kódom sa naopak všetky stránky zatvoria:

User-agent: * Disallow: /

Ak chcete zakázať indexovanie konkrétneho adresára s názvom priečinok, zadajte:

User-agent: * Disallow: /folder

Na nahradenie ľubovoľného názvu môžete použiť aj hviezdičky:

User-agent: * Disallow: *.php

Dôležité: hviezdička nahrádza celý názov súboru, to znamená, že nemôžete zadať súbor*.php, ale iba *.php (ale všetky stránky s príponou .php budú zakázané; aby ste tomu zabránili, môžete zadať konkrétnu adresu stránky) .

Direktíva allow, ako je uvedené vyššie, sa používa na vytváranie výnimiek v disallow (inak to nemá význam, pretože stránky sú už štandardne otvorené).

Napríklad zakážeme indexovanie stránok v archívnom priečinku, ale stránku index.html z tohto adresára necháme otvorenú:

Povoliť: /archive/index.html Nepovoliť: /archive/

Zadajte hostiteľa a mapu webu

Hostiteľ je hlavným zrkadlom stránky (t. j. názov domény plus www alebo názov domény bez tejto predpony). Hostiteľ je špecifikovaný iba pre robota Yandex (v tomto prípade musí existovať aspoň jeden príkaz Disallow).

Ak chcete určiť hostiteľa, súbor robots.txt musí obsahovať nasledujúcu položku:

User-agent: Yandex Disallow: Host: www.yoursite.ru

Pokiaľ ide o mapu lokality, v súbore robots.txt je mapa lokality označená jednoduchým napísaním celej cesty k príslušnému súboru s uvedením názvu domény:

Sitemap: http://yoursite.ru/sitemap.xml

Je napísané o tom, ako vytvoriť mapu stránok pre WordPress.

Príklad súboru robots.txt pre WordPress

Pre WordPress musia byť pokyny špecifikované tak, aby sa zatvorili všetky technické adresáre (wp-admin, wp-includes atď.) na indexovanie, ako aj duplicitné stránky vytvorené tagmi, súbormi RSS, komentármi a vyhľadávaním.

Ako príklad súboru robots.txt pre wordpress si môžete vziať súbor z našej webovej stránky:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */ príloha/* Povoliť: /wp-content/uploads/ Hostiteľ: www..php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: * /feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Allow: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/ * Disallow: */attachment/* Allow: /wp-content/uploads/ Sitemap: https://www..xml

Súbor robots.txt si môžete stiahnuť z našej webovej stránky pomocou .

Ak máte po prečítaní tohto článku stále nejaké otázky, opýtajte sa ich v komentároch!

Najprv vám poviem, čo je robots.txt.

Robots.txt– súbor, ktorý sa nachádza v koreňovom priečinku stránky, kde sú napísané špeciálne pokyny pre vyhľadávacie roboty. Tieto pokyny sú potrebné na to, aby robot pri vstupe na stránku nebral do úvahy stránku/sekciu, inými slovami, stránku zatvoríme z indexovania.

Prečo potrebujete súbor robots.txt?

Súbor robots.txt je považovaný za kľúčovú požiadavku pre SEO optimalizáciu absolútne akejkoľvek webovej stránky. Absencia tohto súboru môže negatívne ovplyvniť záťaž robotmi a pomalé indexovanie a navyše stránka nebude úplne indexovaná. Používatelia preto nebudú môcť pristupovať k stránkam prostredníctvom služieb Yandex a Google.

Vplyv súboru robots.txt na vyhľadávače?

Vyhľadávače(najmä Google) bude stránku indexovať, ale ak neexistuje súbor robots.txt, potom, ako som povedal, nie všetky stránky. Ak takýto súbor existuje, potom sa roboty riadia pravidlami, ktoré sú špecifikované v tomto súbore. Okrem toho existuje niekoľko typov vyhľadávacích robotov, z ktorých niektoré môžu brať do úvahy pravidlo, zatiaľ čo iné ho ignorujú. Najmä robot GoogleBot neberie do úvahy direktívy Host a Crawl-Delay, robot YandexNews nedávno prestal brať do úvahy direktívu Crawl-Delay a roboty YandexDirect a YandexVideoParser ignorujú všeobecne akceptované smernice v súbore robots.txt (ale brať do úvahy tie, ktoré sú napísané špeciálne pre nich).

Stránku najviac načítavajú roboty, ktoré načítavajú obsah z vašej stránky. Podľa toho, ak robotovi povieme, ktoré stránky má indexovať a ktoré ignorovať, ako aj v akých časových intervaloch načítavať obsah zo stránok (to platí skôr pre veľké weby, ktoré majú v indexe vyhľadávača viac ako 100 000 stránok). To robotovi výrazne uľahčí indexovanie a sťahovanie obsahu zo stránky.


Medzi nepotrebné súbory pre vyhľadávače patria súbory, ktoré patria do CMS, napríklad vo Wordpresse – /wp-admin/. Okrem toho ajax, json skripty zodpovedné za vyskakovacie formuláre, bannery, výstup captcha atď.

Pre väčšinu robotov tiež odporúčam zablokovať indexovanie všetkých súborov Javascript a CSS. Ale pre GoogleBot a Yandex je lepšie indexovať takéto súbory, pretože ich používajú vyhľadávače na analýzu pohodlia stránky a jej hodnotenia.

Čo je to smernica robots.txt?



smernice– to sú pravidlá pre vyhľadávacích robotov. Prvé štandardy pre písanie robots.txt a preto sa objavili v roku 1994 a rozšírený štandard v roku 1996. Ako však už viete, nie všetky roboty podporujú určité smernice. Nižšie som preto popísal, čím sa riadia hlavní roboti pri indexovaní webových stránok.

Čo znamená User-agent?

Toto je najdôležitejšia smernica, ktorá určuje, ktoré vyhľadávacie roboty budú dodržiavať ďalšie pravidlá.

Pre všetky roboty:

Pre konkrétneho robota:

User-agent: Googlebot

Registrácia v súbore robots.txt nie je dôležitá, môžete napísať Googlebot aj googlebot

Vyhľadávacie roboty Google







Vyhľadávacie roboty Yandex

Hlavný indexovací robot Yandex

Používa sa v službe Yandex.Images

Používa sa v službe Yandex.Video

Multimediálne dáta

Blog Search

Vyhľadávací robot pristupujúci na stránku pri jej pridávaní prostredníctvom formulára „Pridať adresu URL“.

robot, ktorý indexuje ikony webových stránok (favicony)

Yandex.Direct

Yandex.Metrica

Používa sa v službe Yandex.Catalog

Používa sa v službe Yandex.News

YandexImageResizer

Robot na vyhľadávanie mobilných služieb

Vyhľadávacie roboty Bing, Yahoo, Mail.ru, Rambler

Direktívy Disallow a Allow

Zakázať blokovanie sekcií a stránok vašej lokality v indexovaní. Preto ich Allow, naopak, otvára.

Existujú určité zvláštnosti.

Po prvé, ďalšie operátory sú *, $ a #. Na čo slúžia?

“*” – to je ľubovoľný počet postáv a ich absencia. Štandardne je už na konci riadku, takže nemá zmysel dávať ho znova.

“$” – označuje, že znak pred ním by mal prísť ako posledný.

“#” – komentár, robot neberie do úvahy všetko, čo nasleduje za týmto symbolom.

Príklady použitia Disallow:

Disallow: *?s=

Disallow: /category/

V súlade s tým vyhľadávací robot zatvorí stránky ako:

Ale stránky ako táto budú otvorené na indexovanie:

Teraz musíte pochopiť, ako sa vykonávajú pravidlá vnorenia. Je absolútne dôležité, v akom poradí sú smernice napísané. Dedičnosť pravidiel je daná tým, ktoré adresáre sú špecifikované, čiže ak chceme stránku/dokument zablokovať z indexovania, stačí napísať direktívu. Pozrime sa na príklad

Toto je náš súbor robots.txt

Disallow: /template/

Táto direktíva môže byť tiež špecifikovaná kdekoľvek a môže byť špecifikovaných niekoľko súborov sitemap.

Príkaz hostiteľa v súbore robots.txt

Táto smernica je potrebná na označenie hlavného zrkadla stránky (často s alebo bez www). Upozorňujeme, že hostiteľská smernica je špecifikovaná bez protokolu http://, ale s protokolom https://. Smernicu berú do úvahy iba vyhľadávacie roboty Yandex a Mail.ru a iné roboty, vrátane GoogleBot, nebudú brať pravidlo do úvahy. Hostiteľ by mal byť špecifikovaný raz v súbore robots.txt

Príklad s http://

Hostiteľ: website.ru

Príklad s https://

Smernica o oneskorenom prehľadávaní

Nastavuje časový interval indexovania stránok lokality vyhľadávacím robotom. Hodnota je uvedená v sekundách a milisekundách.

Príklad:

Používa sa väčšinou na veľkých internetových obchodoch, informačných stránkach, portáloch, kde je návštevnosť stránok od 5000 za deň. Je potrebné, aby vyhľadávací robot v určitom časovom období podal požiadavku na indexovanie. Ak táto smernica nie je špecifikovaná, môže spôsobiť vážne zaťaženie servera.

Optimálna hodnota oneskorenia indexového prehľadávania je pre každú lokalitu iná. Pre vyhľadávače Mail, Bing, Yahoo je možné hodnotu nastaviť na minimálnu hodnotu 0,25, 0,3, keďže tieto roboty vyhľadávačov môžu prehľadávať vašu stránku raz za mesiac, 2 mesiace atď. (veľmi zriedkavo). Pre Yandex je lepšie nastaviť vyššiu hodnotu.


Ak je zaťaženie vášho webu minimálne, potom nemá zmysel špecifikovať túto smernicu.

Smernica o čistých parametroch

Pravidlo je zaujímavé, pretože prehľadávaču hovorí, že stránky s určitými parametrami nie je potrebné indexovať. Zadané sú dva argumenty: URL stránky a parameter. Táto smernica je podporovaná vyhľadávacím nástrojom Yandex.

Príklad:

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /košík/

Disallow: *sort=

Disallow: *view=

User-agent: GoogleBot

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /košík/

Disallow: *sort=

Disallow: *view=

Povoliť: /plugins/*.css

Povoliť: /plugins/*.js

Povoliť: /plugins/*.png

Povoliť: /plugins/*.jpg

Povoliť: /plugins/*.gif

Používateľský agent: Yandex

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /košík/

Disallow: *sort=

Disallow: *view=

Povoliť: /plugins/*.css

Povoliť: /plugins/*.js

Povoliť: /plugins/*.png

Povoliť: /plugins/*.jpg

Povoliť: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

V príklade sme spísali pravidlá pre 3 rôznych botov.

Kam pridať súbor robots.txt?

Pridané do koreňového priečinka lokality. Okrem toho, aby ste mohli sledovať odkaz:

Ako skontrolovať súbor robots.txt?

Správca webu Yandex

Na karte Nástroje vyberte položku Analýza Robots.txt a potom kliknite na tlačidlo Skontrolovať

Google Search Console

Na karte Skenovanie vybrať Nástroj na kontrolu súboru Robots.txt a potom kliknite na skontrolovať.

Záver:

Súbor robots.txt musí byť prítomný na každej propagovanej webovej stránke a iba jeho správna konfigurácia vám umožní získať potrebné indexovanie.

A nakoniec, ak máte nejaké otázky, opýtajte sa ich v komentároch pod článkom a tiež by ma zaujímalo, ako píšete robots.txt?

Súbor Robots.txt— textový súbor vo formáte .txt, ktorý obmedzuje prístup vyhľadávacích robotov k obsahu na http serveri. Ako definícia, Robots.txt- Toto štandard výnimky robota, ktorý bol prijatý W3C 30. januára 1994 a ktorý väčšina vyhľadávačov dobrovoľne používa. Súbor robots.txt pozostáva zo sady inštrukcií pre vyhľadávacie roboty, aby zabránili indexovaniu určitých súborov, stránok alebo adresárov na lokalite. Pozrime sa na popis robots.txt pre prípad, keď stránka neobmedzuje prístup robotov na stránku.

Jednoduchý príklad súboru robots.txt:

User-agent: * Povoliť: /

Tu roboty úplne umožňujú indexovanie celého webu.

Súbor robots.txt musí byť nahraný do koreňového adresára vašej stránky tak, aby bol dostupný na:

Your_site.ru/robots.txt

Umiestnenie súboru robots.txt do koreňového adresára lokality zvyčajne vyžaduje prístup FTP. Niektoré systémy správy (CMS) však umožňujú vytvárať súbor robots.txt priamo z ovládacieho panela lokality alebo prostredníctvom vstavaného správcu FTP.

Ak je súbor dostupný, v prehliadači uvidíte obsah súboru robots.txt.

Na čo slúži robots.txt?

Roots.txt pre web je dôležitým aspektom. Prečo potrebujete súbor robots.txt?? Napríklad v SEO robots.txt je potrebný na vylúčenie z indexovania stránok, ktoré neobsahujú užitočný obsah a oveľa viac.. Ako, čo, prečo a prečo je vylúčené, už bolo popísané v článku o, tu sa tým nebudeme zaoberať. Je potrebný súbor robots.txt? na všetky stránky? Áno a nie. Ak použitie súboru robots.txt znamená vylúčenie stránok z vyhľadávania, potom pre malé stránky s jednoduchou štruktúrou a statickými stránkami môžu byť takéto vylúčenia zbytočné. Niektoré však môžu byť užitočné pre malé stránky príkazy robots.txt, napríklad smernica Host alebo Sitemap, ale o tom nižšie.

Ako vytvoriť súbor robots.txt

Pretože robots.txt je textový súbor, a to vytvorte súbor robots.txt, môžete použiť napríklad ľubovoľný textový editor Poznámkový blok. Po otvorení nového textového dokumentu ste už začali vytvárať súbor robots.txt, zostáva už len zostaviť jeho obsah v závislosti od vašich požiadaviek a uložiť ho ako textový súbor s názvom robots vo formáte txt. Všetko je jednoduché a vytvorenie súboru robots.txt by nemalo robiť problémy ani začiatočníkom. Nižšie vám na príkladoch ukážem, ako zostaviť súbor robots.txt a čo napísať do robotov.

Vytvorte súbor robots.txt online

Možnosť pre lenivých - vytvorte roboty online a stiahnite si súbor robots.txt už v hotovej podobe. Vytváranie robots txt online ponúka mnoho služieb, výber je na vás. Hlavná vec je jasne pochopiť, čo bude zakázané a čo bude povolené, inak vytvorenie súboru robots.txt online sa môže zmeniť na tragédiu, čo môže byť neskôr ťažké opraviť. Najmä ak vyhľadávanie obsahuje niečo, čo malo byť uzavreté. Buďte opatrní – skontrolujte svoj súbor robots pred jeho nahraním na stránku. Ešte vlastný súbor robots.txt presnejšie odráža štruktúru obmedzení ako obmedzenie, ktoré bolo vygenerované automaticky a stiahnuté z inej stránky. Čítajte ďalej a zistite, na čo je potrebné pri úprave súboru robots.txt venovať osobitnú pozornosť.

Úprava súboru robots.txt

Keď sa vám podarí vytvoriť súbor robots.txt online alebo vlastnými rukami, môžete upraviť súbor robots.txt. Jeho obsah môžete ľubovoľne meniť, hlavné je dodržiavať niektoré pravidlá a syntax súboru robots.txt. Počas práce na stránke sa súbor robots môže zmeniť a ak upravíte súbor robots.txt, potom nezabudnite na stránku nahrať aktualizovanú aktuálnu verziu súboru so všetkými zmenami. Ďalej sa pozrime na pravidlá pre nastavenie súboru, aby sme to vedeli ako zmeniť súbor robots.txt a „nerúbať drevo“.

Správne nastavenie súboru robots.txt

Správne nastavenie súboru robots.txt vám umožňuje vyhnúť sa zadávaniu súkromných informácií do výsledkov vyhľadávania veľkých vyhľadávacích nástrojov. Na to by sa však nemalo zabúdať Príkazy robots.txt nie sú ničím iným ako návodom na akciu, nie ochranou. Roboty zo spoľahlivých vyhľadávacích nástrojov ako Yandex alebo Google sa riadia pokynmi v súbore robots.txt, ale iné roboty ich môžu ľahko ignorovať. Správne pochopenie a použitie súboru robots.txt je kľúčom k dosiahnutiu výsledkov.

Rozumieť ako vytvoriť správny robots txt, najprv musíte pochopiť všeobecné pravidlá, syntax a smernice súboru robots.txt.

Správny súbor robots.txt začína príkazom User-agent, ktorý označuje, ktorým špecifickým príkazom robota sú adresované.

Príklady User-agent v súbore robots.txt:

# Označuje príkazy pre všetky roboty súčasne User-agent: * # Označuje príkazy pre všetky roboty Yandex User-agent: Yandex # Označuje príkazy iba pre hlavného indexovacieho robota Yandex User-agent: YandexBot # Označuje príkazy pre všetkých používateľov robotov Google -agent: Googlebot

Upozorňujeme, že takéto nastavenie súboru robots.txt povie robotovi, aby používal iba direktívy, ktoré sa zhodujú s užívateľským agentom s jeho menom.

Príklad robots.txt s viacerými výskytmi User-agent:

# Bude použitý všetkými robotmi Yandex User-agent: Yandex Disallow: /*utm_ # Bude použitý všetkými robotmi Google User-agent: Googlebot Disallow: /*utm_ # Bude použitý všetkými robotmi okrem robotov Yandex a Google User- agent: * Povoliť: / *utm_

Direktíva user-agent vytvorí iba pokyn pre konkrétneho robota a hneď za príkazom User-agent by mal byť príkaz alebo príkazy priamo indikujúce stav pre vybraného robota. Vyššie uvedený príklad používa direktívu "Disallow", ktorá má hodnotu "/*utm_". Tým pádom všetko uzavrieme. Správne nastavenie súboru robots.txt zakazuje prítomnosť prázdnych zalomení riadkov medzi príkazmi „User-agent“, „Disallow“ a príkazmi nasledujúcimi po „Disallow“ v rámci aktuálneho „User-agenta“.

Príklad nesprávneho posuvu riadkov v súbore robots.txt:

Príklad správneho posuvu riadkov v súbore robots.txt:

User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Ako vidno z príkladu, pokyny v súbore robots.txt prichádzajú v blokoch, z ktorých každý obsahuje inštrukcie buď pre konkrétneho robota alebo pre všetky roboty "*".

Je tiež dôležité zabezpečiť správne poradie a zoradenie príkazov v súbore robots.txt pri súčasnom použití direktív ako „Disallow“ a „Allow“. Direktíva „Allow“ je povoľujúca direktíva a je opakom príkazu robots.txt „Disallow“, zakazujúcej direktívy.

Príklad spoločného použitia príkazov v súbore robots.txt:

User-agent: * Allow: /blog/page Disallow: /blog

Tento príklad bráni všetkým robotom v indexovaní všetkých stránok začínajúcich na „/blog“, ale umožňuje indexovanie všetkých stránok začínajúcich na „/blog/page“.

Predchádzajúci príklad súboru robots.txt v správnom zoradení:

User-agent: * Disallow: /blog Allow: /blog/page

Najprv zakážeme celý úsek, potom povolíme niektoré jeho časti.

Ďalší správny príklad súboru robots.txt so spoločnými smernicami:

User-agent: * Allow: / Disallow: /blog Allow: /blog/page

Venujte pozornosť správnej postupnosti príkazov v tomto súbore robots.txt.

Direktívy „Allow“ a „Disallow“ môžu byť špecifikované bez parametrov, v takom prípade bude hodnota interpretovaná inverzne k parametru „/“.

Príklad direktívy „Disallow/Allow“ bez parametrov:

User-agent: * Disallow: # ekvivalent k Allow: / Disallow: /blog Allow: /blog/page

Ako vytvoriť správny súbor robots.txt a ako použiť výklad smerníc je vaša voľba. Obe možnosti budú správne. Hlavná vec je nenechať sa zmiasť.

Pre správne zostavenie robots.txt je potrebné v parametroch smerníc presne uviesť priority a čo bude robotom zakázané sťahovať. Nižšie sa podrobnejšie pozrieme na použitie direktív „Disallow“ a „Allow“, ale teraz sa pozrieme na syntax súboru robots.txt. Znalosť syntaxe robots.txt vám priblíži vytvorte dokonalý robots txt vlastnými rukami.

Syntax súboru robots.txt

Roboty vyhľadávačov dobrovoľne dodržiavajú príkazy súboru robots.txt- štandard pre výnimky týkajúce sa robotov, ale nie všetky vyhľadávače zaobchádzajú so syntaxou súboru robots.txt rovnako. Súbor robots.txt má striktne definovanú syntax, no zároveň napísať robots txt nie je ťažké, pretože jeho štruktúra je veľmi jednoduchá a ľahko pochopiteľná.

Tu je konkrétny zoznam jednoduchých pravidiel, ktorých dodržiavaním sa zbavíte bežné chyby v súbore robots.txt:

  1. Každá smernica začína na novom riadku;
  2. Neuvádzajte viac ako jednu smernicu na jeden riadok;
  3. Nedávajte medzeru na začiatok riadku;
  4. Parameter smernice musí byť na jednom riadku;
  5. Parametre direktívy nie je potrebné uzatvárať do úvodzoviek;
  6. Parametre smernice nevyžadujú koncové bodkočiarky;
  7. Príkaz v súbore robots.txt je zadaný vo formáte - [názov_adresára]:[voliteľná medzera][hodnota][voliteľná medzera];
  8. Komentáre sú povolené v súbore robots.txt za znakom hash #;
  9. Prázdny koniec riadku možno interpretovať ako koniec direktívy User-agent;
  10. Direktíva „Disallow:“ (s prázdnou hodnotou) je ekvivalentná s „Allow: /“ - povoliť všetko;
  11. Direktívy „Allow“ a „Disallow“ nešpecifikujú viac ako jeden parameter;
  12. Názov súboru robots.txt nepovoľuje veľké písmená, nesprávne napísaný názov súboru je Robots.txt alebo ROBOTS.TXT;
  13. Písanie názvov direktív a parametrov veľkými písmenami sa považuje za zlú formu, a aj keď súbor robots.txt podľa normy nerozlišuje veľké a malé písmená, názvy súborov a adresárov často rozlišujú malé a veľké písmená;
  14. Ak je parametrom smernice adresár, potom pred názvom adresára vždy predchádza lomka „/“, napríklad: Disallow: /category
  15. Príliš veľký súbor robots.txt (viac ako 32 kB) sa považuje za úplne povolený, čo zodpovedá „Zakázať:“;
  16. Robots.txt, ktorý je z akéhokoľvek dôvodu neprístupný, možno interpretovať ako úplne povolený;
  17. Ak je súbor robots.txt prázdny, bude sa považovať za úplne povolený;
  18. V dôsledku uvedenia viacerých príkazov "User-agent" bez prázdneho riadka môžu byť všetky nasledujúce príkazy "User-agent" okrem prvého ignorované;
  19. Používanie akýchkoľvek znakov z národných abecied v súbore robots.txt nie je povolené.

Keďže rôzne vyhľadávacie nástroje môžu interpretovať syntax súboru robots.txt odlišne, niektoré klauzuly možno vynechať. Ak napríklad zadáte niekoľko príkazov „User-agent“ bez zalomenia prázdneho riadku, všetky príkazy „User-agent“ budú spoločnosťou Yandex akceptované správne, pretože Yandex vyberá záznamy na základe ich prítomnosti v riadku „User-agent“.

Roboty by mali striktne indikovať len to, čo je potrebné, a nič zbytočné. Nerozmýšľaj ako napísať všetko do robots txt, čo je možné a ako to vyplniť. Ideálny robots txt je ten, ktorý má menej riadkov, ale väčší význam. „Stručnost je dušou dôvtipu“. Tento výraz sa tu hodí.

Ako skontrolovať súbor robots.txt

Za účelom skontrolujte súbor robots.txt Na kontrolu správnosti syntaxe a štruktúry súboru môžete použiť niektorú z online služieb. Napríklad Yandex a Google ponúkajú svoje vlastné služby pre správcov webu, medzi ktoré patria Analýza robots.txt:

Kontrola súboru robots.txt v Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

Za účelom skontrolujte súbor robots.txt online nevyhnutné nahrajte súbor robots.txt na stránku v koreňovom adresári. V opačnom prípade to môže služba nahlásiť nepodarilo sa načítať súbor robots.txt. Odporúča sa najprv skontrolovať dostupnosť súboru robots.txt na adrese, kde sa súbor nachádza, napríklad: your_site.ru/robots.txt.

Okrem overovacích služieb od spoločností Yandex a Google existuje mnoho ďalších online validátory súborov robots.txt.

Robots.txt vs Yandex a Google

Existuje subjektívny názor, že Yandex vníma označenie samostatného bloku smerníc „User-agent: Yandex“ v súbore robots.txt pozitívnejšie ako všeobecný blok smerníc s „User-agent: *“. S robots.txt a Google je situácia podobná. Zadanie samostatných smerníc pre Yandex a Google vám umožňuje ovládať indexovanie stránok prostredníctvom súboru robots.txt. Možno im toto odvolanie osobne lichotí, najmä preto, že pre väčšinu stránok bude obsah blokov robots.txt Yandex, Google a iných vyhľadávacích nástrojov rovnaký. Až na zriedkavé výnimky budú mať všetky bloky „User-agent“. štandard pre súbor robots.txt súbor smerníc. Môžete tiež nainštalovať pomocou rôznych „User-agents“. zákaz indexovania v súbore robots.txt pre Yandex, ale napríklad nie pre Google.

Samostatne stojí za zmienku, že Yandex berie do úvahy takú dôležitú smernicu, ako je „Hostiteľ“, a správny súbor robots.txt pre Yandex by mal obsahovať túto smernicu, ktorá označuje hlavné zrkadlo lokality. Na smernicu "Host" sa pozrieme podrobnejšie nižšie.

Zakázať indexovanie: robots.txt Disallow

Disallow – zákazová smernica, ktorý sa najčastejšie používa v súbore robots.txt. Disallow zabraňuje indexovaniu lokality alebo jej časti v závislosti od cesty zadanej v parametri direktívy Disallow.

Príklad, ako zabrániť indexovaniu stránok v súbore robots.txt:

User-agent: * Disallow: /

Tento príklad blokuje indexovanie celej lokality pre všetky roboty.

Parameter direktívy Disallow umožňuje použitie špeciálnych znakov * a $:

* - ľubovoľný počet ľubovoľných znakov, napríklad parameter /page* vyhovuje parametrom /page, /page1, /page-be-cool, /page/kak-skazat atď. Nie je však potrebné uvádzať * na konci každého parametra, pretože napríklad nasledujúce smernice sa interpretujú rovnako:

User-agent: Yandex Disallow: /page User-agent: Yandex Disallow: /page*

$ - označuje presnú zhodu výnimky s hodnotou parametra:

User-agent: Googlebot Disallow: /page$

V tomto prípade direktíva Disallow zakáže /page, ale nezakáže indexovanie stránky /page1, /page-be-cool alebo /page/kak-skazat.

Ak zatvorte indexovanie stránok robots.txt, vyhľadávacie nástroje môžu na tento krok reagovať chybou „Blokované v súbore robots.txt“ alebo „webová adresa je obmedzená súborom robots.txt“ (adresa URL je zakázaná súborom robots.txt). Ak potrebuješ zakázať indexovanie stránok, môžete použiť nielen robots txt, ale aj podobné html značky:

  • - neindexovať obsah stránky;
  • - nesledovať odkazy na stránke;
  • - je zakázané indexovať obsah a sledovať odkazy na stránke;
  • - podobne ako content="none".

Povoliť indexovanie: robots.txt Povoliť

Povoliť – povoľujúca smernica a opak smernice Disallow. Táto direktíva má syntax podobnú Disallow.

Príklad, ako zakázať indexovanie lokality s výnimkou niektorých stránok v súbore robots.txt:

User-agent: * Disallow: /Allow: /page

Je zakázané indexovať celú stránku, okrem stránok začínajúcich na /page.

Disallow a Allow s prázdnou hodnotou parametra

Prázdna direktíva Disallow:

User-agent: * Disallow:

Nič nezakazujte ani nepovoľujte indexovanie celej lokality a je ekvivalentné:

User-agent: * Povoliť: /

Prázdna smernica Allow:

User-agent: * Povoliť:

Nepovoliť nič alebo úplne zakázať indexovanie stránok je ekvivalentné:

User-agent: * Disallow: /

Hlavné zrkadlo stránky: robots.txt Host

Direktíva Host sa používa na označenie hlavného zrkadla vášho webu robotovi Yandex. Zo všetkých populárnych vyhľadávačov je smernica Hostiteľa rozpoznávajú iba roboty Yandex. Direktíva Host je užitočná, ak je vaša lokalita prístupná cez niekoľko kanálov, napríklad:

Mysite.ru mysite.com

Alebo určiť prioritu medzi:

Mysite.ru www.mysite.ru

Robotovi Yandex môžete povedať, ktoré zrkadlo je hlavné. Smernica Host je uvedená v bloku smerníc „User-agent: Yandex“ a ako parameter je uvedená preferovaná adresa lokality bez „http://“.

Príklad robots.txt označujúci hlavné zrkadlo:

User-agent: Yandex Disallow: /page Host: mysite.ru

Ako hlavné zrkadlo je uvedené doménové meno mysite.ru bez www. Tento typ adresy bude teda uvedený vo výsledkoch vyhľadávania.

User-agent: Yandex Disallow: /page Host: www.mysite.ru

Ako hlavné zrkadlo je uvedené doménové meno www.mysite.ru.

Príkaz hostiteľa v súbore robots.txt možno použiť iba raz, ale ak je direktíva Host zadaná viackrát, bude sa brať do úvahy iba prvá, ostatné smernice Host budú ignorované.

Ak chcete určiť hlavné zrkadlo pre Googlebota, použite službu Nástroje správcu webu Google.

Sitemap: súbor sitemap robots.txt

Pomocou direktívy Sitemap môžete zadať umiestnenie na stránke v súbore robots.txt.

Príklad súboru robots.txt označujúci adresu súboru sitemap:

User-agent: * Disallow: /page Sitemap: http://www.mysite.ru/sitemap.xml

Zadanie adresy mapy webu cez Príkaz Sitemap v súbore robots.txt umožňuje vyhľadávaciemu robotu zistiť prítomnosť súboru sitemap a začať ho indexovať.

Smernica o čistých parametroch

Direktíva Clean-param vám umožňuje vylúčiť z indexovania stránky s dynamickými parametrami. Podobné stránky môžu zobrazovať rovnaký obsah, ale majú rôzne adresy URL stránok. Jednoducho povedané, je to ako keby stránka bola prístupná na rôznych adresách. Našou úlohou je odstrániť všetky nepotrebné dynamické adresy, ktorých môže byť milión. Aby sme to dosiahli, vylúčime všetky dynamické parametre, pomocou smernice Clean-param v súbore robots.txt.

Syntax smernice Clean-param je:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Cesta]

Pozrime sa na príklad stránky s nasledujúcou adresou URL:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Príklad Clean-param súboru robots.txt:

Clean-param: parm1&parm2&parm3 /page.html # len pre stránku.html

Clean-param: parm1&parm2&parm3 / # pre všetkých

Smernica o oneskorenom prehľadávaní

Tento pokyn vám umožňuje znížiť zaťaženie servera, ak roboty navštevujú vaše stránky príliš často. Táto smernica je relevantná hlavne pre stránky s veľkým objemom stránok.

Príklad oneskorenia indexového prehľadávania súboru robots.txt:

User-agent: Yandex Disallow: /page Crawl-delay: 3

V tomto prípade „požiadame“ ​​roboty Yandex, aby stiahli stránky našej stránky nie viac ako raz za tri sekundy. Niektoré vyhľadávače podporujú formát zlomkov ako parameter Príkazy indexového prehľadávania robots.txt.

Vytvorenie samotného súboru

Robots.txt je súbor s pokynmi pre vyhľadávacie roboty. Vytvára sa v koreňovom adresári lokality. Môžete ho vytvoriť práve teraz na pracovnej ploche pomocou programu Poznámkový blok, rovnako ako vytvárate akýkoľvek textový súbor.

Ak to chcete urobiť, kliknite pravým tlačidlom myši na prázdne miesto a vyberte položku Nový – Textový dokument (nie Word). Otvorí sa pomocou bežného poznámkového bloku. Nazvite to roboty, jeho prípona je už správna – txt. To je všetko pre vytvorenie samotného súboru.

Ako vytvoriť súbor robots.txt

Teraz zostáva len vyplniť súbor potrebnými pokynmi. V skutočnosti majú príkazy pre roboty najjednoduchšiu syntax, oveľa jednoduchšiu ako v akomkoľvek programovacom jazyku. Vo všeobecnosti môžete súbor vyplniť dvoma spôsobmi:

Pozrite sa na inú stránku, skopírujte a zmeňte tak, aby vyhovovala štruktúre vášho projektu.

Napíšte to sami

O prvej metóde som už písal. Je vhodné, ak majú stránky rovnaké enginy a nie sú výrazné rozdiely vo funkčnosti. Napríklad všetky stránky WordPress majú rovnakú štruktúru, ale môžu existovať rôzne rozšírenia, ako napríklad fórum, internetový obchod a mnoho ďalších adresárov. Ak chcete vedieť, ako zmeniť robots.txt, prečítajte si tento článok, môžete si prečítať aj predchádzajúci, ale tento povie dosť veľa.

Napríklad na svojom webe máte adresár /source, kde sú uložené zdroje článkov, ktoré napíšete na svoj blog, ale iný webmaster takýto adresár nemá. A vy napríklad chcete zatvoriť zdrojový priečinok z indexovania. Ak skopírujete súbor robots.txt z iného zdroja, takýto príkaz tam nebude. Budete musieť pridať svoje pokyny, odstrániť nepotrebné veci atď.

Takže v každom prípade je užitočné poznať základnú syntax inštrukcií pre roboty, ktorú si teraz rozoberieme.

Ako napísať svoje pokyny robotom?

Prvá vec, ktorou súbor začína, je údaj o tom, ktorým vyhľadávačom sú pokyny určené. Robí sa to takto:

User-agent: Yandex alebo User-agent: Googlebot

Používateľský agent: Yandex

User-agent: Googlebot

Na koniec riadku nie je potrebné dávať žiadne bodkočiarky, toto nie je programovanie pre vás). Vo všeobecnosti je jasné, že v prvom prípade si pokyny prečíta iba robot Yandex, v druhom iba Google. Ak príkazy musia vykonávať všetky roboty, napíšte toto: User-agent:

Skvelé. Vyriešili sme apel na roboty. Nie je to ťažké. Môžete to ilustrovať na jednoduchom príklade. Máte troch mladších bratov, Vasyu, Dima a Petyu, a vy ste ten hlavný. Tvoji rodičia odišli a povedali ti, aby si na nich dával pozor.

Všetci traja ťa o niečo žiadajú. Predstavte si, že im musíte dať odpoveď, ako keby ste písali pokyny na vyhľadávanie robotov. Bude to vyzerať asi takto:

User-agent: Vasya Povoliť: ísť na futbal User-agent: Dima Disallow: ísť na futbal (Dima minule rozbil pohár svojim susedom, bol potrestaný) User-agent: Petya Allow: ísť do kina (Petya má už 16 a je vo všeobecnosti šokovaný, že by som vás mal tiež požiadať o povolenie, ale dobre, nechajte ho ísť).

Vasya si teda spokojne zašnuruje tenisky, Dima so sklonenou hlavou pozerá von oknom na brata, ktorý už rozmýšľa, koľko gólov dnes dá (Dima dostal príkaz disallow, teda zákaz). No Peťo ide na jeho film.

Z tohto príkladu je ľahké pochopiť, že Allow je povolenie a Disallow je zákaz. Ale v robots.txt dávame príkazy nie ľuďom, ale robotom, takže namiesto konkrétnych úloh sa tam píšu adresy stránok a adresárov, ktorým treba povoliť alebo zakázať indexovanie.

Napríklad mám webovú stránku site.ru. Poháňa ho WordPress. Začínam písať návod:

User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /source/ No atď.

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Disallow: /zdroj/

Nuit. d.

Najprv som siahol po všetkých robotoch. Po druhé, zablokoval som indexovanie priečinkov motora, ale zároveň som dal robotovi prístup k priečinku sťahovania. Zvyčajne sú tam uložené všetky obrázky a zvyčajne nie je blokované ich indexovanie, ak plánujete prijímať návštevnosť z vyhľadávania obrázkov.

Pamätajte si, že predtým v článku som povedal, že môžete mať ďalšie adresáre? Môžete si ich vytvoriť sami na rôzne účely. Napríklad na jednej z mojich stránok je priečinok flash, do ktorého vkladám flashové hry, aby som ich mohol spustiť na stránke. Alebo zdroj – tento priečinok môže ukladať súbory dostupné používateľom na stiahnutie.

Vo všeobecnosti nezáleží na tom, ako sa priečinok volá. Ak ho potrebujete zatvoriť, zadajte cestu k nemu a príkaz Disallow.

Príkaz Povoliť je potrebný práve na otvorenie niektorých častí už uzavretých sekcií. Koniec koncov, štandardne, ak nemáte súbor robots.txt, bude celý web dostupný na indexovanie. To je dobré (určite nezatvoríte niečo dôležité omylom) a zároveň zlé (otvoria sa súbory a priečinky, ktoré by nemali byť vo výsledkoch vyhľadávania).

Aby ste lepšie porozumeli tomuto bodu, navrhujem, aby ste sa znova pozreli na tento diel:

Disallow: /wp-content/ Allow: /wp-content/uploads/

Disallow: /wp-content/

Povoliť: /wp-content/uploads/

Ako vidíte, najprv zablokujeme indexovanie celého adresára wp-content. Ukladá všetky vaše šablóny, pluginy, ale obsahuje aj obrázky. Je zrejmé, že sa dajú otvoriť. Preto potrebujeme príkaz Povoliť.

Extra možnosti

Uvedené príkazy nie sú jediné veci, ktoré možno v súbore špecifikovať. Existujú aj tieto: Hostiteľ – označuje hlavné zrkadlo stránky. Pre tých, ktorí to nevedeli, každá webová stránka má dve predvolené možnosti pravopisu názvu domény: domain.com a www.domain.com.

Aby ste sa vyhli problémom, musíte zadať jednu možnosť ako hlavné zrkadlo. Dá sa to urobiť v nástrojoch správcu webu aj v súbore Robots.txt. Za týmto účelom napíšeme: Hostiteľ: domain.com

Čo to dáva? Ak sa niekto pokúsi dostať na vašu stránku takto: www.domain.com, bude automaticky presmerovaný na verziu bez www, pretože bude rozpoznaná ako hlavný mirror.

Druhá smernica je mapa stránok. Myslím, že už chápete, že určuje cestu k súboru sitemap vo formáte xml. Príklad: http://domena.com/sitemap.xml

Opäť platí, že mapu môžete nahrať do Yandex.Webmaster, môžete ju zadať aj v súbore robots.txt, aby robot prečítal tento riadok a jasne pochopil, kde má mapu webu hľadať. Pre robota je mapa stránky rovnako dôležitá ako pre Vasyu – lopta, s ktorou pôjde na futbal. Je to ako keby sa vás spýtal (ako starší brat), kde je lopta. A ty mu povieš:

Za pohovkou

Teraz viete, ako správne nakonfigurovať a zmeniť súbor robots.txt pre Yandex a vo všeobecnosti akýkoľvek iný vyhľadávací nástroj, aby vyhovoval vašim potrebám.

Čo robí prispôsobenie súboru?

Tiež som o tom hovoril skôr, ale zopakujem to. Vďaka prehľadne nakonfigurovanému súboru s príkazmi pre roboty môžete ľahšie zaspať s vedomím, že robot sa nebude plaziť do nepotrebnej sekcie a nebude brať zbytočné stránky do indexu.

Tiež som povedal, že nastavenie súboru robots.txt nevyrieši všetko. Najmä vás to nezachráni pred duplikátmi, ktoré vznikajú v dôsledku nedokonalosti motorov. Rovnako ako ľudia. Dovolili ste Vasyovi ísť na futbal, ale nie je pravda, že tam nebude robiť to isté ako Dima. Je to rovnaké ako s duplikátmi: môžete zadať príkaz, ale určite si nemôžete byť istí, že sa do indexu nevkradne niečo navyše, čo nezničí pozície.

Netreba sa tiež báť dvojníkov ako ohňa. Napríklad Yandex zaobchádza so stránkami, ktoré majú vážne technické problémy, viac-menej normálne. Ďalšia vec je, že ak začnete podnikať, skutočne môžete stratiť veľké percento návštevnosti. Čoskoro však v našej sekcii venovanej SEO pribudne článok o duplikátoch, potom s nimi zabojujeme.

Ako môžem získať normálny súbor robots.txt, ak sám ničomu nerozumiem?

Koniec koncov, vytvorenie súboru robots.txt nie je vytvorením webovej stránky. Je to o niečo jednoduchšie, takže obsah súboru môžete jednoducho skopírovať od ktoréhokoľvek viac či menej úspešného blogera. Samozrejme, ak máte WordPress stránku. Ak je na inom motore, musíte hľadať stránky pomocou rovnakého cms. Už som povedal, ako zobraziť obsah súboru na webovej stránke niekoho iného: Domain.com/robots.txt

Spodná čiara

Myslím, že tu už nie je čo povedať, pretože písanie návodov na roboty by nemalo byť vaším cieľom na tento rok. Toto je úloha, ktorú zvládne aj začiatočník za 30 – 60 minút a profesionál zvyčajne za pár minút. Podarí sa vám to a nemôžete o tom pochybovať.

A ak chcete zistiť ďalšie užitočné a dôležité tipy na propagáciu a propagáciu blogu, môžete sa pozrieť na náš jedinečný. Ak použijete 50 – 100 % odporúčaní odtiaľ, budete môcť v budúcnosti úspešne propagovať akékoľvek stránky.

Indexové prehľadávače Yandex a Google navštevujú stránky lokality, hodnotia obsah, pridávajú nové zdroje a informácie o stránkach do indexovej databázy vyhľadávača. Boti pravidelne navštevujú stránky, aby preniesli aktualizácie obsahu do databázy, všimli si vzhľad nových odkazov a ich dostupnosť.

Prečo je potrebné skenovanie:

  1. Zbierajte údaje na vytvorenie indexu – informácie o nových stránkach a aktualizáciách starých.
  2. Porovnajte adresy URL v indexe a v zozname indexového prehľadávania.
  3. Odstráňte duplicitné adresy URL z poradia, aby ste ich nemuseli sťahovať dvakrát.

Roboty si nepozerajú všetky stránky webu. Počet je obmedzený rozpočtom na indexové prehľadávanie, čo je počet adries URL, ktoré môže prehľadávač indexovo prehľadávať. Rozpočet na objemný web nemusí stačiť. Existuje riziko, že rozpočet na prehľadávanie sa vynaloží na prehľadávanie nedôležitých alebo „nevyžiadaných“ stránok, a aby tomu zabránili, správcovia webu riadia prehľadávače pomocou súboru robots.txt.

Roboty prejdú na stránku a nájdu súbor robots.txt v koreňovom adresári, analyzujú prístup k stránkam a prejdú na mapu stránky – aby skrátili čas prehľadávania bez prístupu k uzavretým odkazom. Po preštudovaní súboru prejdú roboti na hlavnú stránku a odtiaľ idú hlbšie na stránku.

Ktoré stránky bude indexový prehľadávač indexovo prehľadávať rýchlejšie:

  1. Sú umiestnené bližšie k hlavnému.
    Čím menej kliknutí z hlavnej stránky vedie na stránku, tým je dôležitejšia a tým je pravdepodobnejšie, že ju navštívi prehľadávač. Počet prechodov z hlavnej stránky na aktuálnu sa nazýva (DFI).
  2. Mať veľa odkazov.
    Ak na stránku odkazuje veľa ľudí, znamená to, že je užitočná a má dobrú povesť. Približne 11-20 odkazov na stránku sa považuje za normálne a do úvahy sa berie aj prepojenie medzi vašimi vlastnými materiálmi.
  3. Načítava sa rýchlo.
    Skontrolujte rýchlosť sťahovania, ak je pomalá - a.

Všetky návštevy robotov prehľadávača nie sú zaznamenávané nástrojmi, ako je Google Analytics, ale správanie robotov je možné sledovať v protokolových súboroch. Niektoré problémy SEO veľkých stránok je možné vyriešiť pomocou ktorých vám tiež pomôže vidieť problémy s odkazmi a rozdelením rozpočtu na prehľadávanie.

Robots.txt pre Yandex a Google

Správcovia webu môžu ovládať správanie robotov prehľadávača na stránke pomocou súboru robots.txt. Robots.txt je textový súbor pre roboty vyhľadávacích nástrojov s pokynmi na indexovanie. Hovorí, ktoré stránky a súbory na webe nemožno prehľadávať, čo umožňuje robotom znížiť počet požiadaviek na server a nestrácať čas na neinformatívnych, identických a nedôležitých stránkach.

V súbore robots.txt môžete otvoriť alebo zablokovať prístup ku všetkým súborom alebo samostatne určiť, ktoré súbory je možné kontrolovať a ktoré nie.

Požiadavky na súbor robots.txt:

  • súbor sa volá " robots.txt", názov sa píše len malými písmenami, "Robots.TXT" a iné variácie nie sú podporované;
  • nachádza sa iba v koreňovom adresári - https://site.com/robots.txt, nemôže byť v podadresári;
  • na webovej stránke v jednej kópii;
  • má formát .txt;
  • váži až 32 KB;
  • ako odpoveď na požiadavku vráti HTTP kód s ;
  • každá predpona URL na samostatnom riadku;
  • obsahuje iba latinské znaky.

Ak je doména v azbuke, pre robots.txt preložte všetky odkazy v cyrilike do Punycode pomocou ľubovoľného prevodníka Punycode: „site.rf“ - „xn--80aswg.xn--p1ai“.

Robots.txt je platný pre HTTP, HTTPS a FTP, má kódovanie UTF-8 alebo ASCII a je nasmerovaný iba s ohľadom na hostiteľa, protokol a číslo portu, kde sa nachádza.

Možno ho pridať na adresy so subdoménami - http://web.site.com/robots.txt alebo neštandardnými portami - http://site.com:8181/robots.txt. Ak má vaša lokalita viacero subdomén, umiestnite súbor do koreňového adresára každej z nich.

Ako vylúčiť stránky z indexovania pomocou súboru robots.txt

V súbore robots.txt môžete robotom zabrániť v indexovaní určitého obsahu.

User-agent: * Disallow: /about/

Zápis formátu „Disallow: /about“ bez koncového „/“ zakáže prístup k sekcii http://site.com/about/, súboru http://site.com/about.php a ďalším odkazom, ktoré začínajú s "/asi".

Ak potrebujete zakázať prístup k niekoľkým sekciám alebo priečinkom, každý potrebuje samostatný riadok s Disallow:

User-agent: * Disallow: /about Disallow: /info Disallow: /album1

Povoliť

Direktíva definuje cesty, ktoré sú dostupné pre špecifikované vyhľadávacie roboty. V podstate ide o Disallow, naopak – smernicu, ktorá umožňuje skenovanie. Pravidlo pre roboty znie: čo nie je zakázané, je povolené, ale niekedy je potrebné povoliť prístup k určitému súboru a zatvoriť ostatné informácie.

Všetko, čo začína na „/catalog“, je povolené skenovať, ale všetko ostatné je zakázané:

User-agent: * Allow: /catalog Disallow: /

Skenovanie súboru "photo.html" je povolené, ale všetky ostatné informácie v adresári /album1/ sú zakázané:

User-agent: * Allow: /album1/photo.html Disallow: /album1/

Zablokujte prístup k adresárom „site.com/catalog1/“ a „site.com/catalog2/“, ale povoľte prístup k „catalog2/subcatalog1/“:

User-agent: * Disallow: /catalog1/ Disallow: /catalog2/ Allow: /catalog2/subcatalog1/

Stáva sa, že pre stránku platí niekoľko pravidiel. Potom robot zoradí zoznam od najmenšieho po najväčší podľa dĺžky predpony URL a bude sa riadiť posledným pravidlom v zozname.

Smernice, ktoré roboty Yandex rozpoznávajú:

Čistý param

Niektoré stránky sú duplikované s rôznymi parametrami GET alebo značkami UTM, ktoré neovplyvňujú obsah. Napríklad, ak sa v katalógu produktov použilo triedenie alebo iné ID.

Ak chcete sledovať, z ktorého zdroja bola vyžiadaná stránka s knihou book_id=123, použite ref:

"www.site.com/some_dir/get_book.pl?ref=site_1& book_id=123"
"www.site.com/some_dir/get_book.pl?ref=site_2& book_id=123"
"www.site.com/some_dir/get_book.pl?ref=site_3& book_id=123"

Strana s knihou je rovnaká, obsah sa nemení. Ak chcete zabrániť robotovi skenovať všetky verzie takýchto stránok s rôznymi parametrami, použite pravidlo Clean-param:

User-agent: Yandex Disallow: Clean-param: ref/some_dir/get_book.pl

Robot Yandex zredukuje všetky adresy stránok do jedného formulára:

"www.example.com/some_dir/get_book.pl? book_id=123"

Pre adresy ako:
"www.example2.com/index.php? page=1&sid=2564126ebdec301c607e5df"
"www.example2.com/index.php? page=1&sid=974017dcd170d6c4a5d76ae"

robots.txt bude obsahovať:

User-agent: Yandex Disallow: Clean-param: sid/index.php

Pre adresy ako napr

"www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243"
"www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243"

robots.txt bude obsahovať:

User-agent: Yandex Disallow: Clean-param: s/forum/showthread.php

Ak existuje niekoľko parametrov prechodu:
"www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311"
"www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896"

robots.txt bude obsahovať:

User-agent: Yandex Disallow: Clean-param: s&ref/forum*/showthread.php


Hostiteľ

Pravidlo ukazuje, ktoré zrkadlo treba brať do úvahy pri indexovaní. URL musí byť napísané bez „http://“ a bez koncovej lomky „/“.

User-agent: Yandex Disallow: /about Host: www.site.com

Teraz sa táto smernica už nepoužíva, ak je vo vašom súbore robots.txt, môžete ju odstrániť. Namiesto toho musíte nainštalovať presmerovanie 301 na všetky nehlavné zrkadlá lokality.

Crawl-oneskorenie

Predtým časté načítavanie stránok zaťažovalo server, takže pre robotov bolo nastavené oneskorenie prehľadávania – čakacia doba robota v sekundách medzi načítaním. Túto direktívu je možné vynechať, výkonné servery ju nevyžadujú.

Čakacia doba - 4 sekundy:

User-agent: * Allow: /album1 Disallow: / Crawl-delay: 4

Iba latinčina

nesprávne:

User-agent: Yandex Disallow: /directory

Správny:

User-agent: Yandex Disallow: /xn--/-8sbam6aiv3a

Príklad robots.txt

Zadanie znamená, že pravidlo platí pre všetkých robotov: je zakázané prehľadávať odkazy z košíka, zo vstavaného vyhľadávacieho a administračného panela, mapa stránok sa nachádza na odkaze http://site.com/ sitemap, ref nemení obsah stránky get_book:

User-agent: * Disallow: /bin/ Disallow: /search/ Disallow: /admin/ Sitemap: http://site.com/sitemap Clean-param: ref/some_dir/get_book.pl

Nástroje na zostavovanie a kontrolu súboru robots.txt

Vytvorte si robots.txt zadarmo pomôže, umožní vám zatvoriť alebo otvoriť celý web pre roboty, určiť cestu k mape webu, nastaviť obmedzenia návštevy stránok, zablokovať prístup k niektorým robotom a nastaviť oneskorenie:


Nástrojové grafy na vyplnenie

Pre kontrola chýb v súbore robots.txt Vyhľadávače majú svoje vlastné nástroje:

Nástroj na kontrolu súboru robots.txt od Googlu vám umožňuje skontrolovať, ako robot vidí konkrétnu adresu URL. Ak chcete skontrolovať pole, musíte zadať adresu URL a nástroj zobrazí, či je odkaz dostupný.

Overovací nástroj Yandex ukáže, či je súbor správne vyplnený. Musíte zadať web, pre ktorý bol súbor robots.txt vytvorený, a preniesť jeho obsah do poľa.

Súbor robots.txt nie je vhodný na blokovanie prístupu k súkromným súborom, ale nasmeruje prehľadávače na mapu lokality a poskytuje odporúčania na rýchle skenovanie dôležitých zdrojov materiálov.