Izskatās pēc robotu txt. Ieteikumi robotu txt faila iestatīšanai

Katram emuāram ir sava atbilde uz šo jautājumu. Tāpēc jaunpienācēji meklētājprogrammu reklamēšanā bieži tiek sajaukti, piemēram:

Kādi roboti ir ti ex ti?

Fails robots.txt vai indeksa fails- parasts teksta dokuments UTF-8 kodējumā, kas derīgs http, https un FTP protokoliem. Fails sniedz meklēšanas robotu ieteikumus: kuras lapas/failus vajadzētu pārmeklēt. Ja failā ir rakstzīmes, kas nav UTF-8 kodējumā, meklēšanas roboti tās var apstrādāt nepareizi. Failā robots.txt norādītie noteikumi ir derīgi tikai resursdatoram, protokolam un porta numuram, kurā atrodas fails.

Failam ir jāatrodas saknes direktorijā kā vienkārša teksta dokumentam un jābūt pieejamam: https://site.com.ua/robots.txt.

Citos failos ir ierasts atzīmēt BOM (Byte Order Mark). Šī ir unikoda rakstzīme, ko izmanto, lai noteiktu baitu secību, lasot informāciju. Tā koda rakstzīme ir U+FEFF. Faila robots.txt sākumā baitu secības atzīme tiek ignorēta.

Google ir noteicis robots.txt faila lieluma ierobežojumu — tas nedrīkst svērt vairāk par 500 KB.

Labi, ja jūs interesē tīri tehniska informācija, fails robots.txt ir apraksts Backus-Naur formā (BNF). Tas izmanto RFC 822 noteikumus.

Apstrādājot kārtulas failā robots.txt, meklēšanas roboti saņem vienu no trim norādījumiem:

daļēja piekļuve: ir pieejama atsevišķu vietnes elementu skenēšana;
pilna piekļuve: jūs varat skenēt visu;
pilnīgs aizliegums: robots neko nevar skenēt.

Skenējot failu robots.txt, roboti saņem šādas atbildes:

2xx — skenēšana bija veiksmīga;
3xx — meklēšanas robots seko novirzīšanai, līdz saņem citu atbildi. Visbiežāk robotam ir pieci mēģinājumi saņemt atbildi, kas nav 3xx, tad tiek reģistrēta kļūda 404;
4xx — meklēšanas robots uzskata, ka ir iespējams pārmeklēt visu vietnes saturu;
5xx — tiek novērtētas kā pagaidu servera kļūdas, skenēšana ir pilnībā aizliegta. Robots piekļūs failam, līdz saņems citu atbildi Google meklēšanas robots var noteikt, vai atbilde uz trūkstošajām lapām vietnē ir konfigurēta pareizi vai nepareizi, tas ir, ja 404 kļūdas vietā lapa atgriež 5xx atbildi. šajā gadījumā lapa tiks apstrādāta ar atbildes kodu 404.

Pagaidām nav zināms, kā tiek apstrādāts fails robots.txt, kas nav pieejams servera problēmu dēļ ar piekļuvi internetam.

Kāpēc jums ir nepieciešams fails robots.txt?

Piemēram, dažreiz robotiem nevajadzētu apmeklēt:

lapas ar vietnes lietotāju personisko informāciju;
lapas ar dažādām informācijas nosūtīšanas formām;
spoguļu vietas;
meklēšanas rezultātu lapās.

Svarīgi: pat tad, ja lapa atrodas failā robots.txt, pastāv iespēja, ka tā tiks parādīta rezultātos, ja saite uz to tiks atrasta vietnē vai kaut kur ārējā resursā.

Lūk, kā meklētājprogrammu roboti redz vietni ar un bez faila robots.txt:

Bez robots.txt informācija, kas būtu jāslēpj no ziņkārīgo acīm, var nonākt meklēšanas rezultātos, un tādēļ cietīsit gan jūs, gan vietne.

Lūk, kā meklētājprogrammas robots redz failu robots.txt:

Google vietnē atklāja failu robots.txt un atrada noteikumus, saskaņā ar kuriem vietnes lapas ir jāpārmeklē

Kā izveidot failu robots.txt

Izmantojot notepad, Notepad, Sublime vai jebkuru citu teksta redaktoru.

User-agent - vizītkarte robotiem

User-agent — noteikums par to, kuriem robotiem ir jāskata failā robots.txt aprakstītās instrukcijas. Pašlaik ir zināmi 302 meklēšanas roboti

Tajā teikts, ka mēs norādām kārtulas failā robots.txt visiem meklēšanas robotiem.

Google galvenais robots ir Googlebot. Ja mēs vēlamies ņemt vērā tikai to, ieraksts failā būs šāds:

Šajā gadījumā visi pārējie roboti pārmeklēs saturu, pamatojoties uz viņu norādījumiem par tukša robots.txt faila apstrādi.

Yandex galvenais robots ir... Yandex:

Citi īpašie roboti:

Googlebot ziņas— meklēt ziņas;
Mediapartners-Google— AdSense pakalpojumam;
AdsBot-Google— pārbaudīt galvenās lapas kvalitāti;
YandexImages— Yandex.Images indeksētājs;
Googlebot attēls- attēliem;
YandexMetrika— Yandex.Metrica robots;
YandexMedia— robots, kas indeksē multivides datus;
YaDirectFetcher— Yandex.Direct robots;
Googlebot-Video— video;
Googlebot Mobile- mobilajai versijai;
YandexDirectDyn— dinamisks baneru ģenerēšanas robots;
YandexBlogs— emuāru meklēšanas robots, kas indeksē ziņas un komentārus;
Yandex Market— Yandex.Market robots;
YandexNews— Yandex.News robots;
YandexDirect— lejupielādē informāciju par Reklāmas tīkla partneru vietņu saturu, lai precizētu to tēmas atbilstošās reklāmas izvēlei;
YandexPagechecker— mikro marķējuma pārbaudītājs;
Yandex kalendārs— Yandex.Kalendāra robots.

Neatļaut — “ķieģeļu” ievietošana

To ir vērts izmantot, ja vietne atrodas uzlabojumu procesā un jūs nevēlaties, lai tā tiktu parādīta meklēšanas rezultātos pašreizējā stāvoklī.

Ir svarīgi noņemt šo noteikumu, tiklīdz vietne ir gatava lietotājiem to redzēt. Diemžēl daudzi tīmekļa pārziņi par to aizmirst.

Piemērs. Kā iestatīt Neatļaut kārtulu, lai ieteiktu robotiem neskatīt mapes saturu /papka/:

Šī rinda aizliedz indeksēt visus failus ar paplašinājumu .gif

Atļaut - virzām robotus

Atļaut ļauj skenēt jebkuru failu/direktīvu/lapu. Pieņemsim, ka vēlaties, lai roboti varētu skatīt tikai tās lapas, kas sākas ar /catalog un aizver visu pārējo saturu. Šajā gadījumā tiek noteikta šāda kombinācija:

Atļaut un Neatļaut kārtulas tiek kārtotas pēc URL prefiksa garuma (no mazākā līdz lielākajam) un tiek lietotas secīgi. Ja lapai atbilst vairāk nekā viena kārtula, robots atlasa pēdējo kārtulu sakārtotajā sarakstā.

Saimniekdators — atlasiet spoguļa vietni

Saimniekdators ir viens no obligātajiem robots.txt noteikumiem, tas norāda Yandex robotam, kuri vietnes spoguļi ir jāņem vērā indeksēšanai.

Vietnes spogulis ir precīza vai gandrīz precīza vietnes kopija, kas pieejama dažādās adresēs.

Robots neapjuks, atrodot vietnes spoguļus un sapratīs, ka galvenais spogulis ir norādīts failā robots.txt. Vietnes adrese tiek norādīta bez prefiksa “http://”, bet, ja vietne darbojas, izmantojot HTTPS, ir jānorāda prefikss “https://”.

Kā uzrakstīt šo noteikumu:

Faila robots.txt piemērs, ja vietne darbojas, izmantojot HTTPS protokolu:

Vietnes karte - medicīnas vietnes karte

Vietnes karte norāda robotiem, ka visi vietņu URL, kas nepieciešami indeksēšanai, atrodas vietnē http://site.ua/sitemap.xml. Katrā pārmeklēšanas reizē robots apskatīs, kādas izmaiņas tika veiktas šajā failā, un ātri atjauninās informāciju par vietni meklētājprogrammu datu bāzēs.

Crawl-delay — vāju serveru hronometrs

Pārmeklēšanas aizkave ir parametrs, ko var izmantot, lai iestatītu periodu, pēc kura vietnes lapas tiks ielādētas. Šis noteikums ir būtisks, ja jums ir vājš serveris. Šādā gadījumā var būt ilga aizkave, kad meklēšanas roboti piekļūst vietnes lapām. Šis parametrs tiek mērīts sekundēs.

Clean-param — dublikāta satura mednieks

Clean-param palīdz iegūt parametrus, lai izvairītos no satura dublēšanās, kas var būt pieejams dažādās dinamiskās adresēs (ar jautājuma zīmēm). Šādas adreses parādās, ja vietnei ir dažādi šķirošanas veidi, sesiju ID utt.

Pieņemsim, ka lapa ir pieejama šādās adresēs:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

Šajā gadījumā fails robots.txt izskatīsies šādi:

Šeit ref norāda, no kurienes nāk saite, tāpēc tas tiek rakstīts pašā sākumā, un tikai tad tiek norādīta pārējā adrese.

Bet pirms pāriet uz atsauces failu, jums joprojām ir jāapgūst dažas pazīmes, kas tiek izmantotas, rakstot failu robots.txt.

Simboli failā robots.txt

Faila galvenās rakstzīmes ir “/, *, $, #”.

Izmantojot slīpsvītra "/" mēs parādām, ka vēlamies novērst robotu atklāšanu. Piemēram, ja kārtulā Disallow ir viena slīpsvītra, mēs aizliedzam skenēt visu vietni. Izmantojot divas slīpsvītras rakstzīmes, varat novērst konkrēta direktorija skenēšanu, piemēram: /catalog/.

Šajā ierakstā ir teikts, ka mēs aizliedzam skenēt visu kataloga mapes saturu, bet, ja ierakstīsim /catalog, mēs aizliedzam visas saites vietnē, kas sākas ar /catalog.

Zvaigznīte "*" nozīmē jebkuru rakstzīmju secību failā. Tas tiek novietots aiz katra noteikuma.

Šis ieraksts saka, ka visiem robotiem nevajadzētu indeksēt failus ar .gif paplašinājumu mapē /catalog/

Dolāra zīme «$» ierobežo zvaigznītes zīmes darbības. Ja vēlaties bloķēt visu kataloga mapes saturu, bet nevarat bloķēt vietrāžus URL, kas satur /catalog, ieraksts indeksa failā būs šāds:

Režģis "#" izmanto komentāriem, ko tīmekļa pārzinis atstāj sev vai citiem tīmekļa pārziņiem. Skenējot vietni, robots tos neņems vērā.

Piemēram:

Kā izskatās ideāls fails robots.txt

Fails atver vietnes saturu indeksēšanai, resursdators tiek reģistrēts un tiek norādīta vietnes karte, kas ļaus meklētājprogrammām vienmēr redzēt adreses, kuras jāindeksē. Yandex noteikumi ir norādīti atsevišķi, jo ne visi roboti saprot resursdatora norādījumus.

Bet nesteidzieties kopēt faila saturu pie sevis - katrā vietnē ir jābūt unikāliem noteikumiem, kas ir atkarīgi no vietnes veida un CMS. Tāpēc, aizpildot failu robots.txt, ir vērts atcerēties visus noteikumus.

Kā pārbaudīt failu robots.txt

Ja vēlaties uzzināt, vai fails robots.txt ir aizpildīts pareizi, pārbaudiet to tīmekļa pārziņa rīkos Google un Yandex. Vienkārši ievadiet veidlapā faila robots.txt avota kodu, izmantojot saiti, un norādiet pārbaudāmo vietni.

Kā neaizpildīt failu robots.txt

Bieži vien, aizpildot indeksa failu, tiek pieļautas kaitinošas kļūdas, un tās ir saistītas ar parastu neuzmanību vai steigu. Tālāk ir parādīta kļūdu diagramma, ar kurām es saskāros praksē.

2. Vairāku mapju/direktoriju ierakstīšana vienā Disallow priekšrakstā:

Šāds ieraksts var mulsināt meklēšanas robotus, iespējams, ka viņi nesaprot, ko tieši viņiem nevajadzētu indeksēt: vai nu pirmo mapi, vai pēdējo, tāpēc jums ir jāraksta katrs noteikums atsevišķi.

3. Jāizsauc pats fails tikai robots.txt, nevis Robots.txt, ROBOTS.TXT vai kaut kas cits.

4. User-agent kārtulu nevar atstāt tukšu – jāpasaka, kuram robotam jāņem vērā failā rakstītie noteikumi.

5. Papildu rakstzīmes failā (slīpsvītras, zvaigznītes).

6. Lapu pievienošana failam, kurām nevajadzētu būt rādītājā.

Nestandarta robots.txt izmantošana

Papildus tiešajām funkcijām indeksa fails var kļūt par platformu radošumam un veidu, kā atrast jaunus darbiniekus.

Šeit ir vietne, kurā robots.txt ir neliela vietne ar darba elementiem un pat reklāmu vienību.

Failu galvenokārt izmanto SEO aģentūras kā platformu speciālistu meklēšanai. Kurš vēl varētu zināt par tā esamību? :)

Un Google ir īpašs fails cilvēki.txt, lai neļautos domāt par ādas un gaļas speciālistu diskrimināciju.

secinājumus

Izmantojot failu Robots.txt, varat sniegt norādījumus, kā meklēt robotus, reklamēt sevi, savu zīmolu un meklēt speciālistus. Šis ir lielisks lauks eksperimentiem. Galvenais ir atcerēties par pareizu faila aizpildīšanu un tipiskām kļūdām.

Noteikumi, kas zināmi arī kā direktīvas, kas zināmi arī kā norādījumi failā robots.txt:

User-agent — noteikums par to, kuriem robotiem ir jāskata robots.txt aprakstītās instrukcijas.
Disallow sniedz ieteikumus par to, kādu informāciju nevajadzētu skenēt.
Vietnes karte norāda robotiem, ka visi vietņu URL, kas nepieciešami indeksēšanai, atrodas vietnē http://site.ua/sitemap.xml.
Saimnieks paziņo Yandex robotam, kurš no vietnes spoguļiem ir jāņem vērā indeksēšanai.
Atļaut ļauj skenēt jebkuru failu/direktīvu/lapu.

Pazīmes, kompilējot robots.txt:

Dolāra zīme "$" ierobežo zvaigznītes zīmes darbības.
Izmantojot slīpsvītru “/”, mēs norādām, ka vēlamies to paslēpt no robotu atklāšanas.
Zvaigznīte "*" nozīmē jebkuru rakstzīmju secību failā. Tas tiek novietots aiz katra noteikuma.
Jaucējzīme “#” tiek izmantota, lai norādītu komentārus, ko tīmekļa pārzinis raksta sev vai citiem tīmekļa pārziņiem.

Izmantojiet indeksa failu saprātīgi – un vietne vienmēr būs meklēšanas rezultātos.

Tam ir nepieciešami norādījumi par darbu meklētājprogrammas nav izņēmums no noteikuma, tāpēc tās nāca klajā ar īpašu failu ar nosaukumu robots.txt. Šim failam jāatrodas jūsu vietnes saknes mapē vai arī tas var būt virtuāls, taču tas ir jāatver pēc pieprasījuma: www.yoursite.ru/robots.txt

Meklētājprogrammas jau sen ir iemācījušies atšķirt nepieciešamos html failus no jūsu CMS sistēmas iekšējām skriptu kopām, pareizāk sakot, ir iemācījušies atpazīt saites uz satura rakstiem un visādiem atkritumiem. Tāpēc daudzi tīmekļa pārziņi jau aizmirst savām vietnēm izveidot robotus un domā, ka viss būs kārtībā. Jā, viņiem ir 99% taisnība, jo, ja jūsu vietnē šī faila nav, tad meklētājprogrammas satura meklējumos ir neierobežotas, taču ir nianses, par kurām kļūdām var parūpēties jau iepriekš.

Ja jums ir problēmas ar šo failu vietnē, rakstiet komentārus par šo rakstu, un es jums ātri palīdzēšu, pilnīgi bez maksas. Ļoti bieži tīmekļa pārziņi tajā pieļauj nelielas kļūdas, kā rezultātā vietne tiek slikti indeksēta vai pat tiek izslēgta no rādītāja.

Kam paredzēts fails robots.txt?

Fails robots.txt ir izveidots, lai meklētājprogrammas konfigurētu pareizu vietnes indeksēšanu. Tas nozīmē, ka tajā ir ietverti noteikumi par atļaujām un aizliegumiem noteiktos jūsu vietnes ceļos vai satura veidos. Bet šī nav panaceja. Visi noteikumi robotu failā nav vadlīnijas precīzi ievērojiet tos, bet tikai ieteikums meklētājprogrammām. Google, piemēram, raksta:

Failu robots.txt nevar izmantot, lai paslēptu lapu no Google meklēšanas rezultātiem. Citas lapas var izveidot saiti uz to, un tas joprojām tiks indeksēts.

Meklēšanas roboti paši izlemj, ko indeksēt un ko nē, un kā uzvesties vietnē. Katrai meklētājprogrammai ir savi uzdevumi un funkcijas. Lai kā mēs vēlētos, tas nav veids, kā viņus pieradināt.

Bet ir viens triks, kas nav tieši saistīts ar šī raksta tēmu. Lai pilnībā novērstu robotu indeksēšanu un lapas rādīšanu meklēšanas rezultātos, jums jāraksta:

Atgriezīsimies pie robotiem. Šajā failā ietvertie noteikumi var bloķēt vai atļaut piekļuvi šāda veida failiem:

Negrafiski faili. Būtībā tie ir html faili, kas satur zināmu informāciju. Varat aizvērt dublētās lapas vai lapas, kas nesniedz nekādu noderīgu informāciju (lappuses, kalendāra lapas, arhīva lapas, profila lapas utt.).
Grafiskie faili. Ja vēlaties, lai meklējumos netiktu rādīti vietnes attēli, varat to iestatīt robotos.
Resursu faili. Tāpat, izmantojot robotus, jūs varat bloķēt dažādu skriptu, CSS stila failu un citu nesvarīgu resursu indeksēšanu. Bet nevajadzētu bloķēt resursus, kas ir atbildīgi par vietnes vizuālo daļu apmeklētājiem (piemēram, ja aizverat vietnes css un js, kas parāda skaistus blokus vai tabulas, meklēšanas robots to neredzēs un sūdzēsies par tas).

Lai skaidri parādītu, kā darbojas roboti, skatiet tālāk redzamo attēlu:

Meklēšanas robots, kas seko vietnei, aplūko indeksēšanas noteikumus un pēc tam sāk indeksēšanu atbilstoši faila ieteikumiem.
Atkarībā no noteikumu iestatījumiem meklētājprogramma zina, ko var indeksēt un ko nevar.

No faila robots.txt nodoklis

Lai uzrakstītu noteikumus meklētājprogrammām, robotu failā tiek izmantotas direktīvas ar dažādiem parametriem, ar kuru palīdzību roboti seko. Sāksim ar pašu pirmo un, iespējams, vissvarīgāko direktīvu:

Lietotāja aģenta direktīva

Lietotāja aģents— Ar šo direktīvu jūs norādāt tā robota nosaukumu, kuram jāizmanto failā sniegtie ieteikumi. Oficiāli interneta pasaulē ir 302 šādi roboti. Protams, jūs varat rakstīt noteikumus katram atsevišķi, bet, ja jums nav laika tam, vienkārši rakstiet:

Lietotāja aģents: *

*-šajā piemērā nozīmē “Visi”. Tie. jūsu robots.txt failam jāsākas ar “kam tieši” fails ir paredzēts. Lai netraucētu ar visiem robotu nosaukumiem, lietotāja aģenta direktīvā vienkārši ierakstiet “zvaigznīti”.

Es jums sniegšu detalizētus populāro meklētājprogrammu robotu sarakstus:

Google — Googlebot- galvenais robots

Citi Google roboti

Googlebot ziņas— ziņu meklēšanas robots
Googlebot attēls- robotu attēli
Googlebot-Video- robotu video
Googlebot Mobile- robota mobilā versija
AdsBot-Google— galvenās lapas kvalitātes pārbaudes robots
Mediapartners-Google— AdSense pakalpojumu robots

Yandex - YandexBot- galvenais indeksēšanas robots;

Citi Yandex roboti

Atļaut un Atļaut direktīvas

Neatļaut- vienkāršākais noteikums robotos, ar šīs direktīvas palīdzību jūs aizliedzat indeksēt noteiktas vietnes jūsu vietnē. Direktīva ir uzrakstīta šādi:

Neatļaut:

Ļoti bieži var redzēt Disallow direktīvu: tukšs, t.i. it kā pasakot robotam, ka vietnē nekas nav aizliegts, indeksējiet visu, ko vēlaties. Esi uzmanīgs! Ja ievietosit / neatļautu, vietne tiks pilnībā aizvērta no indeksēšanas.

Tāpēc standarta robots.txt versija, kas “ļauj indeksēt visu vietni visām meklētājprogrammām”, izskatās šādi:

Lietotāja aģents: * Neatļaut:

Ja nezināt, ko rakstīt failā robots.txt, bet kaut kur par to esat dzirdējis, vienkārši nokopējiet iepriekš minēto kodu, saglabājiet to failā robots.txt un augšupielādējiet to savas vietnes saknē. Vai arī neveidojiet neko, jo pat bez tā roboti indeksēs visu jūsu vietnē. Vai arī izlasiet rakstu līdz beigām, un jūs sapratīsit, ko vietnē aizvērt un ko ne.

Saskaņā ar robotu noteikumiem ir nepieciešama aizlieguma direktīva.

Šī direktīva var aizliegt gan mapi, gan atsevišķu failu.

Ja Tu gribi aizlieguma mape tev vajadzētu rakstīt:

Neatļaut: /folder/

Ja Tu gribi aizliegt konkrētu failu:

Neatļaut: /images/img.jpg

Ja Tu gribi aizliegt noteiktus failu tipus:

Neatļaut: /*.png$

Daudzas meklētājprogrammas neatbalsta regulārās izteiksmes. Google atbalsta.

Atļaut— direktīvas atļaušana failā Robots.txt. Tas ļauj robotam indeksēt noteiktu ceļu vai failu aizliegtā direktorijā. Vēl nesen to izmantoja tikai Yandex. Google panāca to un arī sāka to izmantot. Piemēram:

Atļaut: /content Neatļaut: /

Šīs direktīvas neļauj indeksēt visu vietnes saturu, izņemot satura mapi. Vai arī šeit ir dažas citas pēdējā laikā populāras direktīvas:

Atļaut: /template/*.js Atļaut: /template/*.css Neatļaut: /template

šīs vērtības ļauj indeksēt visus CSS un JS failus vietnē, taču tie neļauj indeksēt visu, kas atrodas mapē ar jūsu veidni. Pēdējā gada laikā Google tīmekļa pārziņiem ir nosūtījis daudz vēstuļu ar šādu saturu:

Googlebot nevar piekļūt vietnē esošajiem CSS un JS failiem

Un attiecīgais komentārs: Mēs esam atklājuši problēmu ar jūsu vietni, kas, iespējams, neļauj tajā pārmeklēt. Faila robots.txt ierobežojumu dēļ Googlebot nevar apstrādāt JavaScript kodu un/vai CSS failus. Šie dati ir nepieciešami, lai novērtētu vietnes veiktspēju. Tāpēc, ja piekļuve resursiem tiek bloķēta, tas var pasliktināt jūsu vietnes pozīciju meklēšanā..

Ja failam Robots.txt pievienosit abas atļaujas direktīvas, kas ir ierakstītas pēdējā kodā, jūs neredzēsit līdzīgus ziņojumus no Google.

Un speciālo rakstzīmju izmantošana failā robots.txt

Tagad par zīmēm direktīvās. Pamatzīmes (īpašās rakstzīmes), kas aizliedz vai atļauj šo /,*,$

Par slīpsvītru “/”

Slīpsvītra failā robots.txt ir ļoti maldinoša. Vairākus desmitus reižu esmu novērojis interesantu situāciju, kad nezināšanas dēļ failam robots.txt tika pievienots:

Lietotāja aģents: * Neatļaut: /

Jo viņi kaut kur lasīja par vietnes struktūru un kopēja to savā vietnē. Bet šajā gadījumā jūs aizliegt visas vietnes indeksēšanu. Lai aizliegtu indeksēt noteiktu direktoriju ar visiem iekšējiem elementiem, beigās noteikti jāievieto /. Ja, piemēram, ierakstāt Disallow: /seo, tad absolūti visas saites jūsu vietnē, kas satur vārdu seo, netiks indeksētas. Pat ja tā būs mape /seo/, kaut arī tā būs kategorija /seo-tool/, kaut arī tas būs raksts /seo-best-of-the-best-soft.html, tas viss nebūs jāindeksē.

Apskatiet visu uzmanīgi / failā robots.txt

Vienmēr ievietojiet / direktoriju beigās. Ja ievietosit / in Disallow, jūs novērsīsit visas vietnes indeksēšanu, bet, ja neievietosit / in Allow, jūs arī novērsīsit visas vietnes indeksēšanu. / - savā ziņā nozīmē “Viss, kas atbilst direktīvai /”.

Par zvaigznītēm * failā robots.txt

Īpašā rakstzīme * nozīmē jebkuru (ieskaitot tukšu) rakstzīmju secību. Varat to izmantot jebkur tādos robotos kā šis:

User-agent: * Disallow: /papka/*.aspx Disallow: /*old

Aizliedz visus failus ar aspx paplašinājumu direktorijā papka, kā arī aizliedz ne tikai mapi /old, bet arī direktīvu /papka/old. Viltīgs? Tāpēc es neiesaku robotos spēlēties ar simbolu *.

Noklusējums indeksēšanas un aizliegšanas noteikumu fails robots.txt ir * uz visām direktīvām!

Par īpašo rakstzīmi $

Speciālā rakstzīme $ robotos izbeidz īpašās rakstzīmes * efektu. Piemēram:

Neatļaut: /menu$

Šis noteikums aizliedz '/menu', bet neaizliedz '/menu.html', t.i. Fails aizliedz meklētājprogrammas tikai no direktīvas /menu, un nevar aizliegt visus failus, kuru vietrādī URL ir vārds izvēlne.

Uzņēmēja direktīva

Resursdatora noteikums darbojas tikai Yandex, tāpēc nav obligāta, tas nosaka galveno domēnu no jūsu vietnes spoguļiem, ja tādi ir. Piemēram, jums ir domēns dom.com, taču ir iegādāti un konfigurēti arī šādi domēni: dom2.com, dom3,com, dom4.com un no tiem notiek novirzīšana uz galveno domēnu dom.com

Lai palīdzētu Yandex ātri noteikt, kura no tām ir galvenā vietne (resursdators), ierakstiet resursdatora direktoriju savā robots.txt:

Saimnieks: vietne

Ja jūsu vietnei nav spoguļu, šis noteikums nav jāiestata. Bet vispirms pārbaudiet savu vietni pēc IP adreses, iespējams, no tās tiks atvērta jūsu galvenā lapa, un jums vajadzētu reģistrēt galveno spoguli. Vai varbūt kāds nokopēja visu informāciju no jūsu vietnes un izveidoja precīzu kopiju. Ja tas ir arī nozagts, ieraksts failā robots.txt jums palīdzēs.

Jābūt vienam saimniekdatora ierakstam un, ja nepieciešams, ar reģistrētu ostu. (Saimnieks: vietne: 8080)

Pārmeklēšanas aizkaves direktīva

Šī direktīva tika izveidota, lai novērstu jūsu servera ielādes iespēju. Meklētājprogrammu robotprogrammatūra var veikt simtiem pieprasījumu jūsu vietnei vienlaikus, un, ja jūsu serveris ir vājš, tas var izraisīt nelielas kļūmes. Lai tas nenotiktu, mēs izstrādājām noteikumu robotiem ar pārmeklēšanas aizkavi — tas ir minimālais periods starp lapas ielādi jūsu vietnē. Šīs direktīvas standarta vērtību ieteicams iestatīt uz 2 sekundēm. Robotos tas izskatās šādi:

Pārmeklēšanas aizkave: 2

Šī direktīva darbojas Yandex. Google tīklā pārmeklēšanas biežumu varat iestatīt tīmekļa pārziņa panelī, sadaļā Vietnes iestatījumi, kas atrodas augšējā labajā stūrī ar zobratu.

Clean-param direktīva

Šis parametrs ir arī tikai Yandex. Ja vietņu lapu adresēs ir dinamiski parametri, kas neietekmē to saturu (piemēram, sesijas identifikatori, lietotāji, novirzītāji utt.), varat tos aprakstīt, izmantojot Clean-param direktīvu.

Izmantojot šo informāciju, Yandex robots atkārtoti neielādēs dublēto informāciju. Tas palielinās vietnes pārmeklēšanas efektivitāti un samazinās servera slodzi.
Piemēram, vietnei ir šādas lapas:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123

Parametrs ref tiek izmantots tikai, lai izsekotu, no kura resursa tika veikts pieprasījums, un nemaina to pašu lapu ar grāmatu book_id=123 tiks rādīta visās trīs adresēs. Pēc tam, ja norādāt direktīvu šādi:

Lietotāja aģents: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

Yandex robots samazina visas lapu adreses līdz vienai:
www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,
Ja vietnē ir pieejama lapa bez parametriem:
www.site.com/some_dir/get_book.pl?book_id=123
tad viss nonāks līdz tam, kad robots to indeksēs. Citas jūsu vietnes lapas tiks pārmeklētas biežāk, jo lapas nav jāatsvaidzina:
www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

#adresēm, piemēram: www.site1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.site1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243.t-t:robot will be: User.t-t Yandex Disallow: Clean-param: s /forum/showthread.php

Vietnes karšu direktīva

Izmantojot šo direktīvu, jūs vienkārši norādiet savas sitemap.xml atrašanās vietu. Robots to atceras, "saka paldies" un pastāvīgi analizē to noteiktā ceļā. Tas izskatās šādi:

Vietnes karte: http://site/sitemap.xml

Tagad apskatīsim vispārīgos jautājumus, kas rodas, veidojot robotus. Internetā ir daudz šādu tēmu, tāpēc mēs analizēsim visatbilstošākās un visizplatītākās.

Labojiet robots.txt

Šajā vārdā ir daudz vārdu “pareizi”, jo vienai vietnei vienā CMS tas būs pareizi, bet citā CMS tas radīs kļūdas. “Pareizi konfigurēts” katrai vietnei ir individuāla. Vietnē Robots.txt ir jāaizver to sadaļu un failu indeksēšana, kas nav vajadzīgi lietotājiem un kas nesniedz nekādu vērtību meklētājprogrammām. Vienkāršākā un pareizākā faila robots.txt versija

Lietotāja aģents: * Neatļaut: Vietnes karte: http://site/sitemap.xml Lietotāja aģents: Yandex Disallow: Host: site.com

Šajā failā ir ietverti šādi noteikumi: visu meklētājprogrammu aizlieguma noteikumu iestatījumi (User-Agent: *), visas vietnes indeksēšana ir pilnībā atļauta (“Disallow:” vai varat norādīt “Allow: /”), kas ir resursdators ir norādīts galvenais Yandex spogulis (Host : site.ncom) un jūsu Sitemap.xml atrašanās vieta (Vietnes karte: .

R obots.txt vietnei WordPress

Atkal ir daudz jautājumu, viena vietne varētu būt tiešsaistes veikals, cita emuārs, trešā galvenā lapa, ceturtā uzņēmuma vizītkaršu vietne, un tas viss varētu būt CMS WordPress un robotu noteikumi. būt pilnīgi atšķirīgam. Šeit ir mans robots.txt šim emuāram:

Lietotāja aģents: * Atļaut: /wp-content/uploads/ Atļaut: /wp-content/*.js$ Atļaut: /wp-content/*.css$ Atļaut: /wp-includes/*.js$ Atļaut: / wp-includes/*.css$ Neatļaut: /wp-login.php Neatļaut: /wp-register.php Neatļaut: /xmlrpc.php Neatļaut: /template.html Neatļaut: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-content Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: /?feed= Disallow: /job Disallow: /?.net/sitemap.xml

Šeit ir daudz iestatījumu, apskatīsim tos kopā.

Atļaut programmā WordPress. Pirmie atļauju noteikumi attiecas uz saturu, kas nepieciešams lietotājiem (tie ir attēli augšupielādes mapē) un robotiem (tie ir CSS un JS lapu parādīšanai). Google bieži sūdzas par CSS un JS, tāpēc mēs tos atstājām atvērtus. Varēja izmantot visu failu metodi, vienkārši ievietojot “/*.css$”, taču tieši šīm mapēm, kurās atradās faili, aizliedzošā rinda neļāva tos izmantot indeksēšanai, tāpēc nācās norādīt ceļu. uz aizliedzošo mapi pilnībā.

Atļaut vienmēr norāda uz satura ceļu, kas aizliegts sadaļā Disallow. Ja kaut kas jums nav aizliegts, jums nevajadzētu rakstīt atļauju, it kā domājot, ka jūs dodat stimulu meklētājprogrammām, piemēram, "Nu, šeit ir jums URL, indeksējiet to ātrāk." Tas nedarbosies tā.

Neatļaut programmā WordPress. WP CMS ir jāaizliedz daudzas lietas. Daudz dažādu spraudņu, daudz dažādu iestatījumu un motīvu, kaudze skriptu un dažādas lapas, kurās nav nekādas noderīgas informācijas. Bet es gāju tālāk un pilnībā aizliedzu savā blogā indeksēt visu, izņemot pašus rakstus (postus) un lapas (par Autoru, Pakalpojumiem). Es pat aizvēru kategorijas emuārā, es tās atvēršu, kad tās būs optimizētas vaicājumiem un kad katrai no tām būs teksta apraksts, bet tagad tie ir tikai dublēti ierakstu priekšskatījumi, kas meklētājprogrammām nav vajadzīgi.

Saimniekdators un vietnes karte ir standarta direktīvas. Man vienkārši vajadzēja atsevišķi izveidot Yandex saimniekdatoru, taču es par to neuztraucos. Tagad mēs, iespējams, pabeigsim ar Robots.txt WP.

Kā izveidot robots.txt

Tas nav tik grūti, kā šķiet no pirmā acu uzmetiena. Jums vienkārši jāpaņem parasts piezīmju grāmatiņa (Notepad) un jākopē vietnes dati saskaņā ar šī raksta iestatījumiem. Bet, ja jums tas ir grūti, internetā ir resursi, kas ļauj ģenerēt jūsu vietnēm robotus:

Neviens jums nestāstīs vairāk par jūsu Robots.txt kā šie biedri. Galu galā tieši viņiem jūs izveidojat savu "aizliegto failu".

Tagad parunāsim par dažām nelielām kļūdām, kas var būt robotos.

« Tukša rinda" - ir nepieņemami izveidot tukšu rindu lietotāja aģenta direktīvā.
Plkst konflikts starp diviem direktīvas ar vienāda garuma prefiksiem direktīvai ir prioritāte Atļaut.
Katram robots.txt fails tiek apstrādāts tikai viena resursdatora direktīva. Ja failā ir norādītas vairākas direktīvas, robots izmanto pirmo.
direktīva Clean-Param ir šķērsgriezums, tāpēc to var norādīt jebkurā vietā robots.txt failā. Ja ir norādītas vairākas direktīvas, robots tās visas ņems vērā.
Seši Yandex roboti neievēro faila Robots.txt (YaDirectFetcher, YandexCalendar, YandexDirect, YandexDirectDyn, YandexMobileBot, YandexAccessibilityBot). Lai novērstu to indeksēšanu vietnē, katram no tiem ir jāizveido atsevišķi lietotāja aģenta parametri.
Lietotāja aģenta direktīva, vienmēr jāraksta virs aizliedzošās direktīvas.
Viena rinda vienam direktorijam. Vienā rindā nevar ierakstīt vairākus direktorijus.
Faila nosaukums tam vajadzētu būt tikai šādi: robots.txt. Nav faila Robots.txt, ROBOTS.txt un tā tālāk. Nosaukumā tikai mazi burti.
Direktīvā saimnieks jums vajadzētu rakstīt ceļu uz domēnu bez http un bez slīpsvītras. Nepareizi: saimniekdators: http://www.site.ru/, pareizi: saimniekdators: www.site.ru
Kad vietne izmanto drošu protokolu https direktīvā saimnieks(Yandex robotam) precīzi jānorāda protokols, tāpēc saimniekdators: https://www.site.ru

Šis raksts tiks atjaunināts, tiklīdz būs pieejami interesanti jautājumi un nianses.

Es biju ar tevi, slinkais Staur.

Fails sitemap.xml un pareizais vietnes robots.txt ir divi obligāti dokumenti, kas palīdz ātri un pilnībā indeksēt visas nepieciešamās tīmekļa resursa lapas, ko veic meklēšanas roboti. Pareiza vietņu indeksēšana Yandex un Google ir atslēga uz veiksmīgu emuāru reklamēšanu meklētājprogrammās.

Es jau rakstīju, kā izveidot vietnes karti XML formātā un kāpēc tā ir nepieciešama. Tagad parunāsim par to, kā izveidot pareizo robots.txt WordPress vietnei un kāpēc tas vispār ir vajadzīgs. Detalizētu informāciju par šo failu var iegūt attiecīgi no Yandex un Google. Es ķeršos pie lietas būtības un pieskaršos WordPress pamata robots.txt iestatījumiem, izmantojot savu failu kā piemēru.

Kāpēc vietnei ir nepieciešams fails robots.txt?

Standarts robots.txt parādījās 1994. gada janvārī. Skenējot tīmekļa resursu, meklēšanas roboti vispirms meklē teksta failu robots.txt, kas atrodas vietnes vai emuāra saknes mapē. Ar tās palīdzību mēs varam norādīt noteiktus noteikumus dažādu meklētājprogrammu robotiem, pēc kuriem viņi indeksēs vietni.

Pareizi iestatot failu robots.txt, varēsiet:

izslēgt no indeksa dublikātus un dažādas nevēlamās lapas;
aizliegt indeksēt lapas, failus un mapes, kuras vēlamies paslēpt;
parasti atsakās indeksēt dažus meklēšanas robotus (piemēram, Yahoo, lai paslēptu informāciju par ienākošajām saitēm no konkurentiem);
norādiet vietnes galveno spoguli (ar www vai bez www);
norādiet ceļu uz vietnes karti sitemap.xml.

Kā izveidot vietnei pareizo robots.txt

Šim nolūkam ir īpaši ģeneratori un spraudņi, taču labāk to darīt manuāli.

Jums vienkārši ir jāizveido parasts teksta fails ar nosaukumu robots.txt, izmantojot jebkuru teksta redaktoru (piemēram, Notepad vai Notepad++) un jāaugšupielādē tas savā mitināšanā sava emuāra saknes mapē. Šajā failā ir jāraksta noteiktas direktīvas, t.i. indeksēšanas noteikumi Yandex, Google utt. robotiem.

Ja esat pārāk slinks, lai ar to nodarbotos, tālāk es sniegšu piemēru no mana viedokļa par pareizo robots.txt failu WordPress no sava emuāra. Varat to izmantot, aizstājot domēna nosaukumu trīs vietās.

Robots.txt izveides noteikumi un direktīvas

Lai veiksmīgi optimizētu emuāru meklētājprogrammās, jums jāzina daži robots.txt izveides noteikumi:

Ja fails robots.txt nav vai tas ir tukšs, meklētājprogrammas drīkst indeksēt visu tīmekļa resursa saturu.
Fails robots.txt ir jāatver vietnē site.ru/robots.txt, norādot robotam atbildes kodu 200 OK, un tā lielums nedrīkst pārsniegt 32 KB. Fails, kuru neizdodas atvērt (piemēram, kļūdas 404 dēļ) vai ir lielāks, tiks uzskatīts par labu.
Direktīvu skaits failā nedrīkst pārsniegt 1024. Vienas rindiņas garums nedrīkst pārsniegt 1024 rakstzīmes.
Derīgam robots.txt failam var būt vairāki priekšraksti, no kuriem katram jāsākas ar User-agent direktīvu un jāsatur vismaz viena Disallow direktīva. Parasti viņi raksta instrukcijas failā robots.txt Google un visiem citiem robotiem un atsevišķi Yandex.

Pamata robots.txt direktīvas:

Lietotāja aģents – norāda, kuram meklēšanas robotam instrukcija ir adresēta.

Simbols “*” nozīmē, ka tas attiecas uz visiem robotiem, piemēram:

Lietotāja aģents: *

Ja mums ir jāizveido kārtula failā robots.txt Yandex, mēs rakstām:

Lietotāja aģents: Yandex

Ja konkrētam robotam ir norādīta direktīva, tā neņem vērā direktīvu User-agent: *.

Neatļaut un Atļaut – attiecīgi aizliedz un ļauj robotiem indeksēt norādītās lapas. Visas adreses jānorāda no vietnes saknes, t.i. sākot no trešās slīpsvītras. Piemēram:

Aizliegums visiem robotiem indeksēt visu vietni:
Lietotāja aģents: *
Neatļaut: /
Yandex ir aizliegts indeksēt visas lapas, kas sākas ar /wp-admin:
Lietotāja aģents: Yandex
Neatļaut: /wp-admin
Tukša Disallow direktīva ļauj indeksēt visu un ir līdzīga Atļaut. Piemēram, es atļauju Yandex indeksēt visu vietni:
Lietotāja aģents: Yandex
Neatļaut:
Un otrādi, es aizliedzu visiem meklēšanas robotiem indeksēt visas lapas:
Lietotāja aģents: *
Atļaut:
Direktīvas Allow un Disallow no viena un tā paša User-agent bloka tiek sakārtotas pēc URL prefiksa garuma un tiek izpildītas secīgi. Ja vienai vietnes lapai ir piemērotas vairākas direktīvas, tad tiek izpildīta pēdējā sarakstā. Tagad to rakstīšanas secībai nav nozīmes, kad robots izmanto direktīvas. Ja direktīvām ir vienāda garuma prefiksi, vispirms tiek izpildīts Allow. Šādi noteikumi stājās spēkā 2012. gada 8. martā. Piemēram, tas ļauj indeksēt tikai lapas, kas sākas ar /wp-includes:
Lietotāja aģents: Yandex
Neatļaut: /
Atļaut: /wp-includes

Vietnes karte — norāda XML vietnes kartes adresi. Vienai vietnei var būt vairākas vietnes kartes direktīvas, kuras var ligzdot. Lai paātrinātu vietņu indeksēšanu, failā robots.txt ir jānorāda visas vietnes kartes failu adreses:

Vietnes karte: http://site/sitemap.xml.gz
Vietnes karte: http://site/sitemap.xml

Host — norāda spoguļrobotam, kuru vietnes spoguli uzskatīt par galveno.

Ja vietne ir pieejama vairākās adresēs (piemēram, ar www un bez www), tad tiek izveidotas pilnīgas dublētās lapas, kuras var uztvert filtrs. Arī šajā gadījumā tā var nebūt galvenā lapa, kas tiek indeksēta, bet galvenā lapa, gluži pretēji, tiks izslēgta no meklētājprogrammas rādītāja. Lai to novērstu, izmantojiet direktīvu Host, kas robots.txt failā ir paredzēta tikai Yandex, un tā var būt tikai viena. Tas ir rakstīts aiz Neatļaut un Atļaut un izskatās šādi:

Saimnieks: vietne

Crawl-delay — iestata aizkavi starp lapu lejupielādes sekundēm. Izmanto, ja ir liela slodze un serverim nav laika apstrādāt pieprasījumus. Jaunās vietnēs labāk neizmantot rāpuļprogrammas aizkaves direktīvu. Tas ir rakstīts šādi:

Lietotāja aģents: Yandex
Pārmeklēšanas aizkave: 4

Clean-param – atbalsta tikai Yandex, un to izmanto, lai novērstu dublētās lapas ar mainīgajiem, apvienojot tās vienā. Tādējādi Yandex robots daudzas reizes nelejupielādēs līdzīgas lapas, piemēram, tās, kas saistītas ar novirzīšanas saitēm. Es vēl neesmu izmantojis šo direktīvu, bet Yandex palīdzībā par robots.txt, sekojiet saitei raksta sākumā, jūs varat izlasīt šo direktīvu detalizēti.

Speciālās rakstzīmes * un $ tiek izmantotas failā robots.txt, lai norādītu direktīvu Disallow un Allow ceļus:

Īpašā rakstzīme “*” nozīmē jebkuru rakstzīmju secību. Piemēram, Disallow: /*?* nozīmē aizliegumu jebkurām lapām, kurās adresē parādās “?”, neatkarīgi no tā, kādas rakstzīmes ir pirms un pēc šīs rakstzīmes. Pēc noklusējuma katra noteikuma beigās tiek pievienota īpašā rakstzīme “*”, pat ja tā nav īpaši norādīta.
Simbols “$” atceļ “*” kārtulas beigās un nozīmē stingru atbilstību. Piemēram, direktīva Disallow: /*?$ aizliedz indeksēt lapas, kas beidzas ar rakstzīmi “?”.

Faila robots.txt piemērs vietnei WordPress

Šeit ir mana faila robots.txt piemērs emuāram WordPress programmā:

Lietotāja aģents: * Disallow: /cgi-bin Neatļaut: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Neatļaut: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= Lietotāja aģents: Yandex Disallow: /cgi-bin Neatļaut: /wp-admin Neatļaut: /wp-includes Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Neatļaut: /trackback Neatļaut: */ Trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Lai nemaldinātu sevi, izveidojot pareizo robots.txt failam WordPress, varat izmantot šo failu. Ar indeksēšanu nav problēmu. Man ir kopēšanas aizsardzības skripts, tāpēc ērtāk būs lejupielādēt gatavu robots.txt un augšupielādēt to savā hostingā. Vienkārši neaizmirstiet resursdatora un vietnes kartes direktīvās aizstāt manas vietnes nosaukumu ar savu.

Noderīgi papildinājumi, lai pareizi konfigurētu failu robots.txt darbam ar WordPress

Ja jūsu WordPress emuārā ir instalēti koku komentāri, tie veido lapas dublikātus formā ?replytocom= . Vietnē robots.txt šādas lapas tiek aizvērtas ar direktīvu Disallow: /*?*. Bet tas nav risinājums, un labāk ir noņemt aizliegumus un cīnīties ar replytocom citā veidā. Kas, .

Tādējādi pašreizējais robots.txt fails 2014. gada jūlijā izskatās šādi:

Lietotāja aģents: * Disallow: /wp-includes Disallow: /wp-feed Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Lietotāja aģents: Yandex Disallow: /wp -includes Disallow: /wp-feed Neatļaut: /wp-content/plugins Neatļaut: /wp-content/cache Neatļaut: /wp-content/themes Host: site.ru Lietotāja aģents: Googlebot-Image Allow: /wp-content /uploads/ Lietotāja aģents: YandexImages Atļaut: /wp-content/uploads/ Vietnes karte: http://site.ru/sitemap.xml

Tajā papildus ir izklāstīti attēlu indeksēšanas robotu noteikumi.

Lietotāja aģents: Mediapartners-Google
Neatļaut:

Ja plānojat reklamēt kategoriju vai tagu lapas, atveriet tās robotiem. Piemēram, emuāra vietnē kategorijas netiek slēgtas no indeksēšanas, jo tajās tiek publicēti tikai nelieli rakstu paziņojumi, kas satura dublēšanas ziņā ir diezgan nenozīmīgi. Un, ja izmantojat citātu attēlošanu emuāra plūsmā, kas ir piepildīti ar unikāliem paziņojumiem, tad dublēšanās nebūs vispār.

Ja neizmantojat iepriekš minēto spraudni, failā robots.txt varat norādīt, lai aizliegtu tagu, kategoriju un arhīvu indeksēšanu. Piemēram, pievienojot šādas rindas:

Neatļaut: /autors/
Neatļaut: /tag
Neatļaut: /category/*/*
Neatļaut: /20*

Neaizmirstiet pārbaudīt failu robots.txt panelī Yandex.Webmaster un pēc tam atkārtoti augšupielādēt to savā mitināšanā.

Ja jums ir kādi papildinājumi robots.txt konfigurēšanai, rakstiet par to komentāros. Tagad noskatieties video par to, kas tas ir un kā izveidot vietnei pareizo robots.txt, kā aizliegt indeksēšanu failā robots.txt un labot kļūdas.

Fails robots.txt atrodas jūsu vietnes saknes direktorijā. Piemēram, vietnē www.example.com faila robots.txt adrese izskatīsies šādi: www.example.com/robots.txt. Fails robots.txt ir vienkārša teksta fails, kas atbilst robotu izslēgšanas standartam un ietver vienu vai vairākus noteikumus, no kuriem katrs liedz vai ļauj konkrētai rāpuļprogrammai piekļūt konkrētam vietnes ceļam.

Šeit ir vienkārša robots.txt faila piemērs ar diviem noteikumiem. Zemāk ir paskaidrojumi.

# 1. grupas lietotāja aģents: Googlebot Disallow: /nogooglebot/ # 2. grupas lietotāja aģents: * Atļaut: / Vietnes karte: http://www.example.com/sitemap.xml

Paskaidrojumi

Lietotāja aģents, ko sauc par Googlebot, nedrīkst pārmeklēt direktoriju http://example.com/nogooglebot/ un tā apakšdirektorijus.
Visiem pārējiem lietotāju aģentiem ir piekļuve visai vietnei (var izlaist, rezultāts būs tāds pats, jo pēc noklusējuma tiek piešķirta pilna piekļuve).
Vietnes kartes failsšī vietne atrodas http://www.example.com/sitemap.xml.

Tālāk ir sniegti daži padomi darbam ar failiem robots.txt. Mēs iesakām izpētīt visu šo failu sintaksi, jo to izveidei izmantotie sintakses noteikumi nav acīmredzami un jums tie ir jāsaprot.

Formāts un izkārtojums

Failu robots.txt varat izveidot gandrīz jebkurā teksta redaktorā, kas atbalsta UTF-8 kodējumu. Neizmantojiet tekstapstrādes programmas, jo tās bieži saglabā failus patentētā formātā un pievieno nelegālas rakstzīmes, piemēram, cirtainas pēdiņas, kuras meklēšanas roboti neatpazīst.

Veidojot un testējot robots.txt failus, izmantojiet testēšanas rīku. Tas ļauj analizēt faila sintaksi un uzzināt, kā tas darbosies jūsu vietnē.

Noteikumi par faila formātu un atrašanās vietu

Faila nosaukumam jābūt robots.txt.
Vietnē jābūt tikai vienam šādam failam.
Fails robots.txt ir jāievieto saknes direktoriju vietne. Piemēram, lai kontrolētu visu vietnes http://www.example.com/ lapu pārmeklēšanu, failam robots.txt jāatrodas vietnē http://www.example.com/robots.txt. Tam nevajadzētu atrasties apakšdirektorijā(piemēram, adresē http://example.com/pages/robots.txt). Ja jums ir grūtības piekļūt saknes direktorijam, sazinieties ar mitināšanas pakalpojumu sniedzēju. Ja jums nav piekļuves vietnes saknes direktorijam, izmantojiet alternatīvu bloķēšanas metodi, piemēram, metatagus.
Failu robots.txt var pievienot adresēm ar apakšdomēni(piemēram, http:// tīmekļa vietne.example.com/robots.txt) vai nestandarta porti (piemēram, http://example.com: 8181 /robots.txt).
Jebkurš teksts pēc simbola # tiek uzskatīts par komentāru.

Sintakse

Failam robots.txt ir jābūt UTF-8 kodētam teksta failam (kas ietver ASCII rakstzīmju kodus). Citas rakstzīmju kopas nevar izmantot.
Fails robots.txt sastāv no grupas.
Katrs grupai var saturēt vairākus noteikumiem, viens katrā rindā. Šos noteikumus sauc arī par direktīvas.
Grupa ietver šādu informāciju:
- Uz kuru lietotāja aģents Tiek piemēroti grupu norādījumi.
- ir piekļuve.
- Kuriem direktorijiem vai failiem šis aģents piekļūst? Nav piekļuves.
Grupas instrukcijas tiek lasītas no augšas uz leju. Robots ievēros tikai vienas grupas noteikumus ar lietotāja aģentu, kas tai visvairāk atbilst.
Pēc noklusējuma tas tiek pieņemts Ja piekļuvi lapai vai direktorijam nebloķē Disallow: noteikums, lietotāja aģents var to apstrādāt.
Noteikumi reģistrjutīgs. Tādējādi noteikums Disallow: /file.asp attiecas uz URL http://www.example.com/file.asp, bet ne uz http://www.example.com/File.asp.

Robots.txt failos izmantotās direktīvas

Lietotāja aģents: Obligāta direktīva, grupā var būt vairāki tādi. Nosaka, kura meklētājprogramma robots ir jāpiemēro noteikumi. Katra grupa sākas ar šo rindiņu. Lielāko daļu ar Googlebots saistīto lietotāju aģentu var atrast īpašā sarakstā un interneta robotu datu bāzē. Tiek atbalstīta aizstājējzīme *, lai norādītu ceļa prefiksu, sufiksu vai visu ceļu. Izmantojiet zīmi *, kā parādīts zemāk esošajā piemērā, lai bloķētu piekļuvi visām rāpuļprogrammām ( izņemot AdsBot robotus, kas jānorāda atsevišķi). Mēs iesakām iepazīties ar Google robotu sarakstu. Piemēri:# 1. piemērs. Piekļuves bloķēšana tikai Googlebot lietotāja aģentam: Googlebot Disallow: / # 2. piemērs. Piekļuves bloķēšana Googlebot un AdsBot robotiem User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # 3. piemērs. Piekļuves bloķēšana visi roboti , izņemot AdsBot lietotāja aģentu: * Neatļaut: /
Neatļaut: . Norāda uz direktoriju vai lapu saistībā ar saknes domēnu, kuru nevar pārmeklēt iepriekš definētais lietotāja aģents. Ja šī ir lapa, ir jānorāda pilns ceļš uz to, tāpat kā pārlūkprogrammas adreses joslā. Ja tas ir direktorijs, ceļam jābeidzas ar slīpsvītru (/). Tiek atbalstīta aizstājējzīme *, lai norādītu ceļa prefiksu, sufiksu vai visu ceļu.
Atļaut: Katrā grupā ir jābūt vismaz vienai Disallow: vai Allow: direktīvai. Norāda uz direktoriju vai lapu saistībā ar saknes domēnu, kuru var pārmeklēt iepriekš definētais lietotāja aģents. Izmanto, lai ignorētu direktīvu Disallow un atļautu skenēt apakšdirektoriju vai lappusi direktorijā, kas ir aizvērts skenēšanai. Ja šī ir lapa, ir jānorāda pilns ceļš uz to, tāpat kā pārlūkprogrammas adreses joslā. Ja tas ir direktorijs, ceļam jābeidzas ar slīpsvītru (/). Tiek atbalstīta aizstājējzīme *, lai norādītu ceļa prefiksu, sufiksu vai visu ceļu.
Vietnes karte: Fakultatīvā direktīva var būt vairākas vai neviena no tām. Norāda šajā vietnē izmantotās vietnes kartes atrašanās vietu. URL ir jābūt pilnīgam. Google neapstrādā un neapstiprina URL variantus ar prefiksiem http un https vai ar vai bez elementa www. Vietņu kartes norāda Google, kāds saturs vajag skenēt un kā to atšķirt no satura, kas Var vai tas ir aizliegts skenēt. Piemērs: Vietnes karte: https://example.com/sitemap.xml Vietnes karte: http://www.example.com/sitemap.xml

Citi noteikumi tiek ignorēti.

Vēl viens piemērs

Fails robots.txt sastāv no grupām. Katrs no tiem sākas ar rindiņu User-agent, kas definē robotu, kuram ir jāievēro noteikumi. Tālāk ir parādīts faila piemērs ar divām grupām un paskaidrojošiem komentāriem abām.

# Bloķējiet Googlebot piekļuvi example.com/directory1/... un example.com/directory2/... # bet atļaujiet piekļuvi directory2/subdirectory1/... # Piekļuve visiem pārējiem direktorijiem ir atļauta pēc noklusējuma. Lietotāja aģents: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Bloķējiet piekļuvi visai vietnei citai meklētājprogrammai. Lietotāja aģents: othercrawler Neatļaut: /

Pilna faila robots.txt sintakse

Pilna sintakse ir aprakstīta šajā rakstā. Mēs iesakām ar to iepazīties, jo faila robots.txt sintaksē ir dažas svarīgas nianses.

Noderīgi noteikumi

Šeit ir daži vispārīgi noteikumi failam robots.txt:

Noteikums	Piemērs
Aizliegums pārmeklēt visu vietni. Lūdzu, ņemiet vērā, ka dažos gadījumos vietņu URL var būt iekļauti rādītājā pat tad, ja tie nav pārmeklēti. Lūdzu, ņemiet vērā, ka šis noteikums neattiecas uz AdsBot robotiem, kas ir jānorāda atsevišķi.	Lietotāja aģents: * Neatļaut: /
Lai novērstu direktorija un visa tā satura skenēšanu, pēc direktorija nosaukuma ievietojiet slīpsvītru. Neizmantojiet failu robots.txt, lai aizsargātu konfidenciālu informāciju! Šiem nolūkiem jāizmanto autentifikācija. Vietrāžus URL, kurus failam robots.txt nav atļauts pārmeklēt, var indeksēt, un faila robots.txt saturu var skatīt jebkurš lietotājs, tādējādi atklājot failu atrašanās vietu ar sensitīvu informāciju.	Lietotāja aģents: * Disallow: /calendar/ Disallow: /junk/
Lai atļautu pārmeklēšanu tikai vienam rāpuļprogrammai	Lietotāja aģents: Googlebot-news Atļaut: / Lietotāja aģents: * Neatļaut: /
Lai atļautu pārmeklēšanu visām rāpuļprogrammām, izņemot vienu	Lietotāja aģents: Unnecessarybot Disallow: / User-agent: * Atļaut: /
Lai novērstu konkrētas lapas pārmeklēšanu, norādiet šo lapu aiz slīpsvītras.	Lietotāja aģents: * Neatļaut: /private_file.html
Lai paslēptu noteiktu attēlu no Google attēlu robota	Lietotāja aģents: Googlebot-Image Disallow: /images/dogs.jpg
Lai paslēptu visus savas vietnes attēlus no Google attēlu robota	Lietotāja aģents: Googlebot-Image Disallow: /
Lai novērstu visu noteikta veida failu skenēšanu(šajā gadījumā GIF)	Lietotāja aģents: Googlebot Disallow: /*.gif$
Lai bloķētu noteiktas lapas savā vietnē, bet tajās joprojām rādītu AdSense reklāmas, izmantojiet Neatļaut kārtulu visiem robotiem, izņemot Mediapartners-Google. Rezultātā šis robots varēs piekļūt lapām, kas noņemtas no meklēšanas rezultātiem, lai atlasītu reklāmas, ko rādīt konkrētam lietotājam.	User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Lai norādītu URL, kas beidzas ar noteiktu fragmentu, izmantojiet simbolu $. Piemēram, URL, kas beidzas ar .xls, izmantojiet šādu kodu:	Lietotāja aģents: Googlebot Disallow: /*.xls$

Vai šī informācija bija noderīga?

Kā šo rakstu var uzlabot?

Viens no vietnes optimizēšanas posmiem meklētājprogrammām ir faila robots.txt kompilēšana. Izmantojot šo failu, varat neļaut dažiem vai visiem meklēšanas robotiem indeksēt jūsu vietni vai noteiktas tās daļas, kas nav paredzētas indeksēšanai. Jo īpaši varat novērst dublēta satura indeksēšanu, piemēram, lapu drukas versijas.

Pirms indeksēšanas sākšanas meklēšanas roboti vienmēr atsaucas uz failu robots.txt jūsu vietnes saknes direktorijā, piemēram, http://site.ru/robots.txt, lai uzzinātu, kuras vietnes sadaļas robotam ir aizliegts. no indeksēšanas. Bet pat tad, ja jūs negrasāties neko aizliegt, joprojām ir ieteicams izveidot šo failu.

Kā redzams no robots.txt paplašinājuma, šis ir teksta fails. Lai izveidotu vai rediģētu šo failu, labāk ir izmantot vienkāršākos teksta redaktorus, piemēram, Notepad. robots.txt ir jāievieto vietnes saknes direktorijā, un tam ir savs formāts, par kuru mēs runāsim tālāk.

Robots.txt faila formāts

Failā robots.txt ir jābūt vismaz diviem obligātajiem ierakstiem. Pirmā ir lietotāja aģenta direktīva, kas norāda, kuram meklēšanas robotam ir jāievēro turpmākie norādījumi. Vērtība var būt robota nosaukums (googlebot, Yandex, StackRambler) vai simbols *, ja piekļūstat visiem robotiem vienlaikus. Piemēram:

Lietotāja aģents: googlebot

Robota nosaukumu varat atrast atbilstošās meklētājprogrammas vietnē. Tālāk ir jābūt vienai vai vairākām Disallow direktīvām. Šīs direktīvas norāda robotam, kurus failus un mapes nav atļauts indeksēt. Piemēram, šādas rindas neļauj robotiem indeksēt failu feedback.php un direktoriju cgi-bin:

Neatļaut: /feedback.php Neatļaut: /cgi-bin/

Varat arī izmantot tikai failu vai mapju sākuma rakstzīmes. Rinda Disallow: /forum aizliedz indeksēt visus failus un mapes tās vietnes saknē, kuras nosaukums sākas ar forumu, piemēram, failu http://site.ru/forum.php un mapi http://site. ru/forums/ ar visu saturu. Ja Disallow ir tukšs, tas nozīmē, ka robots var indeksēt visas lapas. Ja Disallow vērtība ir simbols /, tas nozīmē, ka ir aizliegts indeksēt visu vietni.

Katram lietotāja aģenta laukam ir jābūt vismaz vienam Disallow laukam. Tas ir, ja jūs neko neaizliedzat indeksēšanai, failā robots.txt ir jābūt šādiem ierakstiem:

Lietotāja aģents: * Neatļaut:

Papildu direktīvas

Papildus parastajām izteiksmēm Yandex un Google atļauj izmantot direktīvu Allow, kas ir pretēja Disallow, tas ir, norāda, kuras lapas var indeksēt. Nākamajā piemērā Yandex ir aizliegts indeksēt visu, izņemot lapu adreses, kas sākas ar /articles:

Lietotāja aģents: Yandex Atļaut: /articles Neatļaut: /

Šajā piemērā direktīva Allow ir jāraksta pirms Disallow, pretējā gadījumā Yandex to sapratīs kā pilnīgu vietnes indeksēšanas aizliegumu. Tukša Atļaut direktīva arī pilnībā atspējo vietņu indeksēšanu:

Lietotāja aģents: Yandex Atļaut:

ekvivalents

Lietotāja aģents: Yandex Disallow: /

Nestandarta direktīvas ir jānorāda tikai tām meklētājprogrammām, kas tās atbalsta. Pretējā gadījumā robots, kas nesaprot šo ierakstu, var nepareizi apstrādāt to vai visu failu robots.txt. Plašāku informāciju par papildu direktīvām un kopumā par to, kā atsevišķa robota izprot komandas robots.txt failā, var atrast atbilstošās meklētājprogrammas vietnē.

Regulāras izteiksmes failā robots.txt

Lielākā daļa meklētājprogrammu ņem vērā tikai skaidri norādītos failu un mapju nosaukumus, taču ir arī uzlabotas meklētājprogrammas. Google Robot un Yandex Robot atbalsta vienkāršu regulāro izteiksmju izmantošanu failā robots.txt, kas ievērojami samazina tīmekļa pārziņiem darba apjomu. Piemēram, tālāk norādītās komandas neļauj Googlebot indeksēt visus failus ar paplašinājumu .pdf:

Lietotāja aģents: googlebot Disallow: *.pdf$

Iepriekš minētajā piemērā * ir jebkura rakstzīmju secība, un $ norāda saites beigas.

Lietotāja aģents: Yandex Atļaut: /articles/*.html$ Neatļaut: /

Iepriekš minētās direktīvas ļauj Yandex indeksēt tikai failus ar paplašinājumu ".html", kas atrodas mapē /articles/. Viss pārējais indeksēšanai ir aizliegts.

Vietnes karte

Varat norādīt XML vietnes kartes atrašanās vietu failā robots.txt:

Lietotāja aģents: googlebot Neatļaut: Vietnes karte: http://site.ru/sitemap.xml

Ja jūsu vietnē ir ļoti daudz lapu un vietnes karte bija jāsadala daļās, tad failā robots.txt ir jānorāda visas kartes daļas:

Lietotāja aģents: Yandex Disallow: Vietnes karte: http://mysite.ru/my_sitemaps1.xml Vietnes karte: http://mysite.ru/my_sitemaps2.xml

Vietnes spoguļi

Kā zināms, parasti vienai un tai pašai vietnei var piekļūt no divām adresēm: gan ar www, gan bez tā. Meklēšanas robotam site.ru un www.site.ru ir dažādas vietnes, taču ar vienu un to pašu saturu. Tos sauc par spoguļiem.

Sakarā ar to, ka ir saites uz vietnes lapām gan ar, gan bez www, lapu svaru var sadalīt starp www.site.ru un site.ru. Lai tas nenotiktu, meklētājprogrammai ir jānorāda vietnes galvenais spogulis. “Līmēšanas” rezultātā viss svars piederēs vienam galvenajam spogulim un vietne varēs ieņemt augstāku pozīciju meklēšanas rezultātos.

Varat norādīt Yandex galveno spoguli tieši failā robots.txt, izmantojot direktīvu Host:

Lietotāja aģents: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Host: www.site.ru

Pēc līmēšanas spogulim www.site.ru piederēs viss svars un tas ieņems augstāku pozīciju meklēšanas rezultātos. Un meklētājprogramma vispār neindeksēs site.ru.

Citām meklētājprogrammām galvenā spoguļa izvēle ir servera puses pastāvīga novirzīšana (kods 301) no papildu spoguļiem uz galveno. Tas tiek darīts, izmantojot .htaccess failu un mod_rewrite moduli. Lai to izdarītu, ievietojiet .htaccess failu vietnes saknē un ierakstiet tur:

RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Rezultātā visi pieprasījumi no site.ru tiks novirzīti uz www.site.ru, tas ir, site.ru/page1.php tiks novirzīti uz www.site.ru/page1.php.

Novirzīšanas metode darbosies visās meklētājprogrammās un pārlūkprogrammās, taču joprojām ir ieteicams pievienot direktīvu Host Yandex failam robots.txt.

Komentāri failā robots.txt

Varat arī pievienot komentārus failam robots.txt — tie sākas ar simbolu # un beidzas ar jaunu rindiņu. Komentārus vēlams rakstīt atsevišķā rindā, vai arī labāk tos neizmantot vispār.

Komentāru izmantošanas piemērs:

Lietotāja aģents: StackRambler Disallow: /garbage/ # šajā mapē nav nekā noderīga Disallow: /doc.xhtml # un arī šajā lapā # un visi komentāri šajā failā arī ir bezjēdzīgi

Robots.txt failu piemēri

1. Ļaujiet visiem robotiem indeksēt visus vietnes dokumentus:

Lietotāja aģents: * Neatļaut:
Lietotāja aģents: * Neatļaut: /

3. Mēs aizliedzam Google meklēšanas robotam indeksēt failu feedback.php un cgi-bin direktorija saturu:

Lietotāja aģents: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Mēs ļaujam visiem robotiem indeksēt visu vietni, un mēs aizliedzam Yandex meklētājprogrammas robotam indeksēt failu feedback.php un cgi-bin direktorija saturu:

Lietotāja aģents: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Host: www.site.ru Lietotāja aģents: * Neatļaut:

5. Mēs ļaujam visiem robotiem indeksēt visu vietni, un Yandex robotam ļaujam indeksēt tikai tai paredzēto vietnes daļu:

Lietotāja aģents: Yandex Atļaut: /yandex Disallow: / Host: www.site.ru Lietotāja aģents: * Neatļaut:

Tukšas līnijas atdala ierobežojumus dažādiem robotiem. Katram ierobežojumu blokam jāsākas ar rindiņu ar lauku User-Agent, norādot robotu, uz kuru attiecas šie vietņu indeksēšanas noteikumi.

Biežas kļūdas

Ir svarīgi ņemt vērā, ka tukša rindiņa failā robots.txt ir atdalītājs starp diviem dažādu robotu ierakstiem. Jūs arī nevarat norādīt vairākas direktīvas vienā rindā. Neļaujot failam indeksēt, tīmekļa pārziņi bieži izlaiž / pirms faila nosaukuma.

Vietnē robots.txt nav jānorāda aizliegums indeksēt vietni dažādām programmām, kas paredzētas vietnes pilnīgai lejupielādei, piemēram, TeleportPro. Ne lejupielādes programmas, ne pārlūkprogrammas nekad neskatās uz šo failu un nepilda tur rakstītās instrukcijas. Tas ir paredzēts tikai meklētājprogrammām. Nevajadzētu arī bloķēt savas vietnes admin paneli failā robots.txt, jo, ja nekur nav saites uz to, tad tā netiks indeksēta. Jūs vienkārši atklāsiet administratora apgabala atrašanās vietu cilvēkiem, kuriem par to nevajadzētu zināt. Ir arī vērts atcerēties, ka robots.txt, kas ir pārāk liels, meklētājprogramma var ignorēt. Ja jums ir pārāk daudz lapu, kas nav paredzētas indeksēšanai, labāk tās vienkārši noņemt no vietnes vai pārvietot uz atsevišķu direktoriju un novērst šī direktorija indeksēšanu.

Pārbauda, vai failā robots.txt nav kļūdu

Noteikti pārbaudiet, kā meklētājprogrammas saprot jūsu robotu failu. Lai pārbaudītu Google, varat izmantot Google tīmekļa pārziņa rīkus. Ja vēlaties uzzināt, kā jūsu robots.txt failu saprot Yandex, varat izmantot pakalpojumu Yandex.Webmaster. Tas ļaus jums savlaicīgi labot visas kļūdas. Arī šo pakalpojumu lapās var atrast ieteikumus faila robots.txt izveidošanai un daudz citas noderīgas informācijas.

Raksta kopēšana ir aizliegta.