Optimizează bugetul de crawl

Acest ghid descrie cum să optimizezi crawl-ul Google pentru site-uri foarte mari și frecvent actualizate.

Dacă site-ul tău nu are un număr mare de pagini care se schimbă rapid sau dacă paginile tale par să fie crawl-uite în aceeași zi în care sunt publicate, nu este necesar să citești acest ghid. Pentru Google Search, este suficient să
menții sitemap-ul actualizat și să
verifici acoperirea indexului în mod regulat.

Pentru cine este acest ghid

Deși recomandările din acest ghid sunt, în general, bune practici, acesta este un ghid avansat destinat în principal următoarelor tipuri de site-uri:

Site-uri mari (peste 1 milion de pagini unice) cu conținut care se schimbă moderat de des (o dată pe săptămână)
Site-uri medii sau mai mari (peste 10.000 de pagini unice) cu conținut care se schimbă foarte rapid (zilnic)
Site-uri cu o mare parte din totalul URL-urilor clasificate de Search Console ca
Descoperite – momentan neindexate

Teoria generală a crawl-ului

Web-ul este un spațiu aproape infinit, depășind capacitatea Google de a explora și indexa fiecare URL disponibil. Ca rezultat, există limite în ceea ce privește cât timp pot petrece crawlerele Google pe un singur site, unde un site este definit de numele de gazdă. De exemplu, https://www.example.com/ și https://code.example.com/ sunt două nume de gazdă diferite și, prin urmare, au bugete de crawl separate. Cantitatea de timp și resurse pe care Google le alocă pentru a crawl-ui un site este denumită în mod obișnuit bugetul de crawl al site-ului și este determinată de două elemente principale: limita capacității de crawl și cererea de crawl.

Limita capacității de crawl

Google dorește să crawl-uiască site-ul tău fără a suprasolicita serverele tale. Pentru a preveni acest lucru, crawlerele Google calculează o limită a capacității de crawl, care este numărul maxim de conexiuni paralele simultane pe care Google le poate folosi pentru a crawl-ui un site, precum și întârzierea dintre preluări. Aceasta este calculată pentru a oferi acoperire pentru tot conținutul tău important fără a suprasolicita serverele tale.

Limita capacității de crawl poate crește sau scădea în funcție de câțiva factori:

Sănătatea crawl-ului: Dacă site-ul răspunde rapid pentru o perioadă, limita crește, ceea ce înseamnă că mai multe conexiuni pot fi folosite pentru a crawl-ui. Dacă site-ul încetinește sau răspunde cu erori de server, limita scade și Google crawl-uiește mai puțin.
Limitele de crawl ale Google: Google are multe mașini, dar nu infinite. Trebuie să facem alegeri cu resursele pe care le avem.

Cererea de crawl

Fiecare crawler are propria sa “cerere” când vine vorba de crawl-ul web-ului. De exemplu, AdsBot are în general o cerere mai mare atunci când un site rulează ținte dinamice de anunțuri, Google Shopping are o cerere mai mare pentru produsele pe care le ai în feed-urile tale de comercianți, iar cererea Googlebot variază în funcție de dimensiunea site-ului, frecvența actualizărilor, calitatea paginii și relevanța, comparativ cu alte site-uri.

În general, factorii care joacă un rol semnificativ în determinarea cererii de crawl sunt:

Inventarul perceput: Fără îndrumare din partea ta, Google încearcă să crawl-uiască toate sau majoritatea URL-urilor pe care le cunoaște despre site-ul tău. Dacă multe dintre aceste URL-uri sunt duplicate sau nu dorești să fie crawl-uite din alte motive (eliminate, neimportante etc.), acest lucru irosește mult timp de crawl Google pe site-ul tău. Acesta este factorul pe care îl poți controla cel mai pozitiv.
Popularitatea: URL-urile care sunt mai populare pe Internet tind să fie crawl-uite mai des pentru a le menține mai proaspete în sistemele noastre.
Vechea: Sistemele noastre doresc să recrawl-uiască documentele suficient de frecvent pentru a detecta orice schimbări.

În plus, evenimente la nivel de site, cum ar fi mutările de site, pot declanșa o creștere a cererii de crawl pentru a reprocesa conținutul sub noile URL-uri.

În concluzie

Luând în considerare capacitatea de crawl și cererea de crawl împreună, Google definește bugetul de crawl al unui site ca setul de URL-uri pe care Google le poate și dorește să le crawl-uiască. Chiar dacă limita capacității de crawl nu este atinsă, dacă cererea de crawl este scăzută, Google va crawl-ui mai puțin site-ul tău.

Cele mai bune practici

Pentru a maximiza eficiența crawl-ului, urmează aceste bune practici:

Gestionează inventarul URL-urilor: Folosește instrumentele adecvate pentru a spune Google ce pagini să crawl-uiască și ce pagini să nu crawl-uiască. Dacă Google petrece prea mult timp crawl-uind URL-uri pe care nu ar trebui, crawlerele Google ar putea decide că nu merită timpul să se uite la restul site-ului tău (sau să-ți mărească bugetul pentru a face acest lucru).
- Consolidează conținutul duplicat.
  Elimină conținutul duplicat pentru a concentra crawl-ul pe conținut unic, mai degrabă decât pe URL-uri unice.
- Blochează crawl-ul URL-urilor folosind robots.txt. Unele pagini ar putea fi importante pentru utilizatori, dar nu dorești neapărat să apară pe suprafețele Google sau să fie reprocesate de sistemele Google. De exemplu, pagini cu derulare infinită care duplică informații pe paginile legate sau versiuni sortate diferit ale aceleași pagini. Dacă nu le poți consolida așa cum este descris în primul punct, blochează aceste pagini neimportante folosind
  robots.txt. Blocarea URL-urilor cu robots.txt împiedică Google să le crawl-uiască și reduce semnificativ șansa ca URL-urile să fie procesate de alte sisteme Google (cum ar fi indexarea de către Google Search).
  
  Nu folosi noindex, deoarece Google va solicita în continuare, dar apoi va elimina pagina când vede un tag noindex meta sau un antet în răspunsul HTTP, irosind timp de crawl. Nu folosi robots.txt pentru a realoca temporar bugetul de crawl pentru alte pagini; folosește robots.txt pentru a bloca paginile sau resursele pe care nu dorești ca Google să le crawl-uiască deloc. Google nu va transfera acest buget de crawl nou disponibil către alte pagini decât dacă Google atinge deja limita de servire a site-ului tău.
- Returnează un cod de stare 404 sau 410 pentru paginile eliminate permanent. Google nu va uita un URL pe care îl cunoaște, dar un cod de stare 404 este un semnal puternic pentru a nu crawl-ui acel URL din nou. URL-urile blocate, totuși, vor rămâne parte din coada ta de crawl mult mai mult timp și vor fi recrawl-uite când blocarea este eliminată.
- Elimină erorile soft 404. Paginile soft 404 vor continua să fie crawl-uite și vor irosi bugetul tău. Verifică
  raportul de acoperire a indexului pentru erori soft 404.
- Menține sitemap-urile actualizate. Google citește sitemap-ul tău în mod regulat, așa că asigură-te că incluzi tot conținutul pe care dorești ca Google să-l crawl-uiască. Dacă site-ul tău include conținut actualizat, recomandăm includerea tag-ului <lastmod>.
- Evită lanțurile lungi de redirecționare, care au un efect negativ asupra crawl-ului.
Fă paginile tale eficiente de încărcat.
Dacă Google poate încărca și reda paginile tale mai rapid, ar putea citi mai mult conținut de pe site-ul tău.
Depanează problemele cu bugetul de crawl.
Verifică dacă site-ul tău a avut probleme de disponibilitate în timpul crawl-ului și caută modalități de a face crawl-ul mai eficient.

Cum obțin mai mult buget de crawl?

Există două modalități de a crește bugetul de crawl:

Adaugă mai multe resurse de server: Dacă site-ul tău nu poate fi crawl-uit din cauza capacității serverului de pe partea ta (de exemplu, primești
Hostload depășit în instrumentul de inspecție URL), adaugă mai multe resurse de server dacă acest lucru are sens pentru afacerea ta.
Optimizează calitatea conținutului tău pentru produsul Google pe care îl vizezi: Google determină resursele de crawl alocate fiecărui site prin factorizarea elementelor relevante pentru produsul Google specific. De exemplu, pentru Google Search, acest lucru include lucruri precum popularitatea, valoarea generală pentru utilizatori, unicitatea conținutului și capacitatea de servire.

Notă de Transparență E-E-A-T: Acest material reprezintă o analiză aprofundată, adaptare și traducere tehnică a documentației oficiale Google Search Central. Conținutul original este oferit de Google sub licența Creative Commons Attribution 4.0 (CC-BY 4.0). AdvancedSystems operează ca o agenție premium independentă de consultanță și audit SEO, aducând valoare adăugată prin explicarea conceptelor arhitecturale pentru piața B2B din România.

Optimizează bugetul de crawl