Indexing API – kompendium wiedzy

Spis treści

Indexing API jest interfejsem pozwalającym na powiadomienie Google o zmianach związanych z adresami URL w danym serwisie internetowym. Do takich zmian należą:

dodanie adresu URL do indeksu Google;
aktualizacja adresu URL (technicznie przeindeksowanie);
usunięcie adresu URL z indeksu Google;
uzyskanie statusu ostatniego żądania.

Indexing API nie służy do indeksacji!

Pomimo swojej nazwy – Indexing API nie odpowiada za dodawanie adresu URL do indeksu.

Zgodnie z dokumentacją – mowa tutaj o crawlowaniu, a nie indeksowaniu.

Request index (tak nazywa się wysłanie informacji do Google) odpowiada za natychmiastowe przecrawlowanie/zeskanowanie adresu URL, które na poniższym wykresie widnieje pod nazwą Crawler.

W przypadku Request Index pomijana jest kolejka crawlowania, więc po zeskanowaniu danego adresu URL Googlebot przechodzi do jego przetwarzania (na wykresie Processing). Po tym procesie (trwającym średnio od 4 do 6 godzin, a czasem nawet i 24 godziny) Google podejmuje decyzję, czy chce dodać dany adres URL do indeksu.

Googlebot może również podjąć decyzję o nieindeksowaniu danego adresu, jeżeli nie spełni on określonych wymagań, które to nasz specjalista Sebastian Heymann określił mianem MVI – Minimum Value to Index, czyli minimalna wartość do zindeksowania.

Indexing API Request to natychmiastowe skanowanie adresu URL i przejście do jego przetwarzania, a nie jak się powszechnie określa „dodanie adresu URL do indeksu”.

Mimo widniejącej w dokumentacji wzmianki, że jest to zaplanowanie crawlowania dla stron, w naszych testach na tysiącach przypadków potwierdzono, że działanie jest niemalże natychmiastowe. Maksymalne opóźnienie, jakie uzyskaliśmy przy skanowaniu, wyniosło kilkanaście sekund.

Minimum Value to Index

Minimum Value to Index (w skrócie MVI) to teza (teoria potwierdzona testami, które ujawnimy niebawem), która mówi, ile reputacji musi „zdobyć” dany adres URL, aby został dodany do indeksu.

Reputację tę podzielono na czynniki on-site oraz off-site.

Do czynników on-URL należą wszystkie elementy indeksujące się pod danym adresem URL, mianowicie:

menu i stopka serwisu;
główna treść serwisu;
inne indeksowane treści (informacje o ciasteczkach, formularze, alty obrazów);
czynniki Page Experience, takie jak:
- Core Web Vitals;
- HTTPS;
- mobilność;
- brak reklam przeszkadzających przeglądanie serwisu;
czas reakcji adresu URL -> Time to First Byte (TTFB).

Do czynników off-URL należą wszystkie elementy niezwiązane bezpośrednio z próbą indeksowania określonego adresu URL, mianowicie:

linki zewnętrzne;
linki wewnętrzne;
zduplikowane adresy URL w obrębie serwisu;
zduplikowane adresy URL poza serwisem;
wartość domeny.

Gdy dany adres URL otrzyma odpowiednią wartość na podstawie powyższych czynników, Google doda taki adres do indeksu.

Jeżeli zdarzyło Ci się wysłać Request Index już kilkukrotnie, a ciągle nie został on zindeksowany, szukaj przyczyn w czynnikach wskazanych powyżej.

Zalety i wady Indexing API

ZALETY

Ominięcie kolejki crawlowania

Realizacja w czasie rzeczywistym

Nie wpływa na crawl budget serwisu

Działa nie tylko dla JobPosting i Broadcast Event

Przyśpieszenie prac nad SEO serwisu

Najszybszy sposób indeksowania stron

WADY

Tylko 200 requestów dziennie per project na Google Cloud

Maksymalnie 100 requestów ciągiem

Limit dzienny według czasu amerykańskiego GMT-4

Osobny interfejs

Tylko dla zweryfikowanych domen w GSC

Indexing API nie tylko dla JobPosting i Broadcast Event

Pomimo tego, iż w dokumentacji widnieją informacje o tym, że narzędzie przeznaczone jest tylko dla ofert pracy oraz stron z audycjami video, działa ono również dla innych typów podstron. John Mueller na swoim Twitterze poinformował, że Indexing APi działa wyłącznie dla JobPosting i Broadcast Event, a każdy inny rodzaj treści będzie ignorowany.

John Mueller został również zapytany o to, co się wydarzy, jeżeli spróbuje się wykorzystać Indexing API do innego typu treści. Odpowiedział on, że w takich sytuacjach rozwiązanie po prostu nie okaże się pomocne.

Na szczęście zapytano go również, czy jeżeli ktoś podejmie tego typu próbę, która zadziała, to czy można otrzymać za to karę? John odpowiedział, że NIE.

Dlaczego Indexing API działa dla innego rodzaju treści?

Odpowiedź wydaje się być dość prosta – Googlebot nie wie, co znajduje się na danej podstronie póki jej nie odwiedzi. Nie ma możliwości sprawdzenia, czy w kodzie HTML znajduje się JobPosting lub Broadcast Event, jeżeli wcześniej adres URL nie zostanie zeskanowany/przecrawlowany.

Mogłoby to mieć zastosowanie w przypadku usuwania adresów URL (ponieważ wcześniej taki adres musi być znany), ale również w takich przypadkach nasze testy wykazały, że z indeksu możemy usuwać adresy URL, których tematyka nie jest związana z wcześniej wspomnianymi treściami.

Uważamy, że interfejs jest nieco zastępstwem tego, co każdy użytkownik może zrobić w swoim Google Search Console klikając w „poproś o zindeksowanie adresu URL”. Nie trzeba jednak w tym przypadku uruchamiać interfejsu Google Search Console i wcześniej pobierać adresu, a co za tym idzie, zaoszczędzone zostaną zasoby Google.

Indexing API zamiast Request Indexing w Google Search Console

W Google Search Console możesz pobrać maksymalnie kilka adresów URL dziennie, w Indexing API aż 200.

Indexing API vs Sitemapa w XML

Poniżej w tabelce znajdziesz informacje, jakie są różnice między sitemapą, a Indexing API.

Indexing API

Pewność zeskanowania adresu URL w czasie rzeczywistym

Wiesz, kiedy URL zostanie zeskanowany

Osobny interfejs

Dane z requestów zawsze dostępne w Google Search Console

Limit do 200 requestów dziennie

Liczba requestów nie jest uzależniona od crawl budgetu

Sitemap.xml

Brak pewności zeskanowania adresu URL, nawet w przyszłości

Nie wiesz, kiedy adres URL zostanie zeskanowany

Możliwość dodania w Google Search Console lub pliku robots.txt

Dane z requestów nie zawsze dostępne w Google Search Console

Duże sitemapy zapewniają więcej niż 200 requestów dziennie

Liczba requestów uzależniona od crawl budgetu

Powyższe elementy są inaczej przetwarzane, dlatego pamiętaj o tym, korzystając z nich.

Zaplanuj dodawanie URLi do Indexing API i nie dodawaj ich na początku do sitemapy. To pozwoli Ci na bardziej optymalne crawlowanie nowych adresów URL.

Portale z podpiętym Indexing API w Linkhouse

Poziom indeksacji portali z Indexing API wynosi niemalże 100%. Pojedyncze, niezindeksowane adresy URL wynikają z indeksacji innego adresu URL, niepoprawnego adresu URL lub chwilowych problemów z dostępem do serwisu wydawcy.

Wydawco – pamiętaj, że dla reklamodawcy najważniejsze jest, żeby indeksowały się kupowane przez niego publikacje.

Reklamodawco – pamiętaj, że możesz wybierać portale, które dodały się do aplikacji Indexing API od Google w Linkhouse, mając jednocześnie niemal 100% pewności, że Twój artykuł zostanie dodany do indeksu.

Indexing API – do czego?

Do czego można wykorzystać Indexing API oprócz crawlowania / indeksowania adresów URL?

Poniżej przedstawiono listę możliwości, które pozwolą Ci zrozumieć, dlaczego powinieneś jak najszybciej wspomagać swoje działania SEO poprzez Indexing API.

Przeindeksowanie treści

W sytuacji, kiedy pracujesz nad treścią, optymalizujesz ją, zmieniasz lub część nieaktualnej treści usuwasz, dla przyspieszenia szybkości jej przeindeksowania możesz wysłać Request Index do tego URLa i cieszyć się przeindeksowaniem zdecydowanie szybciej.

Nie musisz czekać na zeskanowanie URLa znajdującego się w kolejce crawlowania, bowiem nigdy nie wiadomo, kiedy dany adres zostanie przeskanowany.

Pamiętaj, że przeindeksowanie wiąże się z MDR, czyli Minimum Difference to Reindex. W przypadku wykonania zbyt małych zmian (poprawa literówek, korekta szyku zdania, dodanie zdjęcia) Google może uznać, że nie warto przeindeksowywać adresu URL.

Usunięcie adresu URL z indeksu

Dzięki Indexing API możesz usunąć nieaktualne adresy URL z indeksu za pomocą URL_deleted lub za pomocą URL_updated.

URL_deleted zastosuj w przypadku, gdy usunąłeś dany adres URL i nic już się na nim nie znajduje (zwraca kod HTTP 404).
URL_updated zastosuj do usuwania z indeksu, gdy adres URL istnieje, ale nie chcesz żeby znajdował się w indeksie Google, a w nagłówku <head> zaznaczyłeś informację o jego nieindeksowaniu za pomocą meta robots=noindex, ale zwraca kod HTTP 200.

Szybsza weryfikacja problemów krytycznych z Google Search Console

Widząc strony niezindeksowane w Google Search Console, wielu specjalistów korzysta z przycisku „sprawdź poprawkę”, która następnie jest odrzucana, ponieważ nie naprawiono wszystkich adresów URL znajdujących się w raporcie, a tylko ich część. Jeżeli nie skorygowano wszystkich adresów, dodaj te adresy URL do indexing API, zamiast korzystać z przycisku „sprawdź poprawkę”. Krytyczne problemy, którymi warto się zająć to m.in.:

błąd serwera;
błąd przekierowania;
duplikat, użytkownik nie oznaczył strony kanonicznej.

Przyśpieszenie crawlowania URLi

Widzisz sporo adresów URL w raporcie: „strona wykryta – obecnie niezindeksowana”? To sytuacja, w której dany adres URL znajduję się w kolejce do crawlowania, ale nie został jeszcze zeskanowany przez Google. To dzięki Indexing API możesz przyśpieszyć crawlowanie tych adresów i nie przejmować się tym, że prawdopodobnie znajdują się daleko w kolejce. Widzisz tam strategiczne z punktu widzenia Twojego biznesu adresy? Do dzieła!

Narzędzia do Indexing API

Jeżeli powyższy artykuł przekonał Cię do skorzystania z Indexing API, to możesz taką aplikację zaimplementować na swoim desktopie. Gotowe kody i instrukcję znajdziesz w poniższych linkach

https://github.com/m3m3nto/giaa (Memento from Rome)
https://github.com/marekfoltanski/indexingapi (Marek from Poland)

DLA PL: Możesz również skorzystać ze stworzonego już systemu przez Rolanda Adamczyka – seograjek.pl lub zaimplementować aplikację od TopOnline.pl.

Badanie: Czy Indexing API wpływa na Crawl Budget?

Badanie 1

Dane wejściowe:

stabilny serwis ze stałą liczbą crawlowania stron z kodem HTTP 200;
kilkadziesiąt requestów dziennie dla tych samych adresów w poszczególne dni;
pobieram tylko te adresy, które były w indeksie.

Linia trendu skanowania była nieco spadkowa.

Liczba zindeksowanych adresów URL znajduje się na stałym poziomie.

Wynik: brak pozytywnego lub negatywnego wpływu Indexing API na crawl budget serwisu. Wygląda na to, że Indexing API to tylko dodatek do bieżącego Crawl Budgetu.

Badanie 2

Dane wejściowe:

stabilny serwis ze stałą liczbą crawlowania stron z kodem HTTP 200;
requesty dla adresów URL, które już zwracają 404;
pobieram tylko te adresy, które są w indeksie Google.

Wynik: spadek crawlowania nie wynika z requestów Indexing API, a z powodu liczby adresów URL w indeksie.

Badanie 3

Dane wejściowe:

stabilny serwis ze stałą ilością crawlowania stron z kodem HTTP 200;
requesty tylko dla adresów URL, które zawierają kod HTTP 200;
requesty dla adresów URL, które wcześniej były w indeksie oraz tych, których w nim nie było.

Wynik: po trzech sesjach w Indexing API i zaindeksowaniu nowych adresów URL, wzrósł średni Crawl Budget serwisu.

Wnioski

Indexing API wyciąga adresy URL z kolejki crawlowania;
Indexing API nie wykorzystuje bieżącego Crawl Budgetu witryny;
Samo crawlowanie przez Indexing API nie powoduje zwiększenia ani zmniejszania Crawl Budgetu;
Crawl Budget zależy od liczby adresów URL w indeksie;
Indexing API może pośrednio wpływać na Crawl Budget, poprzez:
- dodanie / usunięcie adresów URL z indeksu;
- wyciąganie adresów URL z kolejki crawlowania.

Jak ominąć limit 200 requestów na dzień?

Limit wynoszący 200 requestów na dzień, dotyczy jednego projektu na jeden adres e-mail. Jeżeli utworzysz 10 projektów, to możesz skorzystać z 2000 requestów dziennie – w taki sposób możesz rozszerzać pulę wyjściową.

Pamiętaj, że musisz być zweryfikowanym właścicielem danego serwisu w Google Search Console, aby na innym koncie Google również wysyłać requesty do tego samego serwisu.

Podsumowując – Indexing API to Crawling API

Jak wspomniano wcześniej – Indexing API to tak naprawdę Crawling API z możliwością usuwania adresów URL z indeksu oraz pobierania informacji bieżących o adresach URL. Adres zostanie zindeksowany dopiero wtedy, kiedy osiągnie odpowiedni poziom wartości do indeksacji (Minimum Value to Index). Zachęcamy do korzystania z Indexing API, póki takie rozwiązanie działa wobec każdego adresu URL – jeśli, zgodnie z pierwotnym założeniem, zacznie ono działać wyłącznie dla JobPosting oraz Broadcast Event, niestety będzie konieczność korzystania z indekserów.

Autor

Sebastian Heymann – SEO w jego życiu istnieje od 2011 roku. Człowiek od trudnych pytań i do trudnych pytań. Współtwórca narzędzia Link Planner. Twórca jedynego szkolenia SEO z wykorzystania Google Search Console. Uwielbia podważać, kwestionować, testować oraz kreować publiczne debaty. SEO i analiza danych to jego pasje, którymi uwielbia się dzielić z innymi.

Dzielimy się wiedzą, case studies i przepytujemy ekspertów, by pomóc Twojej firmie wykorzystywać w pełni marketingowy potencjał sieci.

Podobne wpisy

Zaplecze SEO – czym jest i czy warto je tworzyć?

W świecie SEO jednym z kluczowych czynników wpływających na pozycję strony w wynikach wyszukiwania jest autorytet. Im wyższy autorytet, tym wyższa pozycja. Jednym ze sposobów

Linkowanie z AI – jak wykorzystać sztuczną inteligencję do SEO?

Sztuczna inteligencja (AI) pozwala współcześnie na automatyzację wielu żmudnych procesów, a także na analizę danych i tworzenie strategii, które byłyby niemożliwe do osiągnięcia wyłącznie dla

Najlepsze blogi o SEO w Polsce i na świecie

Każdy z przedstawionych blogów SEO w naszym artykule jest sam w sobie przydatnym przewodnikiem po najlepszych praktykach SEO. Razem natomiast stanowią świetne źródło informacji dla

AI copywriting – tworzenie treści ze sztuczną inteligencją

Czy sztuczna inteligencja może zastąpić copywritera? Odpowiedź nie jest taka oczywista, jak mogłoby się wydawać, bo… i tak, i nie. Nie ulega wątpliwości, że AI

Zapisz się do newslettera

Nasz newsletter to tylko jeden e-mail miesięcznie. Dzięki niemu będziesz na bieżąco z najnowszymi merytorycznymi artykułami oraz funkcjonalnościami Linkhouse, nad którymi nieprzerwanie pracujemy, aby usprawnić Twój proces budowy linków.