Google kereső működése
Nemrégiben egy érdekes videót láttam Matt Cuttstól, aki a Google szakértője. (A kereső működésével kapcsolatban ő az, akitől első kézből kaphatunk friss információkat és sejtelmes válaszokat, amelyből következtethetünk az algoritmus elemeire.)
Ebben a 10 perces videóban betekintést nyerhetünk picit a munkafolyamatba, amely a weboldalak feltérképezésétől a kereső találatokon át a spam elleni küzdelemig tart.
A Google természetesen nem árul el minden algoritmus elemet, de itt is említést tesz, hogy több mint 200 féle szempontot figyelnek.
A videóban ismerteti a spam típusokat is Matt, és menetét, hogy értesítik a weboldal tulajdonosokat, hogy ha problémát észlelnek (webmaster tools). Érdekes statisztikai adatként említi, hogy egy héten kb. 5000 felülvizsgálati kérelem érkezik (ha javítják a tulajok a weboldal spamjeit és spam gyanus elemeit, vagy nem értenek vele egyet - és ezeket visszajelzik). Ez egy igen hatalmas mennyiség, amelyhez személyes közreműködés szükséges. Így érthető, hogy ha benyújtunk egy ilyen kérelmet, akkor hosszú heteket is várhatunk a válaszra.
A Google a kereső működésének bemutatására szemléltető folyamatábrát is elkészített:
Hogyan működik a keresés?
1. Feltérképezés és indexelés
Több mint 60 billió oldal feltérképezése történik nap-mint-nap és ez a szám folyamatosan növekszik. A Google navigál a weben, ami azt jelenti, hogy követi a weboldalak linkjeit oldalról oldalra. Rendezik az oldalakat azok tartalma és egyéb tényezők figyelembevételével, és ezeket indexálják (kulcsszavak, kifejezések, helyek). A Street View adatait is felhasználják. Ez több mint 100 millió gigabájtnyi helyet foglal a Google szerverein!
2. Algoritmusok
Programok és képletek készültek annak érdekében, hogy a legjobb eredményt kaphassuk a keresés eredményeként. Az indexelt állományban nyomokat keresnek.
Hogy megértsék mire gondolunk több program is segítségükre van:
- helyesírás elemző (azonosítja és kijavítja az esetleges helyesírási hibákat és alternatívát nyújt),
- automatikus kiegészítés (jósolja, hogy mit is keresünk, és a többértelmű szavakra is kiterjed),
- szinonima keresés (felismeri a hasonló jelentéseket),
- lekérdezés leegyszerűsítésével elemzi mi értelme a beírt kifejezésnek,
- keresési módszereket kutat: kép keresés, hangalapú keresés,
melyek alapján az indexelt állományból ki tudja választani a megfelelő dokumentumokat, képeket, videókat, weboldalakat.
Ezután a kapott nagy halmazt rangsorolják, több mint 200 tényezőt figyelembe véve, hogy milyen sorrendbe jelentjenek ezek meg a kereső találati listájában. Ez a hosszadalmasnak tűnő folyamat meglepően gyorsan megy végbe és nem várunk hosszú perceket az eredménylistára.
A találati lista attól függően jelenik meg, hogy milyen eszközről történt a keresés (asztali PC, táblagép, okostelefon).
Az algoritmus folyamatosan változik, mert egyre pontosabb találatot szeretnének adni nem csak szavakra, hanem kifejezésekre, mondatokra is. A Google csapatának egyik feladata, hogy értékelje a keresés hasznosságát egyes keresések esetében szúrópróba szerűen. (Évente több mint 40.000 esetben.) A "side-by-side" értékelők kétféle keresési eredményt értékelnek: a régi algoritmus eredményeit és egy tervezett algoritmus eredményeit. Ezeket elemzik és a különbségekről készítenek visszajelzést. (Átlagosan évente 9000 ilyen kísérletet futtatnak.) Nem csak a Google berkein belül, hanem élesben is tesztelik az új algoritmusokat. Évente több mint 7000 esetben megváltoztatják a keresési rangsort kis százalékban (Google használók egy csoportjánál) és figyelik annak hatását, javul-e a relevancia, milyen változás tapasztalható. A vezető mérnökök dolga, hogy ezeknek a kísérleteknek eredményeit összesítsék és eldöntsék, hogy az összes Google-felhasználó számára eszközöljék-e a változtatást. Az összes kísérletből évente több mint 500 keresési rangsor változást vezetnek be. (Az algoritmus team munkájáról készült kis videó: Google Algoritmus Team )
3. SPAM elleni küzdelem
A legtöbb spam eltávolítása automatikus. Megvizsgálják a kérdéses dokumentumokat és ha spamet találnak, akkor manuális lépéseket is tesznek. Mivel a világon igen sok nyelven szolgál ki a Google kereső, ezért spamszűrő csapat a világon is több ponton dolgozik. (A bemutató oldal egy érdekessége, hogy egy felugró ablakban azonnali idejű képes listát láthatunk, hogy az elmúlt 3 órában mely weboldalak kerültek ki a keresőből spam miatt.)
Kézi intézkedések történhetnek:
- tisztán spam
- feltört webhely
- webhelyünkről kiinduló természetellenes linkek
- webhelyünkre mutató természetellenes linkek
- automatikusan előállított tartalom
- álcázás és/vagy trükkös átirányítások
- hasznavehetetlen tartalom
- parkolt domainek
- felhasználó által létrehozott spam
- rejtett szöveg és/vagy kulcsszóhasználat
- spam jellegű ingyenes tárhelyszolgáltatás és dinamikus DNS szolgáltatók
miatt.
Ha valamilyen fenti dolgot észlelnek, akkor értesítik a weboldal tulajdonost. Ez havonta 400.000-600.000 üzenetküldés! A weblap tulajdonosoknak lehetőségük van, hogy javítsák a hibákat és azt tudassák a Google-val a WebmasterTools-on keresztül felülvizsgálati kérelemmel élve. Hetente ez átlagosan 5000 kérelem, de ennek duplája is többször előfordul!
Forrás:
Google: A keresés működése
Google: Hogyan működik a keresőmotor
Élesné G. Szilvia
SEO szakértő