
![]() |
Szendi Gábor: Hogyan legyünk ismertek a weben? II. |
A Weben akkor jelent meg az Élet, amikor a Keresők megszülettek. Search engine kutatók hada tanulmányozza e különös élőlények viselkedését és szokásait, melyek állandóan változnak, alkalmazkodva környezetükhöz. Egybehangzó vélemények szerint a kereső robotok újabb mutánsai egyre vérengzőbbek, ártatlan website-okat támadnak meg, és zárnak ki a Web életteréből. A kutatók szerint azonban védelmet jelent velük szemben, ha a találkozáskor a weblapok megfelelően viselkednek.
A múltkor abban maradtunk, hogy Te is szeretnél a nagyobb keresőkben az első tíz közé kerülni. Rendben van, mai cikkemben arra koncentrálok, mit ne csináljunk, ha nem akarunk kiesni az első tíz helyért folytatott versenyből.
A kereső robotok filozófiája ma az, hogy a valódi tartalmuk alapján igyekeznek rangsorolni a lapokat, és kizárják a versenyből azokat, akik manipulálni akarják a keresés eredményét. Nekünk azt a kényes egyensúlyt kell megtalálnunk, hogy úgy befolyásoljuk hatékonyan a rangsorolás folyamatát, hogy ne minősítsék a robotok tevékenységünket manipulációnak. Itt az az elv érvényes, hogy "Ami tegnap még megengedett volt, az ma már esetleg tiltott" . És ami tiltott, azt büntetik.
1,A kereső robotokat nem érdekli, hol az ajtó
Rá kell döbbennünk, hogy a kereső robotok lassan átformálják a webépítés egész filozófiáját. Kezdetben elég volt egy dögös nyitóoldal, linkekkel a többi oldalunkhoz, mára viszont gyökeresen más lett a helyzet, mert szándékainktól függetlenül bármelyik oldalunk lehet nyitólap, hiszen tartalma alapján bármelyik lapunk lehet egy találati lista egy eleme. Ennek viszont messzemenő következményei vannak a website felépítésére nézve.
Nyissuk meg egyenként lapjainkat, és kérdezzük meg magunktól: aki csak ezt látja website-unkból, az azt látja-e, amit mutatni akartunk neki?
Mert például:
1, Van-e a főoldalunkra visszamutató fix link a lapon, vagy a Back gombra, vagy egy "Javascript: history.back()" utasításra bíztuk-e csupán a visszatérést. Ez utóbbiak kivezetnek site-unkról, ha nem a főlapról érte el a felhasználó az oldalunkat!
2, Megoldottuk-e a frames oldalainknál, hogy ha szólóban akarnak egy többframes oldalunkat behívni, akkor az "ne hagyja magát" (lásd: 'Ragaszkodjunk kereteinkhez", IK 2000/1.)
3, Megoldottuk-e azt, hogy ha keretbe hívnak be minket, akkor lapunk meg tudjon szabadulni ebből a nem kívánt keretből?
4, Van-e rejtett számláló minden fontos lapunkon? Ha kíváncsiak vagyunk a látogatóink tényleges számára, ne csak a főoldalon helyezzünk el számlálót, hanem nem látható módon, a többi lapon is, hiszen lesz, aki csak átgázol néhány lapunkon, és a főlap érintése nélkül továbbszáguld.
5, S végül tartsuk szem előtt azt a lehetőséget is, hogy akármelyik oldalunk felöl érkezik is a látogatónk, mi a nyitólapra küldhetjük őt némi Javascript segédlettel.
A statikus főlapban való gondolkodás egy jellegzetes következménye, amikor valaki jelszóhoz köti a site-ra való belépést, de magát a "titkos" oldalakat nem védi meg az indexeléstől, így azt bárki megtalálhatja és láthatja (noindex: lásd. előző havi cikkem).
2, A kereső robotok finnyásak
Kutatók szerint a kereső robotok nem esznek akármit.
Pl. a frames oldalakat használó website-oknak nem árt az óvatosság. A kereső robotok ugyebár úgy működnek, hogy ha valaki regisztrál egy domain nevet, akkor esetleg csak pár hét múlva(!) keresik fel a címet, és kezdik a munkát az index.html oldallal, majd ha ezt leindexelték (szöveges tartalmát kielemezték és eltárolták), követik a lapról tovább mutató linkeket, és az így talált lapokat is leindexelik. Ám e ponton emberi sorsok futnak zátonyra, mert a webpolgár azt hiszi, a frames megoldás a menő, a kereső robotok meg fütyülnek erre. Ha egy kereső robot egy frameset-es lapot talál, már megy is tovább, s a szerencsétlen webpolgár meg nem érti, miért nem szerepel még mindig a kereső adatbázisában, pedig már ötször beregisztrálta az URL-ét. A robotok ugyanis nem hajlandók a Frameset utasítás src-jében megadott útvonalat követni!
A megoldás persze nem az, hogy dobjuk el a frames lapjainkat, hanem az, hogy:
1, Regisztráljuk be külön-külön a továbbmutató linkeket tartalmazó frameket (vagyis a frameset-ben megadott oldalakat)!
2, A <noframe></noframe> részbe tegyünk egy továbbmutató linkeket tartalmazó, kulcsszavaktól hemzsegő oldalleírást, ezt ugyanis a kereső robotok kielemzik.
3, Oldjuk meg Javascript segítségével, hogy akkor is a többframe-s oldal jöjjön be, ha valaki csak az egyik frame-t találja meg egy keresővel (lásd. "Ragaszkodjunk kereteinkhez", IK 2000/1)
A kereső robotok finnyássága miatt további bonyodalmak is támadhatnak.
1, Ezek a jószágok nem kedvelik a Java és egyéb appleteket, ha ilyenbe botlanak, sokuk azonnal abbahagyja a lap további feldolgozását. Ha ez a Java applet a lap tetején van, akkor "ágyő neked indexelés". Nem árt az óvatosság az egyéb huncutságokkal sem, mint VRML, Flash movie-k, stb.
2, A kereső robotok az image map-eket sem csípik, általában nem követik az ebbe ágyazott linkeket.
3, Azt sem díjazzák, ha egy lap csak amolyan "átirányító" lap: az ilyen átirányításokat nem követik. Ne használjuk tehát indexelésre szánt lapunkon a refresh metatag-et (lásd. múlt havi cikk)
4, Világos az is, hogy egy Javascriptes programot se futtatnak le, hogy kiértékeljék a lehetséges elágazások (pl. legördülő listák).
5, A CGI programokkal történő navigálást pedig kifejezetten utálják, mert nem tudják követni őket.
3, A kereső robotok lusták
A kereső robotok további rossz tulajdonsága, hogy akkor sem találnak meg minden lapunkat, ha tökéletes, kényes ízlésüknek is megfelelő linkláncolat vezet el mindegyikhez, ugyanis a kereső robotok általában csak egy-két link mélységig pásztázzák végig site-unkat (vagyis mondjuk a főlapról szerteágazó linkeket, és esetleg még az így talált lapokon található linkeket követik végig), de tovább nem merülnek el lapjaink dzsungelében. Ennek oka az a jogos feltevés, hogy ami igazán fontos, az a sitestruktúra felső szintjein található.
Hogy minden fontos lapunk bent van-e a kereső adatbázisában, arról meggyőződhetünk, keresőnként más-más módon. Ha valamelyiket nem találjuk, azt külön regisztrálhatjuk az adott keresőben. (A kereső robotok "irányítását" lásd. előző havi cikkemben.)
Hogyan ellenőrizzük, hogy mely lapunk szerepel a kereső adatbázisában?
Az Altavista a web legnagyobb keresője (a cikk megjelenése óta már a Google a legnépszerűbb), ráadásul magyarul is ért, legjobb, ha itt kezdjük. A varázsszó a host.
Írjuk be a kereső szövegmezőjébe: host:domain név!
Ekkor kapunk egy listát mindarról a lapunkról, amely benne van az adatbázisban.
Ha nemrég regisztráltunk, előbb nyugodtan elmehetünk egy földkörüli utazásra, aztán próbálkozzunk! Ez a több hetes várakozási idő különösen akkor bosszantó, ha sikertelen volt a regisztráció, mert erre csak hetekkel később jövünk rá. Nem árt jegyzeteket készíteni a regisztráció időpontjáról!
Más keresőknél vagy más, vagy nincs is "varázsszó"!
A Yahoo-nál site-specifikus információval ellenőrizhetjük, benne vagyunk-e az adatbázisukban, de ide csak akkor kerülünk be, ha mi magunk, vagy egy ismeretlen jóakarónk regisztrálja domain-ünket. (Sok kereső robot önállóan kószál és begyűjt mindent, amit ér.)
A Hotbot-nál a következőt kell beírni:
Fontos, hogy ne hagyjunk ki space-t a domain: után, mert különben nulla találatot kapunk!
A Lycos-nál sajnos direktben nem lehet ellenőrizni, bent vagyunk-e már. Viszont rákereshetünk a domain nevünkre, akár "www" nélkül is.
A Webcrawler -nél szintén nem sok keresni valónk van, csak tartalmilag tudunk rátalálni lapjainkra.
A Go (vagy Infoseek)-nál az
Végül az Altavizsla a
4, A kereső robotok gyanakvóak és alattomosak
A kereső robot alapvetően gyanakvó, mindenhol manipulációt szimatol. Ízekre szedi lapjainkat, és ha bármi gyanúsat talál, nekünk annyi. Galád webmesterek ugyanis úgy akarnak forgalomnövekedést elérni, hogy populáris témákra (MP3, cracks, free, stb.) hegyezik ki a lapjukat, aztán amikor ott vagyunk, valami egészen mást kínálnak, reménykedve, hogy lebilincselő oldalaik miatt úgyis ott ragadunk. A webpolgárok dühe azonban ilyenkor a keresőkre zúdul, hogy azok teljesen inadekvát oldalakat adnak vissza találatként, és esetleg átpártolnak egy másik keresőhöz, ami a reklámokból fenntartott keresőket elég mélyen érinti. Ebből fakad a kereső robotok ádáz gyanakvása, aminek bizony ártatlan oldalak is áldozatául esnek. Egyetlen lehetőségünk van; tudnunk kell a csapdákat, hogy elkerülhessük őket.
Íme néhány tanács:
1, Ne lapátoljuk tele kulcsszavakkal oldalainkat. A robot megszámolja, hogy egy adott szó hányszor fordul elő egy lapon, és ha az meghalad egy gyakorisági küszöböt, akkor kizárja a lapot az indexelésből. Ennek persze van logikája, mert aki egy adott szóra akar első találat lenni, az egy oldalon át ismételgetni fogja azt. Sajnos ez a küszöbszám nem publikus, így ártatlan webpolgárokat is diszkvalifikálnak a robotok. Egyes becslések szerint a robotok azt kedvelik, ha a kulcsszavak aránya a teljes szöveg 2-3%-a közé esik.
2, Ne használjunk olyan kulcsszavakat a keywords metatag-ben (lásd. múlt havi cikk), amely nem fedi le a lap tartalmát, és nem fordul elő a lapon! Egy lap metatag-jei, legyen az akár a nyitólapunk is, a lapot kell leírják, és nem a site-ot! A kereső robotok mellesleg egyre inkább mellőzik a metatag-ekben megadott információt a lapok rangsorolásakor, mert a lapok tartalomelemzését validabb információnak tekintik. Viszont fennáll a veszélye annak, hogy kizárják a lapot az indexelésből, ha a metatag-ben megadott kulcsszavak nem a lapot írják le, mert ilyenkor manipulációt sejtenek.
3, A robotok idegesek lesznek, ha valaki nagyon apró, olvashatatlan betűt használ, mert felmerül a gyanú, hogy ez csak a robotnak szóló szöveg. A lapot kizárják az indexelésből.
4, A lap háttérszínével megegyező betűszín szintén az üldözendő módszerek közé tartozik. Ezt sajnos megint csak el lehet követni véletlenül is, hiszen táblázatok, cellák színes hátterére gyakran írunk pl. fehér betűket, és ha a lap alapszíne is fehér...
5, A robotok allergiásak arra is, ha nagyon hasonló lapokat találnak egy website felderítése közben. Jó esetben csak a hasonló lapokat zárják ki, rosszabb esetben az egész site-ot! Ha duplikátumra, vagy közel azonos lapokra van szükségünk, próbáljuk meg az egyik lapba a noindex metatag alkalmazását (lásd. előző havi cikkem).
6, Nem szerencsés, ha egy oldal soha, vagy nagyon ritkán változik, mert ez azt jelentheti, hogy egy sorsára hagyott website-ról van szó. Érdemes néha kisebb változtatásokat végrehajtani, anélkül, hogy az elért találati helyünket veszélyeztetnénk.
7, Nem ajánlatos egy lapot túl gyakran, vagy sok lapot egy napon azonos domain név alól regisztrálni, mert a robotok ezt büntetik (pl. kizárással, hátrébbsorolással). Hetente egy regisztráció elég.
8, A robotok nem veszik jó néven a banner reklámokat sem, esetleg büntető pontokat adnak érte.
9, A robotok azt is kiszúrják, ha több domain néven regisztráltatjuk ugyanazt a lapot, vagy több szerverre tesszük föl a cuccunkat, és többször regisztráltatjuk magunkat. (Ha ez sikerülne, különféle címeken mi töltenénk meg az egész találati oldalt, ami egy elég tolakodó módszer.)
10, Talán fölösleges is mondani, hogy programgenerálta lapok, jelszóhoz kötött lapok, Acrobat Reader lapok, adatbázisok nem kerülnek indexelésre.
Eddig arról volt szó, mit ne tegyünk. Jövő hónapban megtudhatjuk, mit tegyünk. Addig semmi elhamarkodott butaság, csak csiszolgassátok lapjaitokat.
![]() |
![]() |
![]() |
|