Uit welke componenten bestaat een zoekrobot? Zoek robots G o o g l e

Een crawler is een programma dat automatisch over het internet reist, documenten opvraagt ​​en recursief alle documenten ophaalt waarnaar ze verwijzen.

Merk op dat het woord " recursief"hier verwijst niet naar een specifieke implementatie van de algoritmen. Een robot kan bijvoorbeeld willekeurig een document selecteren dat vervolgens moet worden verwerkt, of deze met aanzienlijke tussenpozen bezoeken, maar wordt toch als een robot beschouwd.

Gewone webbrowsers kwalificeren niet als robots, aangezien ze door een persoon worden bestuurd en niet automatisch gekoppelde documenten ontvangen (met uitzondering van afbeeldingen, scripts, enz.).

Zoekrobots worden ook wel spiders, Web Wanderers of Web Crawlers genoemd. Dergelijke namen zorgen voor enige verwarring, omdat ze de indruk wekken dat programma's zich zelfstandig over het internet verplaatsen, net als virussen. Dit is niet zo, de robot ‘bezoekt’ sites en vraagt ​​er eenvoudigweg documenten bij op.

Wat is een agent?

Woord " tussenpersoon" heeft meerdere betekenissen. Bijvoorbeeld:

Autonome agenten

Dit zijn programma's die van site naar site gaan en onafhankelijk beslissen wat ze vervolgens gaan doen. Ze bewegen zich meestal tussen gespecialiseerde servers, en zijn praktisch niet wijdverspreid op internet.

Intelligente agenten

Dit zijn programma's die gebruikers helpen, bijvoorbeeld bij het kiezen van een product, het invullen van formulieren of zelfs bij het zoeken. Dergelijke programma's hebben heel weinig met netwerken te maken.

Gebruikersagenten

Dit technische naam programma's die gebruikers helpen bij internetwerkinteracties. Dit kunnen browsers zijn zoals Internet Explorer, Firefox of Opera of mailprogramma's, zoals Outlook Express, Thunderbird of Qualcomm Eudora.

Wat is een zoekmachine?

Welke andere soorten robots zijn er?

Er zijn robots voor verschillende doeleinden:

  • Indexeren
  • HTML-validatie
  • Koppelingen controleren
  • Controleer op updates
  • Spiegelen

Spinnen
hetzelfde als robots, maar klinkt veel cooler, dus journalisten vinden het leuker

Wormen
hetzelfde als robots, maar in tegenstelling tot gewone robots reproduceren ze zichzelf

Mieren
gedistribueerd (voorbeeld: muggenzwerm) robots die met elkaar interacteren

Zijn zoekrobots schadelijk voor het internet?

Er zijn verschillende redenen waarom mensen geloven dat robots schadelijk zijn voor het internet:

  • Sommige robotimplementaties kunnen (en er zijn dergelijke gevallen geweest) netwerken en servers overbelasten. Dit kan gebeuren wanneer de robot wordt geschreven door een onervaren programmeur. Momenteel is er voldoende informatie op internet over het maken van robots om dergelijke fouten te voorkomen.
  • Robots worden bestuurd door mensen die fouten kunnen maken in de instellingen, of simpelweg niet nadenken over de gevolgen van hun acties. Dit betekent dat mensen voorzichtig moeten zijn en dat robotauteurs programma's zo moeten schrijven dat dit soort fouten worden voorkomen.
  • Indexeringsrobots verzamelen gegevens doorgaans in een gecentraliseerde database, die niet goed schaalbaar is over miljoenen documenten op miljoenen sites.

Tegelijkertijd de meeste robots zijn goed ontworpen, professioneel bediend, veroorzaken geen problemen en bieden uitstekende service, vooral gezien het gebrek aan alternatieve oplossingen.

Daarom zijn robots van nature noch slecht, noch goed, en vereisen daarom zorgvuldige aandacht voor zichzelf.

Zijn er boeken over zoekrobots?

Ja. Ter referentie: als u via onderstaande link een boek koopt, betaalt de online winkel de auteur van robotstxt.org wat geld, dat wordt gebruikt om de site te onderhouden. De boeken staan ​​in alfabetische volgorde vermeld.

Indexerende robots

Hoe kiezen robots welke pagina moet worden geïndexeerd?

Het hangt af van de robot: elke robot gebruikt zijn eigen selectiecriteria. IN algemeen geval, beginnen ze met documenten die veel links bevatten, zoals mappen, nieuwssites en de populairste sites op internet.

Meerderheid zoekmachines kunt u URL's handmatig toevoegen. Eenmaal toegevoegd, worden ze aan de wachtrij toegevoegd en na enige tijd geïndexeerd.

Soms worden andere URL-bronnen gebruikt, zoals USENET-mailinglijsten, gepubliceerde archieven van e-mailmailinglijsten, enz.
De USENET-archieven zijn momenteel beschikbaar op http://groups.google.com.

Hoe beslist een robot wat hij moet indexeren?

Als de indexeringsrobot op de hoogte is van het bestaan ​​van een document, kan hij besluiten het te parseren (parseren zoals zinnen worden geparseerd) en het aan de database toe te voegen. Het proces zelf is afhankelijk van de specifieke robot: sommige robots lezen alleen de titel van documenten, sommige nemen de eerste paar alinea's, andere nemen het hele document, indexeren alle woorden met verschillende gewichten, afhankelijk van de html-opmaak. Sommige parseren metatags of andere speciale verborgen tags.

Wij hopen dat er met de ontwikkeling van het internet meer mogelijkheden zullen komen om metadata van documenten effectief te koppelen aan het document zelf. Er wordt in deze richting gewerkt.

Hoe voeg ik mijn site toe voor indexering?

Het hangt af van de zoekmachine. Veel systemen plaatsen een link om een ​​site toe te voegen op de zoekpagina of in een van de secties van de site. Bijvoorbeeld:

  • Yandex heeft een URL-pagina toevoegen
  • Google heeft een sectie Informatie voor webmasters
  • Rambler heeft een registratieformulier voor de site

Voor beheerders

Hoe weet ik of een robot mijn site heeft bezocht?

In de logboeken kunt u zien dat er in zeer korte tijd veel documenten zijn opgevraagd.

Als uw server vol zit met user-agents in de logbestanden, kunt u de logbestanden controleren op ongebruikelijke user-agents.

Ten slotte: als een site het bestand ‘/robots.txt’ opvroeg, was het waarschijnlijk een robot.

Een robot heeft mijn site bezocht! Wat moet ik doen?

Hmm, eigenlijk niets :-). Het komt erop neer dat ze volledig automatisch zijn. Je hoeft niets te doen.

Als je denkt dat je een nieuwe robot hebt gevonden (d.w.z. hij staat niet in de lijst met actieve robots en hij komt met enige regelmaat voor), schrijf me dan zodat ik hem aan de lijst kan toevoegen. Maar schrijf me alsjeblieft niet over elke robot Robot zie je!

De robot neemt mijn hele site te snel over!

Deze robots worden "snelvuur"-robots genoemd en gebruikers die logbestanden bekijken, merken ze meestal onmiddellijk op.

Controleer eerst of dit daadwerkelijk een probleem is door de belasting van de server te meten en het foutenlogboek te controleren op verbindingsfouten. Als uw server krachtig genoeg is, zullen dergelijke belastingen geen merkbaar probleem vormen.

Als u echter uw eigen server als webserver gebruikt Persoonlijke computer of je hebt trage serversoftware, of veel documenten die veel tijd nodig hebben om te genereren (bijvoorbeeld CGI-scripts of gewoon heel erg grote documenten), dan manifesteren dergelijke problemen zich in verbindingsfouten, hoge belastingen vertragingen of, in het ergste geval, systeemstoringen.

In dergelijke gevallen zijn er verschillende dingen die u moet doen. Het belangrijkste is om te beginnen met het opschrijven van informatie - wanneer je het hebt opgemerkt, wat de logboeken laten zien, wat je hebt gedaan - dit zal je helpen het probleem later te begrijpen. Zoek vervolgens uit waar de robot vandaan kwam, welk IP-adres en Domeinnaam en kijk of ze worden vermeld in de lijst met actieve robots. Als je eenmaal hebt vastgesteld wat voor soort robot het is, kun je de verantwoordelijke persoon een e-mail sturen en hem vragen wat er aan de hand is. Als dit niet helpt, zoek dan naar telefoonnummers op hun website of schrijf naar postmaster@domain.

Als de robot niet in de lijst staat, stuur mij dan de informatie die u heeft verzameld, inclusief de acties die u heeft ondernomen. Zelfs ik kan het niet helpen, ik zal over deze robot schrijven en daarmee andere gebruikers waarschuwen.

Hoe kan ik ervoor zorgen dat robots wegblijven van mijn site?

Meer hierover in de volgende sectie.

Standaard voor robotuitsluiting

Waarom zie ik robots.txt-bestandsverzoeken in mijn logboeken?

Dit zijn verzoeken van robots die instructies proberen te ontvangen voor het verwerken van de site in overeenstemming met.

Als u robots geen instructies wilt geven en tegelijkertijd deze berichten uit de logs wilt verwijderen, maakt u eenvoudig een leeg bestand robots.txt.

Je moet daar geen html of tekst schrijven, zoals 'Wie is daar?' – waarschijnlijk zal niemand het ooit lezen :-).

Hoe kan ik voorkomen dat robots mijn site indexeren?

De eenvoudigste manier is om de volgende regels in /robots.txt te plaatsen:

User-agent: *
Niet toestaan: /

Preciezere beperkingen zijn ook eenvoudig in te stellen.

Waar kan ik vinden hoe het bestand /robots.txt werkt?

Waar kan ik een robot voor mezelf krijgen?

Waar kan ik de broncode van de robot verkrijgen?

Zie vorige paragraaf - sommige openbaar beschikbare robots kunnen dit bieden bron.

Of kijk naar libwww-perl5 - daar staat een klein voorbeeld.

Ik schrijf een robot, waar moet ik speciaal op letten?

O, heel veel. Lees om te beginnen al het materiaal op deze site, lees vervolgens de rapporten van eerdere WWW-conferenties en de HTML- en HTTP-specificaties.

Verschijnt dagelijks op internet grote hoeveelheid nieuwe materialen: websites worden gemaakt, oude webpagina's worden bijgewerkt, foto's en videobestanden worden geüpload. Zonder onzichtbare zoekrobots zou het onmogelijk zijn om deze documenten op het World Wide Web te vinden. Alternatieven voor soortgelijke robotprogramma's op dit moment tijd bestaat niet. Wat is een zoekrobot, waarom is deze nodig en hoe functioneren ze?

Wat is een zoekrobot

Een websitecrawler (zoekmachine) is een automatisch programma dat miljoenen webpagina's kan bezoeken en zich snel over het internet kan verplaatsen zonder tussenkomst van een operator. Bots scannen voortdurend de ruimte, vinden nieuwe internetpagina's en bezoeken regelmatig reeds geïndexeerde pagina's. Andere namen voor zoekrobots: spiders, crawlers, bots.

Waarom hebben we zoekrobots nodig?

De belangrijkste functie die zoekrobots uitvoeren is het indexeren van webpagina's, evenals de tekst-, afbeeldingen-, audio- en videobestanden die zich daarop bevinden. Bots controleren links, mirrorsites (kopieën) en updates. Robots controleren ook of HTML-code voldoet aan de normen van de Wereldorganisatie, die technologische standaarden voor het World Wide Web ontwikkelt en implementeert.

Wat is indexeren en waarom is het nodig?

Indexeren is in feite het proces waarbij zoekrobots een specifieke webpagina bezoeken. Het programma scant op de site geplaatste teksten, afbeeldingen, video's, uitgaande links, waarna de pagina in de zoekresultaten verschijnt. In sommige gevallen kan de site niet automatisch worden gecrawld, maar kan deze handmatig door de webmaster aan de zoekmachine worden toegevoegd. Meestal gebeurt dit wanneer u een specifieke (vaak onlangs aangemaakte) pagina mist.

Hoe zoekrobots werken

Elke zoekmachine heeft zijn eigen bot, terwijl de zoekmachine Google-robot kan aanzienlijk verschillen in het werkingsmechanisme soortgelijk programma"Yandex" of andere systemen.

In algemene termen is het werkingsprincipe van de robot als volgt: het programma 'komt' langs op de locatie Externe links en vanaf Startpagina, “leest” de webbron (inclusief het bekijken van de servicegegevens die de gebruiker niet ziet). De bot kan zowel tussen pagina's van de ene site bewegen als naar andere gaan.

Hoe het programma welke kiest Meestal begint de ‘reis’ van de spin met nieuwssites of grote bronnen, directory’s en aggregators met een grote linkmassa. De zoekrobot doorzoekt voortdurend pagina's achter elkaar. De snelheid en consistentie van het indexeren worden beïnvloed door de volgende factoren:

  • intern: koppelingen (interne links tussen pagina's van dezelfde bron), sitegrootte, correctheid van de code, gebruiksvriendelijkheid, enzovoort;
  • extern: het totale aantal links dat naar de site leidt.

Allereerst zoekt de zoekrobot op elke website naar het robots.txt-bestand. Verdere indexering van de bron wordt uitgevoerd op basis van informatie die specifiek uit dit document is ontvangen. Het bestand bevat nauwkeurige instructies voor "spiders", waarmee u de kans kunt vergroten dat zoekrobots de pagina bezoeken, en er dus voor kunt zorgen dat de site zo snel mogelijk in de Yandex- of Google-resultaten terechtkomt.

Programma's vergelijkbaar met zoekrobots

Het concept van ‘zoekrobot’ wordt vaak verward met intelligente, gebruikers- of autonome agenten, ‘mieren’ of ‘wormen’. Er zijn alleen significante verschillen in vergelijking met agenten. Andere definities duiden op vergelijkbare typen robots.

Agenten kunnen dus zijn:

  • intellectueel: programma's die van site naar site gaan en onafhankelijk beslissen wat ze vervolgens gaan doen; ze zijn niet erg gebruikelijk op internet;
  • autonoom: dergelijke agenten helpen de gebruiker bij het kiezen van een product, het zoeken of invullen van formulieren; dit zijn zogenaamde filters, die weinig met netwerkprogramma's te maken hebben;
  • aangepast: programma's vergemakkelijken gebruikersinteractie met Wereld wijde web, dit zijn browsers (bijvoorbeeld Opera, IE, Google Chrome, Firefox), instant messengers (Viber, Telegram) of e-mailprogramma's (MS Outlook of Qualcomm).

"Mieren" en "wormen" lijken meer op zoeken naar "spinnen". De eerste vormen onderling een netwerk en werken soepel samen als een echte mierenkolonie, terwijl de ‘wormen’ in staat zijn tot zelfreproductie, anders gedragen ze zich op dezelfde manier als een standaard zoekrobot.

Soorten zoekrobots

Er zijn veel soorten zoekrobots. Afhankelijk van het doel van het programma zijn dit:

  • "Spiegel" - bekijk dubbele sites.
  • Mobiel - gericht op mobiele versies van internetpagina's.
  • Snelwerkend - oplossingen nieuwe informatie snel, het bekijken van de laatste updates.
  • Referentieel - indexeer links en tel hun aantal.
  • Indexeerders verschillende types inhoud - individuele programma's voor tekst, audio- en video-opnamen, afbeeldingen.
  • “Spyware” - zoekt naar pagina's die nog niet in de zoekmachine worden weergegeven.
  • "Spechten" - bezoek regelmatig sites om hun relevantie en prestaties te controleren.
  • Nationaal - bekijk webbronnen die zich op domeinen van één land bevinden (bijvoorbeeld .ru, .kz of .ua).
  • Globaal - indexeert alle nationale sites.

Robots van grote zoekmachines

Er zijn ook aparte zoekmachinerobots. In theorie kan hun functionaliteit aanzienlijk verschillen, maar in de praktijk zijn de programma's vrijwel identiek. De belangrijkste verschillen tussen de indexering van internetpagina’s door robots van de twee belangrijkste zoekmachines zijn als volgt:

  • Striktheid van verificatie. Er wordt aangenomen dat het Yandex-zoekrobotmechanisme een site iets strikter evalueert op naleving van de World Wide Web-standaarden.
  • Behoud van de integriteit van de site. De Google-zoekrobot indexeert de hele site (inclusief media-inhoud), terwijl Yandex pagina's selectief kan bekijken.
  • Snelheid van het controleren van nieuwe pagina's. Google voegt toe nieuwe hulpbron V Zoekresultaten binnen een paar dagen; in het geval van Yandex kan het proces twee weken of langer duren.
  • Frequentie van herindexering. De Yandex-zoekrobot controleert een paar keer per week op updates en Google controleert één keer per 14 dagen.

Het internet is uiteraard niet beperkt tot twee zoekmachines. Andere zoekmachines hebben hun eigen robots die hun eigen indexeringsparameters volgen. Daarnaast zijn er verschillende "spinnen" die niet groot zijn ontworpen zoek naar bronnen, maar door individuele teams of webmasters.

Veelvoorkomende misvattingen

In tegenstelling tot wat vaak wordt gedacht, verwerken spinnen de informatie die ze ontvangen niet. Het programma scant en bewaart alleen webpagina's, en de verdere verwerking wordt uitgevoerd door totaal verschillende robots.

Ook zijn veel gebruikers van mening dat zoekrobots dat wel hebben negatieve impact en “schadelijk” voor het internet. Bepaalde versies van "spiders" kunnen de servers aanzienlijk overbelasten. Er is ook een menselijke factor: de webmaster die het programma heeft gemaakt, kan fouten maken in de instellingen van de robot. De meeste bestaande programma's zijn echter goed ontworpen en professioneel beheerd, en eventuele problemen die zich voordoen, worden onmiddellijk gecorrigeerd.

Indexering beheren

Zoek robots Zijn automatische programma's, maar het indexeringsproces kan gedeeltelijk worden beheerd door de webmaster. Externe bronnen helpen hierbij enorm. Bovendien kunt u handmatig een nieuwe site aan de zoekmachine toevoegen: grote bronnen hebben speciale formulieren voor het registreren van webpagina's.

Zoekmachines gebruiken om websites te crawlen robots (spinnen, crawlers) - programma's voor het indexeren van pagina's en het invoeren van de ontvangen informatie in een database. Het werkingsprincipe van de spider is vergelijkbaar met dat van een browser: hij evalueert de inhoud van een pagina, slaat deze op de server van de zoekmachine op en volgt hyperlinks naar andere secties.

Ontwikkelaars van zoekmachines kunnen het maximale volume aan gescande tekst en de penetratiediepte van de robot in de bron beperken. Daarom voor effectieve promotie site, worden deze parameters aangepast in overeenstemming met de kenmerken van pagina-indexering door verschillende spiders.

De frequentie van bezoeken, de volgorde waarin sites worden gecrawld en de criteria voor het bepalen van de relevantie van informatie voor gebruikersverzoeken worden bepaald door zoekalgoritmen. Als ten minste één link van een andere website naar de gepromote bron leidt, zullen robots deze in de loop van de tijd indexeren (hoe groter het gewicht van de link, hoe sneller). Anders wordt de URL handmatig aan de database van de zoekmachine toegevoegd om de promotie van de website te versnellen.

Soorten spinnen

Afhankelijk van het doel worden de volgende typen zoekrobots onderscheiden.

  • nationaal of hoofd. Verzamel informatie van één nationaal domein, bijvoorbeeld .ru of .su, en sites die zijn geaccepteerd voor indexering;
  • globaal. Verzamel gegevens van alle nationale websites;
  • indexeerders van afbeeldingen, audio- en videobestanden;
  • spiegel makers. Resourcespiegels definiëren;
  • referentie. Tel het aantal links op de site;
  • achtergrondverlichting. Ze formatteren de resultaten van zoekmachines, markeren bijvoorbeeld de gevraagde zinnen in de tekst;
  • inspecteurs. Ze controleren de beschikbaarheid van de bron in de database van de zoekmachine en het aantal geïndexeerde documenten;
  • informanten (of spechten). Bepaal periodiek de toegankelijkheid van de site, pagina of document waar de link naartoe leidt;
  • spionnen. Zoeken naar links naar bronnen die nog niet zijn geïndexeerd door zoekmachines;
  • verzorgers. Gelanceerd in handmatige modus en controleer de verkregen resultaten opnieuw;
  • onderzoekers. Gebruikt voor foutopsporing zoekalgoritmen en het bestuderen van individuele locaties;
  • snelle robots . IN automatische modus controleer de datum laatste update en snel nieuwe informatie indexeren.

Benamingen

Tijdens de zoekmachineoptimalisatie van een website wordt bepaalde inhoud geblokkeerd voor indexering door robots (persoonlijke correspondentie van bezoekers, bestelmandjes, pagina's met profielen van geregistreerde gebruikers, enz.). Om dit te doen, voert u in het robots.txt-bestand in het veld User-agent de namen van de robots in: voor de Yandex-zoekmachine - Yandex, voor Google - Googlebot, voor Rambler - StackRambler, voor Yahoo - Yahoo! Slurp of Slurp, voor MSN - MSNBot, voor Alexa - ia_archiver, etc.

Wij hebben vrijgelaten nieuw boek"Contentmarketing in in sociale netwerken: Hoe je in de hoofden van je abonnees kunt kruipen en ze verliefd kunt maken op je merk.”

Abonneren

Hoe zoekmachine-robots werken

Een zoekrobot (spider, bot) is een klein programma, waarmee u miljoenen websites kunt bezoeken en gigabytes aan tekst kunt scannen zonder tussenkomst van een operator. Pagina's lezen en tekstkopieën ervan opslaan is de eerste fase van het indexeren van nieuwe documenten. Opgemerkt moet worden dat robots van zoekmachines geen enkele verwerking van de ontvangen gegevens uitvoeren. Hun taak is alleen om te behouden tekst informatie.

Meer video's op ons kanaal - leer internetmarketing met SEMANTICA

Lijst met zoekrobots

Van alle zoekmachines die de Runet scannen, heeft Yandex de grootste verzameling bots. De volgende bots zijn verantwoordelijk voor de indexering:

  • de belangrijkste indexeringsrobot die gegevens van websitepagina’s verzamelt;
  • een bot die spiegels kan herkennen;
  • Yandex-zoekrobot, die afbeeldingen indexeert;
  • een spider die de pagina's scant van door YAN geaccepteerde sites;
  • robot die favicon-pictogrammen scant;
  • verschillende spiders die de toegankelijkheid van sitepagina's bepalen.

De belangrijkste zoekrobot van Google verzamelt tekstinformatie. Kortom, het bekijkt HTML-bestanden en analyseert JS en CSS met bepaalde tussenpozen. Geschikt voor het accepteren van alle typen inhoud die zijn toegestaan ​​voor indexering. PS Google heeft een spider die de indexering van afbeeldingen regelt. Er is ook een zoekrobot - een programma dat de werking van ondersteunt mobiele versie zoekopdracht.

Bekijk de site door de ogen van een zoekrobot

Om codefouten en andere tekortkomingen te corrigeren, kan de webmaster achterhalen hoe de zoekrobot de site ziet. Deze mogelijkheid wordt geboden door Google PS. U moet naar de webmasterhulpprogramma's gaan en vervolgens op het tabblad 'crawlen' klikken. In het venster dat wordt geopend, selecteert u de regel 'bekijken als Googlebot'. Vervolgens moet u het adres invoeren van de pagina waarop u onderzoek doet zoekformulier(zonder het domein en het http://-protocol op te geven).

Door de opdracht ‘ophalen en weergeven’ te selecteren, kan de webmaster de status van de sitepagina visueel beoordelen. Om dit te doen, moet u op het selectievakje "Verzoek om weergave" klikken. Er wordt een venster geopend met twee versies van het webdocument. De webmaster leert hoe een reguliere bezoeker de pagina ziet, en in welke vorm deze beschikbaar is voor de zoekspider.

Tip! Als het webdocument dat u analyseert nog niet is geïndexeerd, kunt u het commando “toevoegen aan index” >> “scan alleen deze URL” gebruiken. De spider analyseert het document binnen enkele minuten en in de nabije toekomst zal de webpagina in de zoekresultaten verschijnen. De maandelijkse limiet voor indexeringsverzoeken bedraagt ​​500 documenten.

Hoe u de indexeringssnelheid kunt beïnvloeden

Nadat hij heeft uitgezocht hoe zoekrobots werken, kan een webmaster zijn site veel effectiever promoten. Een van de grootste problemen van veel jonge webprojecten is slechte indexering. Robots van zoekmachines zijn terughoudend in het bezoeken van ongeautoriseerde internetbronnen.
Vastgesteld is dat de snelheid van indexeren rechtstreeks afhangt van de intensiteit waarmee de site wordt bijgewerkt. Het regelmatig toevoegen van uniek tekstmateriaal zal de aandacht van zoekmachines trekken.

Om het indexeren te versnellen, kunt u sociale bladwijzers en Twitter-dienst. Het wordt aanbevolen om een ​​sitemap te genereren en deze te uploaden hoofdmap webproject.

Zoek spin(andere namen - robot, webspin, crawler) - een zoekmachineprogramma dat webbronnen scant om informatie daarover in de database weer te geven.

Wat is het doel van het maken van zoekspiders?

Laten we een elementair voorbeeld geven. Laten we ons Valery Ivanov voorstellen, die regelmatig de website http://it-ebooks.info/ bezoekt, waar dagelijks nieuwe worden gepubliceerd e-boeken. Bij het bezoeken van een hulpbron voert Valery een bepaalde reeks acties uit:

1) opent de hoofdpagina;

2) gaat naar de sectie “Laatste gedownloade werken”;

3) evalueert nieuwe items uit de lijst;

4) wanneer er interessante koppen verschijnen, volgt u de links;

5) leest de annotatie en downloadt, als het interessant is, het bestand.

Deze acties kosten Valery 10 minuten. Als je echter 10 minuten per dag zoekt, is dat al 5 uur per maand. In plaats daarvan kunt u een programma bij de taak betrekken dat nieuwe producten volgens een schema bijhoudt. Volgens het werkingsmechanisme zal het een eenvoudige webspin zijn, afgestemd op het uitvoeren van bepaalde functies. Zonder crawlers zal geen enkele zoekmachine overleven Google-leiders en Yandex of ondernemende startups. Bots bewegen zich rond sites, op zoek naar grondstoffen voor de zoekmachine. Bovendien geldt: hoe efficiënter de spin werkt, hoe relevanter de resultaten zijn. (Figuur 1).

Rijst. 1. Schema van rupsbediening

Rijst. 2. Verschillen in crawlercontroles (diagram)

Rijst. 3. Voorbeeld eenvoudig bestand robots.txt

Webspin-functies

Afhankelijk van de zoekmachine kunnen de onderstaande functies door een of meer robots worden uitgevoerd.

1. Site-inhoud scannen. De functie van de eerste orde crawler is het detecteren van nieuw gemaakte pagina's en het verzamelen van geplaatste tekstinformatie.

2. Afbeeldingen lezen. Als de zoekmachine zoekt grafische bestanden Hiervoor kan een aparte webspin worden geïntroduceerd.

3. Spiegels scannen. De robot vindt bronnen die identiek zijn qua inhoud, maar verschillend qua adres. Yandex heeft een ‘werknemer’ die over dergelijke officiële bevoegdheden beschikt.

Soorten zoekrobots

Zoekmachines hebben verschillende spiders, die elk de uitvoering van geprogrammeerde functies ondersteunen (Fig. 2).

Yandex-spinnen

  • Yandex/1.01.001 (compatibel; Win16; I) is het centrale zoekproduct van Yandex, dat inhoud indexeert.
  • Yandex/1.01.001 (compatibel; Win16; P) - een robot die afbeeldingen en foto's indexeert.
  • Yandex/1.01.001 (compatibel; Win16; H) - vindt mirrors en duplicaten van de bron.
  • Yandex/1.03.003 (compatibel; Win16; D) is de eerste spider die naar de bron komt nadat deze via de webmastersectie is toegevoegd. Zijn taak is om de toegevoegde parameters die in het paneel zijn gespecificeerd, te controleren op naleving.
  • Yandex/1.03.000 (compatibel; Win16; M) - een crawler die een pagina bezoekt nadat deze is geladen met behulp van de link 'Gevonden woorden' in de zoekresultaten.
  • YaDirectBot/1.0 (compatibel; Win16; I) - indexeert sites van advertentie netwerk"Yandex" (YAN).
  • Yandex/1.02.000 (compatibel; Win16; F) - de bot scant sitefavicons.

Google-spinnen

  • Googlebot is de centrale robot.
  • Googlebot News is een bot die nieuws vindt en indexeert.
  • Google Mobile - analyseert versies van websites voor smartphones.
  • Googlebot Images is een webspin die afbeeldingen indexeert.
  • Googlebot Video - crawlt video's en indexeert ze.
  • Google AdsBot - evalueert de pagina op basis van kwaliteitsparameters.
  • Google Mobile AdSense en Google AdSense- indexsites van het Google-advertentienetwerk.

Beleefde spinnen - hoe je robots gedragsregels kunt leren

Beleefd zijn crawlers die handelen in overeenstemming met bestaande regels gedrag op de site. Deze regels zijn geschreven door webmasters en plaatsen ze in het robots.txt-bestand (Afb. 3). Spinnen die een website binnenkomen, bestuderen in eerste instantie informatie opgegeven bestand, waarin pagina's worden vermeld waarvan de inhoud niet openbaar mag worden gemaakt (gebruikersregistratiegegevens, administratieve informatie). Nadat hij instructies heeft ontvangen, begint de spin de site te indexeren of verlaat deze.

In Robots.txt staat:

Een beleefde robot stelt zichzelf altijd voor en geeft in de header van het verzoek details aan waarmee de webmaster contact kan opnemen met de eigenaar. Waarom worden er beperkingen ingevoerd? Eigenaars van hulpbronnen zijn geïnteresseerd in het aantrekken echte gebruikers en willen niet dat programma's hun bedrijf baseren op hun inhoud. Voor deze doeleinden worden sites vaak geconfigureerd om HTTP-verzoeken van browsers te verwerken en pas daarna verzoeken van programma's.