Zoekmachines voor bepaalde sleutelwoorden. Webserver van zoekmachine

Ze zijn lange tijd een integraal onderdeel geworden van het Russische internet. Zoekmachines zijn nu enorme en complexe mechanismen die niet alleen een instrument voor het zoeken naar informatie vertegenwoordigen, maar ook verleidelijke gebieden voor het bedrijfsleven.

De meeste gebruikers van zoekmachines hebben nooit nagedacht (of erover nagedacht, maar geen antwoord gevonden) over het werkingsprincipe van zoekmachines, over het schema voor het verwerken van gebruikersverzoeken, over waar deze systemen uit bestaan ​​en hoe ze functioneren...

Deze masterclass is bedoeld om de vraag te beantwoorden hoe zoekmachines werken. Factoren die de rangschikking van documenten beïnvloeden, vindt u hier echter niet. Bovendien moet je niet rekenen op een gedetailleerde uitleg van het Yandex-algoritme. Volgens Ilya Segalovich, de directeur technologie en ontwikkeling van de Yandex-zoekmachine, kan hij alleen “onder marteling” door Ilya Segalovich zelf worden herkend...

2. Concept en functies van een zoekmachine

Een zoeksysteem is een software- en hardwarecomplex dat is ontworpen om op internet te zoeken en te reageren op een verzoek van een gebruiker, gespecificeerd in de vorm van een tekstzin (zoekopdracht), door een lijst met links naar informatiebronnen te produceren, in volgorde van relevantie ( in overeenstemming met het verzoek). De grootste internationale zoekmachines: "Google", Yahoo, MSN. Op het Russische internet zijn dit Yandex, Rambler, Aport.

Laten we het concept van een zoekopdracht eens nader bekijken, waarbij we de Yandex-zoekmachine als voorbeeld gebruiken. De zoekopdracht moet door de gebruiker zo kort en eenvoudig mogelijk worden geformuleerd in overeenstemming met wat hij wil vinden. Laten we zeggen dat we in Yandex informatie willen vinden over hoe we een auto kunnen kiezen. Om dit te doen, opent u de hoofdpagina van Yandex en voert u de tekst in van de zoekopdracht 'hoe u een auto kiest'. Vervolgens komt onze taak neer op het openen van de op ons verzoek verstrekte links naar informatiebronnen op internet. Het is echter heel goed mogelijk dat we niet de informatie vinden die we nodig hebben. Als dit gebeurt, moet u uw verzoek opnieuw formuleren, of bevat de database van de zoekmachine werkelijk geen relevante informatie over ons verzoek (dit kan gebeuren bij het stellen van zeer “beperkte” vragen, zoals bijvoorbeeld “hoe kiest u een auto in Archangelsk”)

Het primaire doel van elke zoekmachine is om mensen precies de informatie te bieden waarnaar ze op zoek zijn. En leer gebruikers om “juiste” verzoeken aan het systeem te doen, d.w.z. zoekopdrachten die voldoen aan de werkingsprincipes van zoekmachines zijn onmogelijk. Daarom creëren ontwikkelaars algoritmen en werkingsprincipes voor zoekmachines waarmee gebruikers de informatie kunnen vinden waarnaar ze op zoek zijn.

Dit betekent dat de zoekmachine op dezelfde manier moet ‘denken’ als de gebruiker denkt bij het zoeken naar informatie. Wanneer een gebruiker een zoekopdracht doet bij een zoekmachine, wil hij zo snel en gemakkelijk mogelijk vinden wat hij zoekt. Nadat hij het resultaat heeft ontvangen, evalueert hij de prestaties van het systeem, op basis van verschillende basisparameters. Heeft hij gevonden wat hij zocht? Als hij het niet vond, hoe vaak heeft hij dan de vraag opnieuw moeten formuleren om te vinden wat hij zocht? Hoeveel relevante informatie kon hij vinden? Hoe snel verwerkte de zoekmachine de zoekopdracht? Hoe handig werden de zoekresultaten gepresenteerd? Was het resultaat waarnaar u op zoek was het eerste of het honderdste? Hoeveel onnodige rommel is er samen met nuttige informatie gevonden? Zal de benodigde informatie bijvoorbeeld binnen een week of binnen een maand worden gevonden bij het openen van een zoekmachine?

Om al deze vragen met antwoorden te beantwoorden, verbeteren ontwikkelaars van zoekmachines voortdurend de zoekalgoritmen en -principes, voegen ze nieuwe functies en mogelijkheden toe en proberen ze op alle mogelijke manieren de werking van het systeem te versnellen.

3. Belangrijkste kenmerken van de zoekmachine

Laten we de belangrijkste kenmerken van zoekmachines beschrijven:

  • Volledigheid

    Volledigheid is een van de belangrijkste kenmerken van een zoeksysteem: de verhouding tussen het aantal op verzoek gevonden documenten en het totale aantal documenten op internet dat aan het gegeven verzoek voldoet. Als er bijvoorbeeld 100 pagina's op internet zijn met de zinsnede 'hoe kies je een auto', en er zijn er slechts 60 gevonden voor de overeenkomstige zoekopdracht, dan is de volledigheid van de zoekopdracht 0,6. Het is duidelijk dat hoe vollediger de zoekopdracht is, hoe kleiner de kans is dat de gebruiker het document dat hij nodig heeft niet zal vinden, op voorwaarde dat het überhaupt op internet bestaat.

  • Nauwkeurigheid

    Nauwkeurigheid is een ander hoofdkenmerk van een zoekmachine, die wordt bepaald door de mate waarin de gevonden documenten overeenkomen met de zoekopdracht van de gebruiker. Als de vraag 'hoe kies je een auto' bijvoorbeeld 100 documenten bevat, bevatten 50 daarvan de zinsnede 'hoe kies je een auto', en de rest bevat eenvoudigweg deze woorden ('hoe kies je de juiste radio en installeer je deze in een auto”), dan wordt de zoeknauwkeurigheid gelijk geacht aan 50/100 (=0,5). Hoe nauwkeuriger de zoekopdracht, hoe sneller de gebruiker de documenten zal vinden die hij nodig heeft, hoe minder verschillende soorten "afval" er tussen zullen worden gevonden, hoe minder vaak de gevonden documenten niet zullen overeenkomen met het verzoek.

  • Relevantie

    Relevantie is een even belangrijk onderdeel van zoeken, dat wordt gekenmerkt door de tijd die verstrijkt vanaf het moment dat documenten op internet worden gepubliceerd totdat ze in de indexdatabase van zoekmachines worden ingevoerd. Zo wendde een groot aantal gebruikers zich de dag nadat interessant nieuws verscheen tot zoekmachines met relevante vragen. Objectief gezien is er minder dan een dag verstreken sinds de publicatie van nieuwsinformatie over dit onderwerp, maar de belangrijkste documenten zijn al geïndexeerd en beschikbaar voor doorzoeking, dankzij het bestaan ​​van de zogenaamde “snelle database” van grote zoekmachines, die wordt meerdere keren per dag bijgewerkt.

  • Zoeksnelheid

    De zoeksnelheid hangt nauw samen met de belastingsweerstand. Volgens Rambler Internet Holding LLC ontvangt de Rambler-zoekmachine bijvoorbeeld tijdens kantooruren ongeveer 60 verzoeken per seconde. Een dergelijke werklast vereist het verkorten van de verwerkingstijd van een individueel verzoek. Hier vallen de belangen van de gebruiker en de zoekmachine samen: de bezoeker wil zo snel mogelijk resultaten krijgen en de zoekmachine moet het verzoek zo snel mogelijk verwerken, om de berekening van daaropvolgende zoekopdrachten niet te vertragen.

  • Zichtbaarheid

4. Korte geschiedenis van de ontwikkeling van zoekmachines

In de beginperiode van de internetontwikkeling was het aantal gebruikers klein en de hoeveelheid beschikbare informatie relatief klein. Voor het grootste deel had alleen het onderzoekspersoneel toegang tot internet. Op dat moment was het zoeken naar informatie op internet niet zo urgent als nu.

Een van de eerste manieren om de toegang tot netwerkinformatiebronnen te organiseren was het creëren van open directory's met sites, links naar bronnen die op onderwerp waren gegroepeerd. Het eerste dergelijke project was de website Yahoo.com, die in het voorjaar van 1994 werd geopend. Nadat het aantal sites in de catalogus aanzienlijk was toegenomen, werd de mogelijkheid toegevoegd om in de catalogus naar de benodigde informatie te zoeken. In de volle zin was het nog geen zoekmachine, aangezien het zoekgebied alleen beperkt was tot de bronnen die in de catalogus aanwezig waren, en niet tot alle internetbronnen.

Linkmappen werden in het verleden op grote schaal gebruikt, maar hebben tegenwoordig vrijwel hun populariteit verloren. Omdat zelfs moderne catalogi, die enorm in volume zijn, slechts informatie bevatten over een verwaarloosbaar deel van internet. De grootste directory van het DMOZ-netwerk (ook wel het Open Directory Project genoemd) bevat informatie over 5 miljoen bronnen, terwijl de zoekmachinedatabase van Google uit meer dan 8 miljard documenten bestaat.

In 1995 verschenen zoekmachines Lycos en AltaVista. Deze laatste is al jaren toonaangevend op het gebied van het zoeken naar informatie op internet.

In 1997 creëerden Sergey Brin en Larry Page de Google-zoekmachine als onderdeel van een onderzoeksproject aan de Stanford University. Google is momenteel de populairste zoekmachine ter wereld!

In september 1997 werd de Yandex-zoekmachine, de meest populaire op het Russischtalige internet, officieel aangekondigd.

Momenteel zijn er drie belangrijke zoekmachines (internationaal) - Google, Yahoo en, die hun eigen databases en zoekalgoritmen hebben. De meeste andere zoekmachines (waarvan er een groot aantal zijn) gebruiken in een of andere vorm de resultaten van de drie genoemde zoekmachines. AOL Search (search.aol.com) gebruikt bijvoorbeeld de Google-database, terwijl AltaVista, Lycos en AllTheWeb de Yahoo-database gebruiken.

5. Samenstelling en werkingsprincipes van het zoeksysteem

In Rusland is Yandex de belangrijkste zoekmachine, gevolgd door Rambler.ru, Google.ru, Aport.ru, Mail.ru. Bovendien gebruikt Mail.ru momenteel de Yandex-zoekmachine en database.

Bijna alle grote zoekmachines hebben hun eigen structuur, anders dan andere. Het is echter mogelijk om de belangrijkste componenten te identificeren die alle zoekmachines gemeen hebben. Verschillen in structuur kunnen alleen bestaan ​​in de vorm van implementatie van de interactiemechanismen van deze componenten.

Indexeringsmodule

De indexeringsmodule bestaat uit drie hulpprogramma's (robots):

Spider is een programma dat is ontworpen om webpagina's te downloaden. De spider downloadt de pagina en haalt alle interne links van die pagina op. De html-code van elke pagina wordt gedownload. Robots gebruiken HTTP-protocollen om pagina's te downloaden. De spin werkt als volgt. De robot stuurt het verzoek “get/path/document” en enkele andere HTTP-verzoekopdrachten naar de server. Als reactie ontvangt de robot een tekststroom met daarin service-informatie en het document zelf.

  • pagina URL
  • datum waarop de pagina is gedownload
  • HTTP-header van serverreactie
  • paginatekst (html-code)

Crawler (“reizende” spider) is een programma dat automatisch alle links op de pagina volgt. Selecteert alle links die op de pagina aanwezig zijn. Het is zijn taak om te bepalen waar de spin vervolgens naartoe moet gaan, op basis van links of een vooraf bepaalde lijst met adressen. Crawler volgt de gevonden links en zoekt naar nieuwe documenten die nog onbekend zijn bij de zoekmachine.

Indexer (robotindexer) is een programma dat webpagina's analyseert die door spiders zijn gedownload. De indexer ontleedt de pagina in zijn samenstellende delen en analyseert deze met behulp van zijn eigen lexicale en morfologische algoritmen. Verschillende pagina-elementen worden geanalyseerd, zoals tekst, koppen, links, structuur- en stijlkenmerken, speciale service-HTML-tags, enz.

Met de indexeringsmodule kunt u dus een bepaalde set bronnen doorzoeken met behulp van koppelingen, gevonden pagina's downloaden, koppelingen naar nieuwe pagina's extraheren uit ontvangen documenten en een volledige analyse van deze documenten uitvoeren.

Database

Een database, of zoekmachine-index, is een gegevensopslagsysteem, een informatiearray waarin speciaal geconverteerde parameters van alle documenten die door de indexeringsmodule zijn gedownload en verwerkt, zijn opgeslagen.

Zoekserver

De zoekserver is het belangrijkste element van het hele systeem, omdat de kwaliteit en snelheid van het zoeken rechtstreeks afhangt van de algoritmen die aan de werking ervan ten grondslag liggen.

De zoekserver werkt als volgt:

  • Het van de gebruiker ontvangen verzoek wordt onderworpen aan morfologische analyse. Van elk document in de database wordt de informatieomgeving gegenereerd (die vervolgens in het formulier wordt weergegeven, dat wil zeggen tekstinformatie die overeenkomt met het verzoek op de zoekresultatenpagina).
  • De ontvangen gegevens worden als invoerparameters doorgegeven aan een speciale classificatiemodule. Voor alle documenten worden gegevens verwerkt, waardoor elk document zijn eigen beoordeling krijgt die de relevantie karakteriseert van de door de gebruiker ingevoerde zoekopdracht en de verschillende componenten van dit document die zijn opgeslagen in de index van de zoekmachine.
  • Afhankelijk van de keuze van de gebruiker kan deze beoordeling worden aangepast door aanvullende voorwaarden (bijvoorbeeld het zogenaamde “geavanceerd zoeken”).
  • Vervolgens wordt een fragment gegenereerd, dat wil zeggen dat voor elk gevonden document de titel, een korte samenvatting die het beste bij de zoekopdracht past, en een link naar het document zelf uit de documenttabel wordt gehaald, en de gevonden woorden worden gemarkeerd.
  • De resulterende zoekresultaten worden naar de gebruiker verzonden in de vorm van een SERP (Search Engine Result Page) – een zoekresultatenpagina.

Zoals u kunt zien, zijn al deze componenten nauw met elkaar verbonden en werken ze in interactie, waardoor ze een duidelijk, tamelijk complex mechanisme vormen voor de werking van het zoeksysteem, waarvoor enorme hoeveelheden middelen nodig zijn.

6. Conclusie

Laten we nu al het bovenstaande samenvatten.

  • Het primaire doel van elke zoekmachine is om mensen precies de informatie te bieden waarnaar ze op zoek zijn.
  • Belangrijkste kenmerken van zoekmachines:
    1. Volledigheid
    2. Nauwkeurigheid
    3. Relevantie
    4. Zoeksnelheid
    5. Zichtbaarheid
  • De eerste volwaardige zoekmachine was het WebCrawler-project, gepubliceerd in 1994.
  • Het zoeksysteem bevat de volgende componenten:
    1. Indexeringsmodule
    2. Database
    3. Zoekserver

We hopen dat u dankzij onze masterclass meer vertrouwd raakt met het concept van een zoekmachine en de belangrijkste functies, kenmerken en werkingsprincipes van zoekmachines beter begrijpt.

Hallo, lieve lezers! Ekaterina Kalmykova is bij je. Het artikel van vandaag zal gewijd zijn aan een dergelijk concept als een zoekmachine, wat het is, waarvoor het nodig is. We zullen ook in detail kijken naar de soorten zoekmachines op internet.

Als u een vraag heeft: “Waarom moet ik meer weten over deze zoekmachines?”, dan zal ik deze manier beantwoorden. Als je in een restaurant een heerlijke soep eet, wil je dan weten uit welke ingrediënten deze is gemaakt, zodat je deze thuis zelf kunt maken? Als u tevreden bent met het eindresultaat, dat wil zeggen de smaak van de soep, dan zou u immers waarschijnlijk willen weten wat tot dit resultaat heeft geleid?

Hetzelfde kan gezegd worden over het werken met een zoekmachine (SE). Als u in de toekomst uw eigen blog maakt en weet hoe de PS werkt, hoeft u zich niet tot specialisten te wenden voor hulp. U kunt uw project zelfstandig beheren, zodat de zoekmachine het kan zien en aan andere gebruikers kan laten zien. Het verkeer naar uw bron en dus uw inkomsten zullen hiervan afhangen.

Dus laten we beginnen.

Wat is een zoekmachine?

Een zoekmachine is een speciale bron op internet die de gebruiker informatie verstrekt in overeenstemming met zijn verzoek. Dat wil zeggen, deze bron verzamelt alle gegevens over het wereldwijde netwerk, alle webprojecten, en wanneer een specifiek verzoek van een gebruiker wordt ontvangen, levert deze de nodige informatie die wordt gezocht door deze bijvoorbeeld naar een thematische blog of website te leiden.

Nadat u uw project heeft gemaakt, is het dus uw taak om in de zoekresultaten te komen, dat wil zeggen in de "lijst" of database van de zoekmachine. Omdat websitepromotie op internet simpelweg niet mogelijk is zonder een soort zoekmachine te gebruiken, moet u zorgen voor de kwaliteit van uw bron en de interne en externe optimalisatie ervan. Hoe u dit kunt doen, bespreken we in de volgende artikelen. Mis het dus niet.

Als je in de tussentijd besluit je eigen blog te maken, raad ik je aan deze artikelen te lezen:

Omdat er bijna elke dag nieuwe webbronnen verschijnen, moet de database van de zoekmachine daarom voortdurend worden bijgewerkt. Elke nieuw gemaakte site moet door een robot worden geïndexeerd. In eenvoudige bewoordingen moeten zoekmachineassistenten - robots - kennis maken met de nieuwe bron en deze gegevens naar de zoekmachine zelf overbrengen.

Nou, hier raadde je waarschijnlijk al aan dat wanneer een robot je blog bezoekt, hij alles leuk zou moeten vinden. Je toekomstige lot zal afhangen van deze gast.

Hoe je de robot helemaal blij kunt maken met jouw project, vertel ik je in een van de volgende artikelen. Mis het niet, er zal interessante en zeer interessante informatie zijn die ik met u zal delen.

Zoekmachines werken

Al het werk met betrekking tot de PS begint met het invoeren van de gewenste zoekopdracht in de zoekbalk. Waar kunnen gebruikers naar zoeken? Ja, alles, van een recept voor taarten met kool tot de eeuwige vraag “hoe je meer geld kunt verdienen zonder iets te doen.”

Om ervoor te zorgen dat uw hulpbron het antwoord op de vraag is, moet u uw concurrenten voor zijn. Om dit te doen, moet u speciale aandacht besteden aan het promoten van uw project, waaronder activiteiten zoals het schrijven van geoptimaliseerde inhoud van hoge kwaliteit, dat wil zeggen het reageren op de verzoeken van het artikel, het verbeteren van de gedragsfactor, dat wil zeggen, zodat uw lezer geïnteresseerd is om op de bron te staan, verbetert dit de bruikbaarheid, dat wil zeggen bezoekersgemak en vele andere factoren. We zullen dit allemaal samen met u leren.

Onderdelen van zoekmachines

En wat helpt zoekmachines, bijvoorbeeld Google, uw bron te indexeren?

  1. Agenten zijn werknemers die het grootste deel van het werk doen: sites indexeren en analyseren.
  2. Spiders zijn een programma dat pagina's van een webbron kan downloaden en algemene informatie daarover kan verzamelen.
  3. Crawlers (crawler) - een programma dat naar alle links op pagina's zoekt, waarna het op zoek gaat naar nieuwe gegevens die niet bekend zijn bij zoekmachines.
  4. Indexer – analyseert tekst, koppen, stijl, enz.
  5. Robots - indexeer uw inhoudspagina's en bestudeer ook verschillende links.

Om ervoor te zorgen dat de indexering op de door u gewenste manier plaatsvindt, maakt u een speciaal document “robots.txt”. Hiermee kan het systeem alleen die pagina's controleren die u nodig heeft en verwijderen wat u niet zou moeten zien.

Soorten zoekmachines

Er zijn verschillende opties voor systemen voor het ophalen van informatie:

  • Catalogi. Een eenvoudige zoekvergelijking is een boekenplank in een bibliotheek. Alles wordt daar opgeslagen in subcategorieën en categorieën van specifieke onderwerpen. Als u zich in zo'n zoekmachine bevindt, geloof me dan, de informatie die u daar vindt, zal meer dan nuttig en begrijpelijk zijn voor uw perceptie. Kun je raden over welke algemene site we het hebben? Natuurlijk over Wikipedia, die een hele lijst met nuttige informatie heeft verzameld.
  • Zoekindexen. Het zoeken naar gegevens wordt uitgevoerd met behulp van sleutelzinnen. Dit is zowel handig als ongemakkelijk tegelijk. Ik denk dat ik begrepen zal worden door mensen die bijvoorbeeld zoeken naar 'Een meisje laat haar klas zien' om te ontdekken hoe een meisje haar duim opsteekt, maar bij het zoeken komt er iets niet erg fatsoenlijks naar voren. 🙂 Dit type zoekopdracht is kenmerkend voor de meeste zoekmachines.
  • Beoordelingssystemen. Ze bepalen uw populariteit op basis van het aantal bezoeken. Dit is natuurlijk niet het beste criterium, omdat er niet altijd rekening wordt gehouden met het nut en de kwaliteit van de hulpbron zelf. Een voorbeeld van een dergelijk systeem is de internetbron alexa.com.

Zoekservers zijn ook onderverdeeld in algemeen en gespecialiseerd. Algemene zoekmachines sorteren informatiegegevens zonder enige selectie over alle hen bekende webbronnen. Deze omvatten Yandex, Rambler, Google. Gespecialiseerd - sorteer op gebruikte taal.

Zoekmachines kunnen ook worden onderverdeeld in regionale en mondiale distributie.

Tegenwoordig verbeteren alle zoekmachines voortdurend hun algoritmen voor het selecteren van relevante bronnen van hoge kwaliteit.

Een beetje geschiedenis

PS verscheen in 1996 op RuNet - dit zijn Aport en Rambler. Een jaar later, in 1997, werd Yandex opgericht en een jaar later, in 1998, verscheen er een andere concurrent: Google. Momenteel zijn de meest populaire Yandex en Google.

Welke zoekmachines zijn momenteel het populairst?

Hier zijn de statistieken:

Zoals je kunt zien, is Yandex nu het populairst in Rusland, samen met Google en Mail.

Op deze manier kunt u de belangrijkste zoekopdrachten zien waarop u zich moet concentreren bij het maken en promoten van uw project.

Zoekmachine Yandex

Het werkingsprincipe is als volgt: voer de gewenste zoekopdracht in de zoekbalk in, klik op "Zoeken" en bekijk de resultaten. Yandex heeft 13 miljoen reacties op uw verzoek geselecteerd. Ook kunt u zoeken in foto's, video's en de markt (zie linkerkolom).

Bovendien kunt u het zoekgebied configureren. Klik hiervoor op het pictogram naast het kruis in de zoekbalk en selecteer de gewenste regio in het filtervenster.

Google-zoekmachine

Google werkt op dezelfde manier als Yandex. U kunt informatie zoeken in verschillende secties: afbeeldingen, video's, nieuws, kaarten, enz.

Als u op “Zoekhulpmiddelen” klikt, wordt een paneel met instellingen geopend, waarin u de regio, de taal en het tijdstip kunt selecteren waarop u naar informatie wilt zoeken.

Nu u weet welke zoekmachines er op internet bestaan, heeft u ook de meest populaire gezien, en nu kunt u, gewapend met informatie, uw verbindingen en interactie met zoekmachines tot stand brengen.

Dat is alles voor vandaag. Wat vind je van het artikel?

Dag iedereen.

Ik raad je aan om je blog bij te werken, zodat je het laatste nieuws niet mist.

Ekaterina Kalmykova

Een zoeksysteem is een software- en hardwarecomplex dat is ontworpen om op internet te zoeken en te reageren op een verzoek van een gebruiker, gespecificeerd in de vorm van een tekstzin (zoekopdracht), door een lijst met links naar informatiebronnen te produceren, in volgorde van relevantie ( in overeenstemming met het verzoek). De grootste internationale zoekmachines: "Google", "Yahoo", "MSN". Op het Russische internet is het - "Yandex", "Rambler", "Aport".

Laten we de belangrijkste kenmerken van zoekmachines beschrijven:

    Volledigheid

Volledigheid is een van de belangrijkste kenmerken van een zoeksysteem: de verhouding tussen het aantal op verzoek gevonden documenten en het totale aantal documenten op internet dat aan het gegeven verzoek voldoet. Als er bijvoorbeeld 100 pagina's op internet zijn met de zinsnede 'hoe kies je een auto', en er zijn er slechts 60 gevonden voor de overeenkomstige zoekopdracht, dan is de volledigheid van de zoekopdracht 0,6. Het is duidelijk dat hoe vollediger de zoekopdracht is, hoe kleiner de kans is dat de gebruiker het document dat hij nodig heeft niet zal vinden, op voorwaarde dat het überhaupt op internet bestaat.

    Nauwkeurigheid

Nauwkeurigheid is een ander hoofdkenmerk van een zoekmachine, die wordt bepaald door de mate waarin de gevonden documenten overeenkomen met de zoekopdracht van de gebruiker. Als de vraag 'hoe kies je een auto' bijvoorbeeld 100 documenten bevat, bevatten 50 daarvan de zinsnede 'hoe kies je een auto', en de rest bevat eenvoudigweg deze woorden ('hoe kies je de juiste radio en installeer je deze in een auto”), dan wordt de zoeknauwkeurigheid gelijk geacht aan 50/100 (=0,5). Hoe nauwkeuriger de zoekopdracht, hoe sneller de gebruiker de documenten zal vinden die hij nodig heeft, hoe minder verschillende soorten "afval" er tussen zullen worden gevonden, hoe minder vaak de gevonden documenten niet zullen overeenkomen met het verzoek.

    Relevantie

Relevantie is een even belangrijk onderdeel van zoeken, dat wordt gekenmerkt door de tijd die verstrijkt vanaf het moment dat documenten op internet worden gepubliceerd totdat ze in de indexdatabase van zoekmachines worden ingevoerd. Zo wendde een groot aantal gebruikers zich de dag nadat interessant nieuws verscheen tot zoekmachines met relevante vragen. Objectief gezien is er minder dan een dag verstreken sinds de publicatie van nieuwsinformatie over dit onderwerp, maar de belangrijkste documenten zijn al geïndexeerd en beschikbaar voor doorzoeking, dankzij het bestaan ​​van de zogenaamde “snelle database” van grote zoekmachines, die wordt meerdere keren per dag bijgewerkt.

    Zoeksnelheid

De zoeksnelheid hangt nauw samen met de belastingsweerstand. Volgens Rambler Internet Holding LLC ontvangt de Rambler-zoekmachine bijvoorbeeld tijdens kantooruren ongeveer 60 verzoeken per seconde. Een dergelijke werklast vereist het verkorten van de verwerkingstijd van een individueel verzoek. Hier vallen de belangen van de gebruiker en de zoekmachine samen: de bezoeker wil zo snel mogelijk resultaten krijgen en de zoekmachine moet het verzoek zo snel mogelijk verwerken, om de berekening van daaropvolgende zoekopdrachten niet te vertragen.

    Zichtbaarheid

Visuele presentatie van resultaten is een belangrijk onderdeel van handig zoeken. Voor de meeste zoekopdrachten vindt de zoekmachine honderden of zelfs duizenden documenten. Door onduidelijke zoekopdrachten of onnauwkeurige zoekopdrachten bevatten zelfs de eerste pagina's met zoekresultaten niet altijd alleen de noodzakelijke informatie. Dit betekent dat de gebruiker vaak zelf moet zoeken binnen de gevonden lijst. Verschillende elementen van de resultatenpagina van de zoekmachine helpen u bij het navigeren door de zoekresultaten. Gedetailleerde uitleg van de zoekresultatenpagina, bijvoorbeeld voor Yandex, is te vinden op de link http://help.yandex.ru/search/?id=481937.

4. Korte geschiedenis van de ontwikkeling van zoekmachines

In de beginperiode van de internetontwikkeling was het aantal gebruikers klein en de hoeveelheid beschikbare informatie relatief klein. Voor het grootste deel had alleen het onderzoekspersoneel toegang tot internet. Op dat moment was het zoeken naar informatie op internet niet zo urgent als nu.

Een van de eerste manieren om de toegang tot netwerkinformatiebronnen te organiseren was het creëren van open directory's met sites, links naar bronnen die op onderwerp waren gegroepeerd. Het eerste dergelijke project was de website Yahoo.com, die in het voorjaar van 1994 werd geopend. Nadat het aantal sites in de Yahoo-directory aanzienlijk was toegenomen, werd de mogelijkheid toegevoegd om in de directory naar de benodigde informatie te zoeken. In de volle zin was het nog geen zoekmachine, aangezien het zoekgebied alleen beperkt was tot de bronnen die in de catalogus aanwezig waren, en niet tot alle internetbronnen.

Linkmappen werden in het verleden op grote schaal gebruikt, maar hebben tegenwoordig vrijwel hun populariteit verloren. Omdat zelfs moderne catalogi, die enorm in volume zijn, slechts informatie bevatten over een verwaarloosbaar deel van internet. De grootste directory van het DMOZ-netwerk (ook wel het Open Directory Project genoemd) bevat informatie over 5 miljoen bronnen, terwijl de zoekmachinedatabase van Google uit meer dan 8 miljard documenten bestaat.

De eerste volwaardige zoekmachine was het WebCrawler-project, gepubliceerd in 1994.

In 1995 verschenen zoekmachines Lycos en AltaVista. Deze laatste is al jaren toonaangevend op het gebied van het zoeken naar informatie op internet.

In 1997 creëerden Sergey Brin en Larry Page de Google-zoekmachine als onderdeel van een onderzoeksproject aan de Stanford University. Google is momenteel de populairste zoekmachine ter wereld!

In september 1997 werd de Yandex-zoekmachine, de meest populaire op het Russischtalige internet, officieel aangekondigd.

Momenteel zijn er drie belangrijke internationale zoekmachines: Google, Yahoo en MSN, die hun eigen databases en zoekalgoritmen hebben. De meeste andere zoekmachines (waarvan er een groot aantal zijn) gebruiken in een of andere vorm de resultaten van de drie genoemde zoekmachines. AOL Search (search.aol.com) gebruikt bijvoorbeeld de Google-database, terwijl AltaVista, Lycos en AllTheWeb de Yahoo-database gebruiken.

5. Samenstelling en werkingsprincipes van het zoeksysteem

In Rusland is Yandex de belangrijkste zoekmachine, gevolgd door Rambler.ru, Google.ru, Aport.ru, Mail.ru. Bovendien gebruikt Mail.ru momenteel de Yandex-zoekmachine en database.

Bijna alle grote zoekmachines hebben hun eigen structuur, anders dan andere. Het is echter mogelijk om de belangrijkste componenten te identificeren die alle zoekmachines gemeen hebben. Verschillen in structuur kunnen alleen bestaan ​​in de vorm van implementatie van de interactiemechanismen van deze componenten.

Indexeringsmodule

De indexeringsmodule bestaat uit drie hulpprogramma's (robots):

Spider is een programma dat is ontworpen om webpagina's te downloaden. De spider downloadt de pagina en haalt alle interne links van die pagina op. De html-code van elke pagina wordt gedownload. Robots gebruiken HTTP-protocollen om pagina's te downloaden. De spin werkt als volgt. De robot stuurt het verzoek “get/path/document” en enkele andere HTTP-verzoekopdrachten naar de server. Als reactie ontvangt de robot een tekststroom met daarin service-informatie en het document zelf.

    pagina URL

    datum waarop de pagina is gedownload

    HTTP-header van serverreactie

    paginatekst (html-code)

Crawler (“reizende” spider) is een programma dat automatisch alle links op de pagina volgt. Selecteert alle links die op de pagina aanwezig zijn. Het is zijn taak om te bepalen waar de spin vervolgens naartoe moet gaan, op basis van links of een vooraf bepaalde lijst met adressen. Crawler volgt de gevonden links en zoekt naar nieuwe documenten die nog onbekend zijn bij de zoekmachine.

Indexer (robotindexer) is een programma dat webpagina's analyseert die door spiders zijn gedownload. De indexer ontleedt de pagina in zijn samenstellende delen en analyseert deze met behulp van zijn eigen lexicale en morfologische algoritmen. Verschillende pagina-elementen worden geanalyseerd, zoals tekst, koppen, links, structuur- en stijlkenmerken, speciale service-HTML-tags, enz.

Met de indexeringsmodule kunt u dus een bepaalde set bronnen doorzoeken met behulp van koppelingen, gevonden pagina's downloaden, koppelingen naar nieuwe pagina's extraheren uit ontvangen documenten en een volledige analyse van deze documenten uitvoeren.

Database

Een database, of zoekmachine-index, is een gegevensopslagsysteem, een informatiearray waarin speciaal geconverteerde parameters van alle documenten die door de indexeringsmodule zijn gedownload en verwerkt, zijn opgeslagen.

Zoekserver

De zoekserver is het belangrijkste element van het hele systeem, omdat de kwaliteit en snelheid van het zoeken rechtstreeks afhangt van de algoritmen die aan de werking ervan ten grondslag liggen.

De zoekserver werkt als volgt:

    Het van de gebruiker ontvangen verzoek wordt onderworpen aan morfologische analyse. Van elk document in de database wordt de informatieomgeving gegenereerd (die vervolgens wordt weergegeven in de vorm van een fragment, dat wil zeggen tekstinformatie die overeenkomt met het verzoek op de pagina met zoekresultaten).

    De ontvangen gegevens worden als invoerparameters doorgegeven aan een speciale classificatiemodule. Voor alle documenten worden gegevens verwerkt, waardoor elk document zijn eigen beoordeling krijgt die de relevantie karakteriseert van de door de gebruiker ingevoerde zoekopdracht en de verschillende componenten van dit document die zijn opgeslagen in de index van de zoekmachine.

    Afhankelijk van de keuze van de gebruiker kan deze beoordeling worden aangepast door aanvullende voorwaarden (bijvoorbeeld het zogenaamde “geavanceerd zoeken”).

    Vervolgens wordt een fragment gegenereerd, dat wil zeggen dat voor elk gevonden document de titel, een korte samenvatting die het beste bij de zoekopdracht past, en een link naar het document zelf uit de documenttabel wordt gehaald, en de gevonden woorden worden gemarkeerd.

    De resulterende zoekresultaten worden naar de gebruiker verzonden in de vorm van een SERP (Search Engine Result Page) – een zoekresultatenpagina.

Zoals u kunt zien, zijn al deze componenten nauw met elkaar verbonden en werken ze in interactie, waardoor ze een duidelijk, tamelijk complex mechanisme vormen voor de werking van het zoeksysteem, waarvoor enorme hoeveelheden middelen nodig zijn.

Geen enkele zoekmachine dekt alle internetbronnen.

Elke zoekmachine verzamelt informatie over internetbronnen met behulp van zijn eigen unieke methoden en vormt zijn eigen periodiek bijgewerkte database. Toegang tot deze database wordt verleend aan de gebruiker.

Zoekmachines implementeren twee manieren om naar een bron te zoeken:

    Zoek op onderwerp catalogi - informatie wordt gepresenteerd in de vorm van een hiërarchische structuur. Op het hoogste niveau zijn er algemene categorieën (“Internet”, “Zakelijk”, “Kunst”, “Onderwijs”, enz.), op het volgende niveau zijn de categorieën onderverdeeld in secties, enz. Het laagste niveau bestaat uit links naar specifieke webpagina's of andere informatiebronnen.

    Zoeken op trefwoord (indexzoeken of gedetailleerd zoeken) - de gebruiker verzendt naar de zoekmachine verzoek, bestaande uit trefwoorden. Systeem geeft terug aan de gebruiker een lijst met op verzoek gevonden bronnen.

De meeste zoekmachines combineren beide zoekmethoden.

Zoekmachines kunnen lokaal, mondiaal, regionaal en gespecialiseerd zijn.

In het Russische deel van het internet (Runet) zijn de populairste zoekmachines voor algemene doeleinden Rambler (www.rambler.ru), Yandex (www.yandex.ru), Aport (www.aport.ru), Google (www. google.ru).

De meeste zoekmachinesgeïmplementeerd in de vorm van portalen.

Portaal (uit het Engels.portaal- hoofdingang, poort) is een website die verschillende internetdiensten integreert: zoekhulpmiddelen, mail, nieuws, woordenboeken, enz.

Portalen kunnen gespecialiseerd zijn (zoalswww. museum. Ru) en algemeen (bijvoorbeeldwww. km. Ru).

Zoek op trefwoorden

De set trefwoorden waarmee wordt gezocht, wordt ook wel het zoekcriterium of zoekonderwerp genoemd.

Een verzoek kan bestaan ​​uit één woord of uit een combinatie van woorden gecombineerd door operators: symbolen waarmee het systeem bepaalt welke actie het moet uitvoeren. Bijvoorbeeld: het verzoek "Moskou St. Petersburg" bevat de AND-operator (zo wordt een spatie waargenomen), wat aangeeft dat men moet zoeken naar documenten die beide woorden bevatten: Moskou en St. Petersburg.

Om de zoekopdracht relevant te maken (van het Engelse relevant - relevant, relevant), moet rekening worden gehouden met een aantal algemene regels:

    Ongeacht de vorm waarin het woord in de zoekopdracht wordt gebruikt, houdt de zoekopdracht rekening met alle woordvormen volgens de regels van de Russische taal. De zoekopdracht “ticket” zal bijvoorbeeld ook de woorden “ticket”, “ticket”, enz. opleveren.

    Hoofdletters mogen alleen in eigennamen worden gebruikt om onnodige verwijzingen te voorkomen. Op verzoek van 'smeden' zullen er bijvoorbeeld documenten worden gevonden die spreken over zowel smeden als Kuznetsovs.

    Het is raadzaam om uw zoekopdracht te verfijnen met behulp van enkele trefwoorden.

    Als het gewenste adres niet tussen de eerste twintig gevonden adressen staat, moet u de aanvraag wijzigen.

Elke zoekmachine gebruikt zijn eigen zoektaal. Gebruik de ingebouwde hulp van de zoekmachine om er kennis mee te maken

Grote sites kunnen ingebouwde systemen voor het ophalen van informatie in hun webpagina's hebben.

Zoekopdrachten in dergelijke zoeksystemen worden in de regel gebouwd volgens dezelfde regels als in wereldwijde zoekmachines, maar bekendheid met de hulp hier is niet overbodig.

geavanceerd zoeken

Zoekmachines kunnen de gebruiker een mechanisme bieden om een ​​complexe zoekopdracht te maken. Na een link geavanceerd zoeken maakt het mogelijk om zoekparameters te bewerken, aanvullende parameters op te geven en de handigste vorm te selecteren voor het weergeven van zoekresultaten. Hieronder worden de parameters beschreven die kunnen worden ingesteld tijdens een geavanceerd zoeken in de Yanex- en Rambler-systemen.

Parameterbeschrijving

Naam in Yandex

Naam erinWandelaar

Waar moet u zoeken naar trefwoorden (documenttitel, hoofdtekst, enz.)

Woordenboekfilter

Zoeken op tekst...

Welke woorden wel of niet in het document moeten voorkomen en hoe nauwkeurig de match moet zijn

Woordenboekfilter

Zoeken naar zoekwoorden... Documenten uitsluiten die de volgende woorden bevatten...

Hoe ver moeten trefwoorden uit elkaar liggen?

Woordenboekfilter

Afstand tussen zoekwoorden...

Beperking op documentdatum

Document datum...

Beperk uw zoekopdracht tot een of meer sites

Locatie/Boven

Zoek alleen documenten op de volgende sites...

Zoeken beperken op documenttaal

Documenttaal...

Zoek naar documenten met een afbeelding met een specifieke naam of handtekening

Afbeelding

Pagina's zoeken die objecten bevatten

Bijzondere objecten

Presentatieformulier voor zoekresultaten

Uitgifteformaat

Zoekresultaten weergeven

Bij sommige zoekmachines (bijvoorbeeld Yandex) kunt u zoekopdrachten in natuurlijke taal invoeren. Je schrijft wat je moet vinden (bijvoorbeeld: treinkaartjes bestellen van Moskou naar Sint-Petersburg). Het systeem analyseert de aanvraag en produceert het resultaat. Als u er niet tevreden mee bent, schakelt u over naar de querytaal.

In de eerste fase van de vorming van internet was het aantal gebruikers extreem klein en de hoeveelheid informatie die erop werd geplaatst minimaal. In die tijd werd het netwerk gebruikt als een gespecialiseerd hulpmiddel en voornamelijk voor wetenschappelijke doeleinden, zodat alleen medewerkers van verschillende laboratoria, universiteiten en militaire instellingen er toegang toe hadden. Aan het zoeken naar informatie werd toen veel minder aandacht besteed dan in onze tijd.

Met de toename van de hoeveelheid informatie is echter het probleem van snel zoeken en gemakkelijke toegang tot de voor de gebruiker interessante informatiebron ontstaan. De eerste oplossing voor dit probleem was de opkomst van websitegidsen. Dergelijke mappen waren groepen links naar bronnen, die werden samengesteld op basis van het onderwerp van de bronnen. De grondlegger van dergelijke projecten was Yahoo, een website die in april 1994 verscheen. Met de toename van het aantal sites in de catalogus heeft Yahoo de mogelijkheid geïmplementeerd om in de catalogus te zoeken. De site was echter geen volwaardige zoekmachine, omdat er alleen kon worden gezocht naar de bronnen die in de catalogus waren opgenomen.

Linkgidsen waren een goed idee, maar de haalbaarheid van het gebruik ervan nam af in directe verhouding tot de groei van het aantal sites op internet. Zelfs de modernste directory, die enkele miljoenen bronnen bevat, biedt toegang tot slechts een klein deel van de informatie die op internet is opgeslagen. De grootste catalogus van het Open Directory Project-netwerk bevat bijvoorbeeld informatie over 5 miljoen bronnen, terwijl tegelijkertijd meer dan 8 miljard documenten in de Google-zoekmachinedatabase worden ingevoerd en hun aantal elke minuut groeit.

Chronologie van de opkomst van zoekmachines

  • In 1994 verscheen de eerste volwaardige zoekmachine: het WebCrawler-project.
  • In 1995 werden twee zoekmachines tegelijk uitgebracht: AltaVista en Lycos. De eerste bleef jarenlang de belangrijkste informatiezoekmachine op internet.
  • In 1997 creëerden twee getalenteerde programmeurs, Sergey Brin en Larry Page, het Google-project, dat tegenwoordig de populairste zoekmachine ter wereld is, als onderdeel van een onderzoeksproject aan de Stanford University.
  • In 1997, op 23 september, werd officieel een project gepresenteerd met de naam Yandex, dat tegenwoordig de populairste zoekmachine is in het Russischtalige segment van internet (Runet)

Tegenwoordig zijn er drie belangrijke internationale zoekmachines: Google, Yahoo en MSN Search, die hun eigen zoekalgoritmen gebruiken en hun eigen databases hebben. Andere zoekmachines gebruiken hun technologieën en mogelijkheden in verschillende mate. De Google-database wordt bijvoorbeeld gebruikt door zoekmachines zoals Mail.ru en AOL (search.aol.com), en de Yahoo-database wordt gebruikt door zoekmachines AllTheWeb, Lycos en AltaVista. In Rusland en de GOS-landen is Yandex de belangrijkste zoekmachine, gevolgd door Rambler en Google, en de zoekmachines Mail.ru, Aport en KM.ru worden ook veel gebruikt.

Basiscomponenten van zoekmachines

Alle zoekmachines werken volgens dezelfde principes en gebruiken vergelijkbare benaderingen voor het vinden van informatie. Over het algemeen bestaat een zoekmachine uit de volgende onderdelen:

  • Webserver - webserver die verantwoordelijk is voor gebruikersinteractie met zoekmachinecomponenten
  • Spider (Engelse spider) - een browserprogramma dat internetbronnen "doorzoekt" en alle webpagina's downloadt
  • Crawler (Engelse spider-reiziger) - een gespecialiseerde versie van spider, het programma volgt automatisch alle links op de bronpagina's
  • Indexer (Engelse indexer) - een programma dat informatie van spiders analyseert
  • Database - zoekmachinedatabase waarin gedownloade en geanalyseerde pagina's worden opgeslagen
  • Zoekmachineresultatenengine (Engels systeem voor het leveren van resultaten) - produceert zoekresultaten uit de database

De specifieke implementatie van de bovenstaande componenten kan in elke zoekmachine verschillend zijn (spider en crawler zijn bijvoorbeeld één programma), maar deze gemeenschappelijke kenmerken zijn gemeenschappelijk voor alle zoekmachines.

Werkingsprincipes van zoekmachinecomponenten

Spin. Het spider-programma downloadt webpagina's op dezelfde manier als een gewone gebruikersbrowser. Het enige verschil tussen beide is dat de browser alle informatie op het scherm weergeeft (grafisch, tekst, audio, etc.), terwijl spider rechtstreeks met de html-code van de pagina werkt.

Kruiper.Een spin die verantwoordelijk is voor het zoeken naar nieuwe documenten die nog niet in de database van de zoekmachine staan. De taak van de crawler is ook om het pad te bepalen waarlangs de spin moet bewegen. Om dit te doen, selecteert het alle links op de pagina en volgt deze.

Indexeerder. De taak van de indexeerder is het analyseren van de nieuwe gevonden pagina's. Hij deelt ze op in afzonderlijke delen en bestudeert ze. De indexer markeert bijvoorbeeld pagina-elementen zoals koppen, tekst, HTML-servicetags, stijl en structurele kenmerken, enz.

Database. Alle gegevens die door de zoekmachine van internet worden gevonden, gedownload en geanalyseerd, worden ingevoerd in de database van de zoekmachine.

Zoekmachine resultaten motor. Het belangrijkste element van de zoekmachine, dat van primair belang is voor site-eigenaren en gebruikers, is het systeem met zoekresultaten. Zij is verantwoordelijk voor het rangschikken van pagina's (sites), dat wil zeggen dat zij beslist welke pagina op de eerste plaats komt en welke op de laatste plaats. Pagina's worden gesorteerd volgens een specifiek ranking-algoritme, dat elke zoekmachine zijn eigen algoritme heeft, en dat het belangrijkste geheim is. Het is het systeem voor het leveren van resultaten dat het voorwerp van studie is voor SEO’s, omdat ze ermee moeten werken om de positie van de site in de zoekresultaten te verbeteren.

Web Server. Normaal gesproken is een webserver een HTML-pagina met een formulier voor het invoeren van een zoekopdracht. De webserver biedt de gebruiker ook zoekresultaten in de vorm van een HTML-pagina. Voor elke zoekmachine worden deze pagina’s vormgegeven in een specifieke huisstijl.

Een zoeksysteem is een software- en hardwarecomplex dat is ontworpen om op internet te zoeken en te reageren op een verzoek van een gebruiker, gespecificeerd in de vorm van een tekstzin (zoekopdracht), door een lijst met links naar informatiebronnen te produceren, in volgorde van relevantie ( in overeenstemming met het verzoek). De grootste internationale zoekmachines: "Google", "Yahoo", "MSN". Op het Russische internet is het - "Yandex", "Rambler", "Aport".

Laten we de belangrijkste kenmerken van zoekmachines beschrijven:

    Volledigheid

Volledigheid is een van de belangrijkste kenmerken van een zoeksysteem: de verhouding tussen het aantal op verzoek gevonden documenten en het totale aantal documenten op internet dat aan het gegeven verzoek voldoet. Als er bijvoorbeeld 100 pagina's op internet zijn met de zinsnede 'hoe kies je een auto', en er zijn er slechts 60 gevonden voor de overeenkomstige zoekopdracht, dan is de volledigheid van de zoekopdracht 0,6. Het is duidelijk dat hoe vollediger de zoekopdracht is, hoe kleiner de kans is dat de gebruiker het document dat hij nodig heeft niet zal vinden, op voorwaarde dat het überhaupt op internet bestaat.

    Nauwkeurigheid

Nauwkeurigheid is een ander hoofdkenmerk van een zoekmachine, die wordt bepaald door de mate waarin de gevonden documenten overeenkomen met de zoekopdracht van de gebruiker. Als de vraag 'hoe kies je een auto' bijvoorbeeld 100 documenten bevat, bevatten 50 daarvan de zinsnede 'hoe kies je een auto', en de rest bevat eenvoudigweg deze woorden ('hoe kies je de juiste radio en installeer je deze in een auto”), dan wordt de zoeknauwkeurigheid gelijk geacht aan 50/100 (=0,5). Hoe nauwkeuriger de zoekopdracht, hoe sneller de gebruiker de documenten zal vinden die hij nodig heeft, hoe minder verschillende soorten "afval" er tussen zullen worden gevonden, hoe minder vaak de gevonden documenten niet zullen overeenkomen met het verzoek.

    Relevantie

Relevantie is een even belangrijk onderdeel van zoeken, dat wordt gekenmerkt door de tijd die verstrijkt vanaf het moment dat documenten op internet worden gepubliceerd totdat ze in de indexdatabase van zoekmachines worden ingevoerd. Zo wendde een groot aantal gebruikers zich de dag nadat interessant nieuws verscheen tot zoekmachines met relevante vragen. Objectief gezien is er minder dan een dag verstreken sinds de publicatie van nieuwsinformatie over dit onderwerp, maar de belangrijkste documenten zijn al geïndexeerd en beschikbaar voor doorzoeking, dankzij het bestaan ​​van de zogenaamde “snelle database” van grote zoekmachines, die wordt meerdere keren per dag bijgewerkt.

    Zoeksnelheid

De zoeksnelheid hangt nauw samen met de belastingsweerstand. Volgens Rambler Internet Holding LLC ontvangt de Rambler-zoekmachine bijvoorbeeld tijdens kantooruren ongeveer 60 verzoeken per seconde. Een dergelijke werklast vereist het verkorten van de verwerkingstijd van een individueel verzoek. Hier vallen de belangen van de gebruiker en de zoekmachine samen: de bezoeker wil zo snel mogelijk resultaten krijgen en de zoekmachine moet het verzoek zo snel mogelijk verwerken, om de berekening van daaropvolgende zoekopdrachten niet te vertragen.

    Zichtbaarheid

Visuele presentatie van resultaten is een belangrijk onderdeel van handig zoeken. Voor de meeste zoekopdrachten vindt de zoekmachine honderden of zelfs duizenden documenten. Door onduidelijke zoekopdrachten of onnauwkeurige zoekopdrachten bevatten zelfs de eerste pagina's met zoekresultaten niet altijd alleen de noodzakelijke informatie. Dit betekent dat de gebruiker vaak zelf moet zoeken binnen de gevonden lijst. Verschillende elementen van de resultatenpagina van de zoekmachine helpen u bij het navigeren door de zoekresultaten. Gedetailleerde uitleg van de zoekresultatenpagina, bijvoorbeeld voor Yandex, is te vinden op de link http://help.yandex.ru/search/?id=481937.

4. Korte geschiedenis van de ontwikkeling van zoekmachines

In de beginperiode van de internetontwikkeling was het aantal gebruikers klein en de hoeveelheid beschikbare informatie relatief klein. Voor het grootste deel had alleen het onderzoekspersoneel toegang tot internet. Op dat moment was het zoeken naar informatie op internet niet zo urgent als nu.

Een van de eerste manieren om de toegang tot netwerkinformatiebronnen te organiseren was het creëren van open directory's met sites, links naar bronnen die op onderwerp waren gegroepeerd. Het eerste dergelijke project was de website Yahoo.com, die in het voorjaar van 1994 werd geopend. Nadat het aantal sites in de Yahoo-directory aanzienlijk was toegenomen, werd de mogelijkheid toegevoegd om in de directory naar de benodigde informatie te zoeken. In de volle zin was het nog geen zoekmachine, aangezien het zoekgebied alleen beperkt was tot de bronnen die in de catalogus aanwezig waren, en niet tot alle internetbronnen.

Linkmappen werden in het verleden op grote schaal gebruikt, maar hebben tegenwoordig vrijwel hun populariteit verloren. Omdat zelfs moderne catalogi, die enorm in volume zijn, slechts informatie bevatten over een verwaarloosbaar deel van internet. De grootste directory van het DMOZ-netwerk (ook wel het Open Directory Project genoemd) bevat informatie over 5 miljoen bronnen, terwijl de zoekmachinedatabase van Google uit meer dan 8 miljard documenten bestaat.

De eerste volwaardige zoekmachine was het WebCrawler-project, gepubliceerd in 1994.

In 1995 verschenen zoekmachines Lycos en AltaVista. Deze laatste is al jaren toonaangevend op het gebied van het zoeken naar informatie op internet.

In 1997 creëerden Sergey Brin en Larry Page de Google-zoekmachine als onderdeel van een onderzoeksproject aan de Stanford University. Google is momenteel de populairste zoekmachine ter wereld!

In september 1997 werd de Yandex-zoekmachine, de meest populaire op het Russischtalige internet, officieel aangekondigd.

Momenteel zijn er drie belangrijke internationale zoekmachines: Google, Yahoo en MSN, die hun eigen databases en zoekalgoritmen hebben. De meeste andere zoekmachines (waarvan er een groot aantal zijn) gebruiken in een of andere vorm de resultaten van de drie genoemde zoekmachines. AOL Search (search.aol.com) gebruikt bijvoorbeeld de Google-database, terwijl AltaVista, Lycos en AllTheWeb de Yahoo-database gebruiken.

5. Samenstelling en werkingsprincipes van het zoeksysteem

In Rusland is Yandex de belangrijkste zoekmachine, gevolgd door Rambler.ru, Google.ru, Aport.ru, Mail.ru. Bovendien gebruikt Mail.ru momenteel de Yandex-zoekmachine en database.

Bijna alle grote zoekmachines hebben hun eigen structuur, anders dan andere. Het is echter mogelijk om de belangrijkste componenten te identificeren die alle zoekmachines gemeen hebben. Verschillen in structuur kunnen alleen bestaan ​​in de vorm van implementatie van de interactiemechanismen van deze componenten.

Indexeringsmodule

De indexeringsmodule bestaat uit drie hulpprogramma's (robots):

Spider is een programma dat is ontworpen om webpagina's te downloaden. De spider downloadt de pagina en haalt alle interne links van die pagina op. De html-code van elke pagina wordt gedownload. Robots gebruiken HTTP-protocollen om pagina's te downloaden. De spin werkt als volgt. De robot stuurt het verzoek “get/path/document” en enkele andere HTTP-verzoekopdrachten naar de server. Als reactie ontvangt de robot een tekststroom met daarin service-informatie en het document zelf.

    pagina URL

    datum waarop de pagina is gedownload

    HTTP-header van serverreactie

    paginatekst (html-code)

Crawler (“reizende” spider) is een programma dat automatisch alle links op de pagina volgt. Selecteert alle links die op de pagina aanwezig zijn. Het is zijn taak om te bepalen waar de spin vervolgens naartoe moet gaan, op basis van links of een vooraf bepaalde lijst met adressen. Crawler volgt de gevonden links en zoekt naar nieuwe documenten die nog onbekend zijn bij de zoekmachine.

Indexer (robotindexer) is een programma dat webpagina's analyseert die door spiders zijn gedownload. De indexer ontleedt de pagina in zijn samenstellende delen en analyseert deze met behulp van zijn eigen lexicale en morfologische algoritmen. Verschillende pagina-elementen worden geanalyseerd, zoals tekst, koppen, links, structuur- en stijlkenmerken, speciale service-HTML-tags, enz.

Met de indexeringsmodule kunt u dus een bepaalde set bronnen doorzoeken met behulp van koppelingen, gevonden pagina's downloaden, koppelingen naar nieuwe pagina's extraheren uit ontvangen documenten en een volledige analyse van deze documenten uitvoeren.

Database

Een database, of zoekmachine-index, is een gegevensopslagsysteem, een informatiearray waarin speciaal geconverteerde parameters van alle documenten die door de indexeringsmodule zijn gedownload en verwerkt, zijn opgeslagen.

Zoekserver

De zoekserver is het belangrijkste element van het hele systeem, omdat de kwaliteit en snelheid van het zoeken rechtstreeks afhangt van de algoritmen die aan de werking ervan ten grondslag liggen.

De zoekserver werkt als volgt:

    Het van de gebruiker ontvangen verzoek wordt onderworpen aan morfologische analyse. Van elk document in de database wordt de informatieomgeving gegenereerd (die vervolgens wordt weergegeven in de vorm van een fragment, dat wil zeggen tekstinformatie die overeenkomt met het verzoek op de pagina met zoekresultaten).

    De ontvangen gegevens worden als invoerparameters doorgegeven aan een speciale classificatiemodule. Voor alle documenten worden gegevens verwerkt, waardoor elk document zijn eigen beoordeling krijgt die de relevantie karakteriseert van de door de gebruiker ingevoerde zoekopdracht en de verschillende componenten van dit document die zijn opgeslagen in de index van de zoekmachine.

    Afhankelijk van de keuze van de gebruiker kan deze beoordeling worden aangepast door aanvullende voorwaarden (bijvoorbeeld het zogenaamde “geavanceerd zoeken”).

    Vervolgens wordt een fragment gegenereerd, dat wil zeggen dat voor elk gevonden document de titel, een korte samenvatting die het beste bij de zoekopdracht past, en een link naar het document zelf uit de documenttabel wordt gehaald, en de gevonden woorden worden gemarkeerd.

    De resulterende zoekresultaten worden naar de gebruiker verzonden in de vorm van een SERP (Search Engine Result Page) – een zoekresultatenpagina.

Zoals u kunt zien, zijn al deze componenten nauw met elkaar verbonden en werken ze in interactie, waardoor ze een duidelijk, tamelijk complex mechanisme vormen voor de werking van het zoeksysteem, waarvoor enorme hoeveelheden middelen nodig zijn.

Geen enkele zoekmachine dekt alle internetbronnen.

Elke zoekmachine verzamelt informatie over internetbronnen met behulp van zijn eigen unieke methoden en vormt zijn eigen periodiek bijgewerkte database. Toegang tot deze database wordt verleend aan de gebruiker.

Zoekmachines implementeren twee manieren om naar een bron te zoeken:

    Zoek op onderwerp catalogi - informatie wordt gepresenteerd in de vorm van een hiërarchische structuur. Op het hoogste niveau zijn er algemene categorieën (“Internet”, “Zakelijk”, “Kunst”, “Onderwijs”, enz.), op het volgende niveau zijn de categorieën onderverdeeld in secties, enz. Het laagste niveau bestaat uit links naar specifieke webpagina's of andere informatiebronnen.

    Zoeken op trefwoord (indexzoeken of gedetailleerd zoeken) - de gebruiker verzendt naar de zoekmachine verzoek, bestaande uit trefwoorden. Systeem geeft terug aan de gebruiker een lijst met op verzoek gevonden bronnen.

De meeste zoekmachines combineren beide zoekmethoden.

Zoekmachines kunnen lokaal, mondiaal, regionaal en gespecialiseerd zijn.

In het Russische deel van het internet (Runet) zijn de populairste zoekmachines voor algemene doeleinden Rambler (www.rambler.ru), Yandex (www.yandex.ru), Aport (www.aport.ru), Google (www. google.ru).

De meeste zoekmachinesgeïmplementeerd in de vorm van portalen.

Portaal (uit het Engels.portaal- hoofdingang, poort) is een website die verschillende internetdiensten integreert: zoekhulpmiddelen, mail, nieuws, woordenboeken, enz.

Portalen kunnen gespecialiseerd zijn (zoalswww. museum. Ru) en algemeen (bijvoorbeeldwww. km. Ru).

Zoek op trefwoorden

De set trefwoorden waarmee wordt gezocht, wordt ook wel het zoekcriterium of zoekonderwerp genoemd.

Een verzoek kan bestaan ​​uit één woord of uit een combinatie van woorden gecombineerd door operators: symbolen waarmee het systeem bepaalt welke actie het moet uitvoeren. Bijvoorbeeld: het verzoek "Moskou St. Petersburg" bevat de AND-operator (zo wordt een spatie waargenomen), wat aangeeft dat men moet zoeken naar documenten die beide woorden bevatten: Moskou en St. Petersburg.

Om de zoekopdracht relevant te maken (van het Engelse relevant - relevant, relevant), moet rekening worden gehouden met een aantal algemene regels:

    Ongeacht de vorm waarin het woord in de zoekopdracht wordt gebruikt, houdt de zoekopdracht rekening met alle woordvormen volgens de regels van de Russische taal. De zoekopdracht “ticket” zal bijvoorbeeld ook de woorden “ticket”, “ticket”, enz. opleveren.

    Hoofdletters mogen alleen in eigennamen worden gebruikt om onnodige verwijzingen te voorkomen. Op verzoek van 'smeden' zullen er bijvoorbeeld documenten worden gevonden die spreken over zowel smeden als Kuznetsovs.

    Het is raadzaam om uw zoekopdracht te verfijnen met behulp van enkele trefwoorden.

    Als het gewenste adres niet tussen de eerste twintig gevonden adressen staat, moet u de aanvraag wijzigen.

Elke zoekmachine gebruikt zijn eigen zoektaal. Gebruik de ingebouwde hulp van de zoekmachine om er kennis mee te maken

Grote sites kunnen ingebouwde systemen voor het ophalen van informatie in hun webpagina's hebben.

Zoekopdrachten in dergelijke zoeksystemen worden in de regel gebouwd volgens dezelfde regels als in wereldwijde zoekmachines, maar bekendheid met de hulp hier is niet overbodig.

geavanceerd zoeken

Zoekmachines kunnen de gebruiker een mechanisme bieden om een ​​complexe zoekopdracht te maken. Na een link geavanceerd zoeken maakt het mogelijk om zoekparameters te bewerken, aanvullende parameters op te geven en de handigste vorm te selecteren voor het weergeven van zoekresultaten. Hieronder worden de parameters beschreven die kunnen worden ingesteld tijdens een geavanceerd zoeken in de Yanex- en Rambler-systemen.

Parameterbeschrijving

Naam in Yandex

Naam erinWandelaar

Waar moet u zoeken naar trefwoorden (documenttitel, hoofdtekst, enz.)

Woordenboekfilter

Zoeken op tekst...

Welke woorden wel of niet in het document moeten voorkomen en hoe nauwkeurig de match moet zijn

Woordenboekfilter

Zoeken naar zoekwoorden... Documenten uitsluiten die de volgende woorden bevatten...

Hoe ver moeten trefwoorden uit elkaar liggen?

Woordenboekfilter

Afstand tussen zoekwoorden...

Beperking op documentdatum

Document datum...

Beperk uw zoekopdracht tot een of meer sites

Locatie/Boven

Zoek alleen documenten op de volgende sites...

Zoeken beperken op documenttaal

Documenttaal...

Zoek naar documenten met een afbeelding met een specifieke naam of handtekening

Afbeelding

Pagina's zoeken die objecten bevatten

Bijzondere objecten

Presentatieformulier voor zoekresultaten

Uitgifteformaat

Zoekresultaten weergeven

Bij sommige zoekmachines (bijvoorbeeld Yandex) kunt u zoekopdrachten in natuurlijke taal invoeren. Je schrijft wat je moet vinden (bijvoorbeeld: treinkaartjes bestellen van Moskou naar Sint-Petersburg). Het systeem analyseert de aanvraag en produceert het resultaat. Als u er niet tevreden mee bent, schakelt u over naar de querytaal.