Zoekmachines. Zoekmachines en mappen

Natuurlijk eindigt de lijst met populaire zoekmachines hier niet: hun aantal loopt in de honderden. Ik ben er echter zeker van dat deze ruim voldoende zullen zijn om met Engelstalige sites te kunnen werken.

Opgemerkt moet worden dat bijna alle hierboven gepresenteerde zoekmachines met het Cyrillische alfabet kunnen werken. Maar om informatie in het Russisch te zoeken, raad ik nog steeds binnenlandse zoekmachines aan:

Er zijn andere Russischtalige zoekmachines, maar deze zijn het populairst, vooral de eerste twee.

Rijst. 4.1. Google-zoekmachine

Uit het boek Countering Black PR op internet auteur Koezin Alexander Vladimirovitsj

Zoekmachines en directory's als hulpmiddelen voor het promoten van 'gevechts'-internetbronnen en het vullen ervan met inhoud. Deze sectie is geschreven met behulp van materiaal uit het boek 'Internet Intelligence: A Guide to Action'

Uit het boek Blog. Creëer en promoot auteur Joesjtsjoek Evgeni Vladimirovitsj

Zoekmachines en catalogi als hulpmiddelen voor het promoten van een blog en het vullen ervan met inhoud. We zullen het hebben over het automatiseren van het vullen van een blog met interessante inhoud, dat wil zeggen: hoe je sneller materiaal voor een blog kunt vinden dan andere bloggers. Het is onwaarschijnlijk dat de meeste lezers daartoe in staat zullen zijn naar

Uit het boek Internet Intelligence [Guide to Action] auteur Joesjtsjoek Evgeni Leonidovitsj

Het verzamelen van zoekopdrachten gerelateerd aan de bedrijfsnaam in zoekmachines

Uit het boek Een computer met uw eigen handen in elkaar zetten auteur Vatamanjoek Alexander Ivanovitsj

5.2. Populaire besturingssystemen Er zijn er veel besturingssystemen, en elk heeft zijn eigen mate van prevalentie. Sommige systemen zijn beter voor netwerken, terwijl andere beter zijn batterijduur, omdat je alles kunt combineren zonder prestatieverlies

Uit het boek Win2K FAQ (v. 6.0) auteur Sjasjkov Alexey

(6.10) Er is een gemengd netwerk, netware en NT, clients W2kPro en W98. Machines met W98 kunnen niet inloggen op machines met W2k. Om dit probleem op te lossen, moet u binden met behulp van protocollen: IPX/SPX alleen aan de Novell-client, TCP/IP alleen aan Microsoft-client. U kunt dit doen in eigenschappen netwerk connecties menu

Uit het boek Abstract, cursussen, diploma op een computer auteur

Zoekmachines Als u een selectie van materialen op een specifieker en speciale informatie, is het beter om zoekmachines te gebruiken. Een zoekmachine is een reeks speciale programma's waarmee u op internet kunt zoeken. Ze zijn vrij van de inherente nadelen

Uit het boek Internet. Nieuwe kansen. Trucs en effecten auteur Balovsjak Nadezjda Vasilievna

Hoe zoekmachines werken en hoe u zoekopdrachten correct kunt construeren Moderne zoekmachines zijn een reeks speciale programma's die zijn ontworpen om informatie op internet te zoeken. Het principe van hun werking is als volgt: van tijd tot tijd

Uit het boek Internet 100%. Gedetailleerde handleiding: van beginner tot professional auteur Gladky Alexey Anatolievich

Populaire online bioscopen Een van de populaire gratis online bioscopen bevindt zich op http://vsekino.tv (Fig. 7.5). Rijst.

Uit het boek Internet - gemakkelijk en eenvoudig! auteur Alexandrov Egor

Populaire directory's De meest populaire en complete directory ter wereld is ongetwijfeld het Engelstalige Yahoo! (http://dir.yahoo.com) (Afb. 4.4). Rijst. 4.4. De meest populaire directory met links Yahoo! moet worden opgemerkt dat directories vaak worden gecombineerd met zoekmachines, zo veel van de gepresenteerde

Uit het boek Yandex voor iedereen auteur Abramzon M.G.

1.11.3. Populaire berichten De lijst met populaire berichten wordt één keer per dag bijgewerkt. Er worden enkele tientallen van dergelijke platen geselecteerd, maar slechts enkele van de meest populaire worden gepresenteerd titelpagina Zoek sectie. De rest kunt u bekijken via de link Totaal records.

Uit het boek Hoe u bestanden op internet kunt vinden en downloaden auteur Reitman M.A.

1.11.6. Populaire categorieën Als er voorheen een gesprek was over de beoordeling van bloggers, services en de meest populaire berichten, nu we zullen praten over categorieën. De categorie van hun bericht wordt bepaald door hun auteurs. Hoe, waarom, waarom - hangt af van het onderwerp, van mode, van stemming. Echter

Uit het boek Eerste stappen met Windows 7. Een beginnershandleiding auteur Kolisnichenko Denis N.

1.11.7. Populair nieuws De nieuwsbeoordeling van de Yandex-service wordt gemarkeerd als een afzonderlijk blok tussen andere indicatoren. Nieuws. Dit is het nieuws dat het meest wordt besproken op blogs. De lijst met populair nieuws wordt elke 5-10 minuten bijgewerkt. Als je de link volgt van

Uit het boek Maak kennis met de laptop auteur Zjoekov Ivan

Populaire trackers Er zijn veel torrent-trackers in de wereld waarvan je de diensten kunt gebruiken. De volgende zijn de meest populaire trackers.? http://lostfilm.tv is een tracker gespecialiseerd in tv-series. In de regel hebben releases professionele nasynchronisatie en kwaliteit

Uit het boek IT-beveiliging: is het de moeite waard om het bedrijf te riskeren? door Linda McCarthy

10.2.1. Internetzoekmachines bevatten grote hoeveelheid informatie. Iedereen kan immers een website op internet maken, dus het aantal nieuwe sites groeit elke dag. Zoekmachines worden gebruikt om op internet te zoeken. Een zoekmachine is een specialisme

Uit het boek van de auteur

Populaire internettoepassingen ICQ (ICQ) ICQ is een gecentraliseerde instant messaging-dienst. De dienstgebruiker (dat wil zeggen u) werkt met een clientprogramma (de zogenaamde “messenger”). Berichten worden direct verzonden. Je kan ook

Uit het boek van de auteur

Populair postlijsten Bugtraq-mailinglijsten Deze lijst bespreekt UNIX-kwetsbaarheden, hoe deze kunnen worden uitgebuit en hoe ze kunnen worden gesloten. Het doel ervan is niet om te leren hoe je systemen kunt hacken, maar eerder hoe je kwetsbaarheden kunt ontdekken, hoe je informatie daarover kunt delen, hoe je

25/04/05 5,4K

Invoering

Een van de belangrijkste manieren om informatie op internet te vinden is via zoekmachines. Zoekmachines doorzoeken elke dag het internet: ze bezoeken webpagina's en voeren deze in gigantische databases in. Hierdoor kan de gebruiker een aantal trefwoorden intypen, op Verzenden klikken en zien welke pagina's overeenkomen met zijn zoekopdracht.

Begrijpen hoe zoekmachines werken is essentieel voor webmasters. Voor hen is de juiste structuur van documenten en de gehele server of website vanuit het oogpunt van zoekmachines van cruciaal belang. Zonder dit zullen documenten niet vaak genoeg verschijnen als reactie op gebruikersverzoeken aan de zoekmachine of zelfs helemaal niet worden geïndexeerd.

Webmasters willen de ranking van hun pagina's verhogen, en dat is begrijpelijk: elk verzoek aan een zoekmachine kan immers honderden en duizenden overeenkomstige links naar documenten opleveren. In de meeste gevallen zijn alleen de eerste 10 links voldoende relevant voor de zoekopdracht.

U wilt uiteraard dat het document in de top tien staat, aangezien de meeste gebruikers zelden de links na de top tien bekijken. Met andere woorden: als de link naar het document de elfde is, dan is het net zo erg alsof deze helemaal niet bestond.

Grote zoekmachines

Welke van de honderden zoekmachines zijn echt belangrijk voor een webmaster? Nou ja, natuurlijk algemeen bekend en vaak gebruikt. Maar tegelijkertijd moet u rekening houden met het publiek waarvoor uw server is ontworpen. Als uw server bijvoorbeeld zeer gespecialiseerde informatie bevat over de nieuwste methoden koeien melken, dan moet u waarschijnlijk niet op zoekmachines vertrouwen algemeen doel. In dit geval zou ik adviseren om links uit te wisselen met je collega's die met soortgelijke problemen te maken hebben :) Laten we dus eerst de terminologie definiëren.

Er zijn twee soorten informatie bases gegevens over webpagina's: zoekmachines en directory's.

Zoekmachines: (spiders, crawlers) verkennen voortdurend het internet om hun documentdatabases aan te vullen. Meestal vergt dit geen enkele inspanning van de persoon. Een voorbeeld hiervan is de Altavista-zoekmachine.

Het ontwerp van elk document is behoorlijk belangrijk voor zoekmachines. Groot belang hebben titel, metatags en pagina-inhoud.

Catalogi: in tegenstelling tot zoekmachines wordt informatie op initiatief van een persoon in een catalogus ingevoerd. De toegevoegde pagina moet strikt gekoppeld zijn aan de categorieën die in de catalogus worden geaccepteerd. Een voorbeeld van een directory is Yahoo. Het ontwerp van de pagina's doet er niet toe. Hieronder zullen we het vooral hebben over zoekmachines.

Altavista

Het systeem werd in december 1995 geopend. Eigendom van DEC. Sinds 1996 werkt hij samen met Yahoo.

Opwinden zoeken

Het systeem werd eind 1995 gelanceerd en ontwikkelde zich snel. In juli 1996 werd Magellan gekocht, in september 1996 werd WebCrawler overgenomen. Beide gebruiken het echter afzonderlijk van elkaar. Misschien zullen ze in de toekomst samenwerken.

Er is ook een map in dit systeem - Excite Reviews. Het is een geluk om in deze map terecht te komen, aangezien niet alle sites daar zijn opgenomen. De informatie uit deze directory wordt echter niet standaard door de zoekmachine gebruikt, maar is wel mogelijk na het bekijken van de zoekresultaten.

HotBot

Gelanceerd in mei 1996. Eigendom van Wired. Gebaseerd op Berkeley Inktomi-zoekmachinetechnologie.

InfoZoek

Het werd iets eerder dan 1995 gelanceerd en is algemeen bekend, goed doorzoekbaar en gemakkelijk toegankelijk. Momenteel bevat "Ultrasmart/Ultraseek" ongeveer 50 miljoen URL's.

De standaardzoekoptie is Ultrasmart. In dit geval wordt er in beide mappen gezocht. Met de Ultraseek-optie worden zoekopdrachtresultaten geretourneerd zonder Extra informatie. Echt nieuw zoektechnologie Hiermee kunt u ook zoekopdrachten eenvoudiger maken en vele andere functies die u over InfoSeek kunt lezen. Er is een aparte map van de zoekmachine: InfoSeek Select.

Lycos

Een van de oudste zoekmachines, Lycos, is sinds ongeveer mei 1994 actief. Algemeen bekend en vaak gebruikt. Het bevat zoekmachine Point (actief sinds 1995) en de A2Z-catalogus (actief sinds februari 1996).

OpenTekst

Het OpenText-systeem verscheen iets eerder dan 1995. Sinds juni 1996 begon het samen te werken met Yahoo. Het verliest geleidelijk zijn positie en zal binnenkort niet langer een van de belangrijkste zoekmachines zijn.

WebCrawler

Geopend op 20 april 1994 als onderzoeksproject Universiteit van Washington. In maart 1995 werd het overgenomen door America Online. Er is een WebCrawler Select-directory.

Yahoo

Oudste Yahoo-directory werd begin 1994 gelanceerd. Algemeen bekend, veelgebruikt en meest gerespecteerd. In maart 1996 werd een nieuwe Yahoo-catalogus gelanceerd: Yahooligans voor kinderen. Er verschijnen steeds meer regionale en top Yahoo-gidsen.

Omdat Yahoo op abonnementen is gebaseerd, zijn sommige sites mogelijk niet inbegrepen. Als een Yahoo-zoekopdracht geen geschikte resultaten oplevert, kunnen gebruikers de zoekmachine gebruiken. Dit gebeurt heel eenvoudig. Wanneer er een zoekopdracht naar Yahoo wordt gedaan, stuurt de directory deze door naar een van de grote zoekmachines. De eerste links in de lijst met adressen die aan het verzoek voldoen, zijn adressen uit de directory, en dan zijn er adressen die zijn ontvangen van zoekmachines, met name van Altavista.

Kenmerken van zoekmachines

Elke zoekmachine heeft een aantal functies. Met deze kenmerken moet rekening worden gehouden bij het maken van uw pagina's.

Zoekmachinetype

‘Full-text’-zoekmachines indexeren elk woord op een webpagina, met uitzondering van slechts enkele stopwoorden. “Abstracte” zoekmachines maken van elke pagina een soort uittreksel.

Voor webmasters zijn full-text-engines nuttiger omdat elk woord dat op een webpagina wordt gevonden, wordt geanalyseerd om de relevantie ervan voor zoekopdrachten van gebruikers te bepalen. Bij abstracte zoekmachines kan het echter voorkomen dat pagina's beter worden geïndexeerd dan bij full-text zoekmachines. Dit kan afkomstig zijn van het extractiealgoritme, bijvoorbeeld door de frequentie waarmee dezelfde woorden op de pagina worden gebruikt.

Maat

De grootte van een zoekmachine wordt bepaald door het aantal geïndexeerde pagina's. Bijvoorbeeld in een zoekmachine met grote maat bijna al uw pagina's kunnen worden geïndexeerd, bij een gemiddeld volume kan uw server gedeeltelijk worden geïndexeerd en bij een laag volume worden uw pagina's mogelijk helemaal niet opgenomen in de directory's van zoekmachines.

Updateperiode

  • Sommige zoekmachines indexeren de pagina onmiddellijk op basis van het verzoek van de gebruiker en gaan vervolgens door met het indexeren van pagina's die nog niet zijn geïndexeerd
  • Anderen zullen eerder de populairste webpagina's 'crawlen' dan anderen

Documentindexdatum

Sommige zoekmachines tonen de datum waarop een bepaald document is geïndexeerd. Dit helpt de gebruiker te begrijpen hoe “vers” de link door de zoekmachine wordt geretourneerd. Anderen laten gebruikers er gewoon naar raden.

Ingezonden pagina's

Idealiter zouden zoekmachines elke pagina op elke server moeten vinden als gevolg van het volgen van links. Het echte beeld ziet er anders uit. Serverpagina's verschijnen veel eerder in de indexen van zoekmachines als ze rechtstreeks worden opgegeven (URL toevoegen).

Niet-ingezonden pagina's

Als er ten minste één serverpagina is opgegeven, zullen zoekmachines deze zeker vinden volgende pagina's via de aangeboden links. Dit kost echter meer tijd. Sommige machines indexeren onmiddellijk de gehele server, maar de meeste machines verlaten, nadat ze de opgegeven pagina in de index hebben opgenomen, het indexeren van de server voor de toekomst.

Indexeringsdiepte

Deze optie is alleen van toepassing op niet- gespecificeerde pagina's. Het laat zien hoeveel pagina's na de opgegeven pagina de zoekmachine zal indexeren.

De meeste grote machines hebben geen beperkingen op de indexeerdiepte. In de praktijk is dit niet helemaal waar. Hier volgen enkele redenen waarom niet alle pagina's worden geïndexeerd:

  • niet erg zorgvuldig gebruik van framestructuren (zonder het dupliceren van links in het controlebestand (frameset))
  • gebruik van imagemaps zonder ze te dupliceren met reguliere links

Frame-ondersteuning

Als zoekrobot weet niet hoe hij met frameconstructies moet werken, dan zullen bij het indexeren veel constructies met frames gemist worden.

ImageMap-ondersteuning

Dit is ongeveer hetzelfde probleem als bij serverframestructuren.

Met wachtwoord beveiligde mappen en servers

Sommige zoekmachines kunnen dergelijke servers indexeren als u ze een gebruikersnaam en wachtwoord opgeeft. Waarom is dit nodig? Zodat gebruikers kunnen zien wat er op uw server staat. Hierdoor weet u in ieder geval dat dergelijke informatie bestaat, en wellicht zullen zij zich dan op uw informatie abonneren.

Linkfrequentie

Grote zoekmachines kunnen de populariteit van een document bepalen aan de hand van hoe vaak er vanaf andere plekken op internet naar wordt gelinkt. Sommige machines ‘concluderen’ op basis van dergelijke gegevens of het wel of niet de moeite waard is om tijd te besteden aan het indexeren van zo’n document.

Leervermogen

Als de server regelmatig wordt bijgewerkt, zal de zoekmachine deze vaker opnieuw indexeren; als deze zelden wordt bijgewerkt, wordt deze minder vaak opnieuw geïndexeerd.

Indexatiecontrole

Laat zien welke tools kunnen worden gebruikt om een ​​bepaalde zoekmachine te beheren. Alle grote zoekmachines volgen de instructies van het robots.txt-bestand. Sommige ondersteunen ook controle met behulp van META-tags van de geïndexeerde documenten zelf.

Omleiden

Sommige sites leiden bezoekers door van de ene server naar de andere, en deze parameter geeft aan welke URL aan uw documenten wordt gekoppeld. Dit is belangrijk omdat als de zoekmachine de omleiding niet afhandelt, er problemen met niet-bestaande bestanden kunnen ontstaan.

Veilige woorden

Sommige zoekmachines nemen bepaalde woorden niet op in hun indexen of nemen deze woorden mogelijk niet op in zoekopdrachten van gebruikers. Deze woorden worden meestal beschouwd als voorzetsels of eenvoudigweg zeer vaak gebruikte woorden. Maar ze zijn niet opgenomen om ruimte op media te besparen. Altavista negeert bijvoorbeeld het woordweb voor zoekopdrachten als webontwikkelaar Er worden alleen links weergegeven voor het tweede woord. Er zijn manieren om dit te vermijden.

Impact op het algoritme voor relevantiebepaling

Zoekmachines zorgen ervoor dat ze de locatie en frequentie van herhaling gebruiken trefwoorden in het document. Echter, aanvullende mechanismen De toename in relevantie is per machine verschillend. Deze parameter laat precies zien welke mechanismen er voor een bepaalde machine bestaan.

Spamboetes

Alle grote zoekmachines houden er niet van als een site zijn ranking probeert te verhogen door zichzelf bijvoorbeeld meerdere keren aan te geven via URL toevoegen of hetzelfde trefwoord meerdere keren te noemen, etc. In de meeste gevallen zijn dergelijke acties (spammen, stapelen) gestraft, en de waardering van de site daalt daarentegen.

META-tagondersteuning

In theorie zouden alle zoekmachines bij het indexeren van pagina's rekening moeten houden met metadata, maar in de praktijk doen ze dit niet allemaal.

Titel

Deze parameter laat zien hoe zoekmachines linktitels voor de gebruiker genereren als reactie op zijn verzoek.

Beschrijving

Deze parameter laat zien hoe zoekmachines linkbeschrijvingen voor de gebruiker genereren als reactie op zijn verzoek.

URL-status controleren

Een zeer nuttige functie van een zoekmachine voor een webmaster is of het mogelijk is om te controleren hoe diep de server is geïndexeerd en of deze wel in de index van de zoekmachine staat.

Oude gegevens verwijderen

Een parameter die de acties van de webmaster bepaalt bij het sluiten van de server of het verplaatsen naar een ander adres. Er zijn twee mogelijke acties: verwijder simpelweg de oude inhoud en herschrijf het robots.txt-bestand.

  • verwijdering van inhoud: Wanneer een zoekmachine documenten opnieuw probeert te indexeren en deze niet vindt, worden de oude links in de index verwijderd. In dit geval hangt het allemaal af van de gegevensupdateperiode voor de zoekmachine.
  • robots.txt: wanneer een zoekmachine dit bestand opvraagt ​​en “ziet” dat de server volledig afgesloten is voor indexering, dan worden alle links naar bestanden op deze server uit de index verwijderd.

Goed slecht

Inleiding…………………………………………………………………………….2

1 Zoekmachines: samenstelling, functies, werkingsprincipe

1.1 Samenstelling van zoekmachines…………………………….………………3

1.2 Kenmerken van zoekmachines……………………………………..4

1.3 Principes van zoekmachines……………………………..4

2 Overzicht van de werking van zoekmachines

2.1 Buitenlandse zoekmachines: samenstelling en werkingsprincipes…………12

2.2 Russischtalige zoekmachines: samenstelling en werkingsprincipes….…..14

Conclusie………………………………………………………..………16

Referentielijst……………………………..………….17

Invoering

Zoekmachines zijn al lang een integraal onderdeel van het Russische internet geworden op verschillende manieren, onafhankelijk alle stadia van informatieverwerking bieden, vanaf de ontvangst ervan vanaf primaire bronknooppunten tot het bieden van de gebruiker de mogelijkheid om te zoeken, worden ze vaak genoemd autonome zoekmachines systemen .

Zoekmachines zijn nu enorme en complexe mechanismen die niet alleen een hulpmiddel voor het zoeken naar informatie vertegenwoordigen, maar ook verleidelijke gebieden voor het bedrijfsleven. Deze systemen kunnen verschillen in het principe van informatieselectie, dat tot op zekere hoogte aanwezig is in het algoritme van de automatische index scanprogramma, en in de gedragsregels voor catalogusmedewerkers die verantwoordelijk zijn voor de registratie. Meestal worden twee hoofdindicatoren vergeleken:

De ruimtelijke schaal waarop het IPS opereert is

En haar specialiteit.

De meeste gebruikers van zoekmachines hebben nooit nagedacht (of erover nagedacht, maar geen antwoord gevonden) over het werkingsprincipe van zoekmachines, over het schema voor het verwerken van gebruikersverzoeken, over waar deze systemen uit bestaan ​​en hoe ze functioneren. Zoekmachines kunnen worden vergeleken met een helpdesk, waarvan de agenten de bedrijven rondgaan en informatie verzamelen in een database. Wanneer u contact opneemt met de dienst, wordt informatie uit deze database opgehaald. De gegevens in de database raken verouderd, dus agenten werken deze regelmatig bij. Sommige bedrijven sturen zelf informatie over zichzelf en agenten hoeven niet naar hen toe te komen. Met andere woorden, helpdesk heeft twee functies: creatie en constante update gegevens in de database en het op verzoek van de opdrachtgever zoeken naar informatie in de database.

1 Zoekmachines: samenstelling, functies, werkingsprincipe

1.1 Samenstelling van zoekmachines

Een zoeksysteem is een software- en hardwarecomplex dat is ontworpen om op internet te zoeken en te reageren op een gebruikersverzoek dat is gespecificeerd in de vorm van een tekstzin ( zoekopdracht), met een lijst met links naar informatiebronnen, in volgorde van relevantie (afhankelijk van het verzoek). De grootste internationale zoekmachines: Google, Yahoo, MSN. Op het Russische internet zijn dit Yandex, Rambler, Aport.

Op dezelfde manier bestaat een zoekmachine uit twee delen: de zogenaamde robot (of spider), die de webservers doorzoekt en een zoekmachinedatabase aanmaakt.

De basis van de robot wordt grotendeels door hemzelf gevormd (de robot vindt zelf links naar nieuwe bronnen) en, in veel mindere mate, door eigenaren van bronnen die hun sites in de zoekmachine registreren. Naast de robot (netwerkagent, spider, worm) die de database vormt, is er een programma dat de beoordeling van de gevonden links bepaalt.

Het werkingsprincipe van een zoekmachine is dat deze in de interne catalogus (database) zoekt naar de trefwoorden die de gebruiker in het zoekveld opgeeft en een lijst met links produceert, gerangschikt op relevantie.

Opgemerkt moet worden dat tijdens het trainen specifiek verzoek gebruiker, het zoeksysteem werkt precies op interne bronnen (en gaat niet op reis via internet, zoals onervaren gebruikers vaak denken), en interne bronnen zijn uiteraard beperkt. Ondanks het feit dat de database van de zoekmachine voortdurend wordt bijgewerkt, kan de zoekmachine niet alle webdocumenten indexeren: hun aantal is te groot. Daarom is er altijd een mogelijkheid dat de bron die u zoekt eenvoudigweg onbekend is bij een specifieke zoekmachine.

1.2 Kenmerken van zoekmachines

In het werk wordt het zoekproces in vier fasen gepresenteerd: formulering (vindt plaats voordat de zoektocht begint); actie (start zoeken); overzicht van resultaten (het resultaat dat de gebruiker ziet na het zoeken); en verfijning (na het bekijken van de resultaten en voordat u terugkeert naar de zoekopdracht met een andere formulering van dezelfde behoefte). Een handiger niet-lineair informatiezoekschema bestaat uit de volgende fasen:

Het vastleggen van informatiebehoeften in natuurlijke taal;

Het selecteren van het noodzakelijke zoekdiensten netwerken en nauwkeurige formalisering van het vastleggen van informatiebehoeften in specifieke talen voor het ophalen van informatie (IRL);

Uitvoering van aangemaakte queries;

Voorverwerking en selectie van ontvangen lijsten met links naar documenten;

Contact opnemen met geselecteerde adressen voor de benodigde documenten;

Bekijk een voorbeeld van de inhoud van gevonden documenten;

Relevante documenten bewaren voor latere studie;

Het extraheren van links uit relevante documenten om de zoekopdracht uit te breiden;

Het bestuderen van de volledige reeks opgeslagen documenten;

Als informatiebehoefte niet helemaal tevreden bent, ga dan terug naar de eerste fase.

1.3 Hoe zoekmachines werken

Elke taak zoekmachine– mensen de informatie bieden waarnaar ze op zoek zijn. Leer mensen om de ‘juiste’ verzoeken te doen, d.w.z. zoekopdrachten die voldoen aan de werkingsprincipes van zoekmachines zijn onmogelijk. Daarom creëren ontwikkelaars algoritmen en werkingsprincipes voor zoekmachines waarmee gebruikers precies de informatie kunnen vinden waarnaar ze op zoek zijn. Dit betekent dat de zoekmachine op dezelfde manier moet ‘denken’ als de gebruiker denkt bij het zoeken naar informatie.

De meeste zoekmachines werken volgens het principe van pre-indexering. De database van de meeste zoekmachines werkt volgens hetzelfde principe.

Er is nog een ander constructieprincipe. Direct zoeken. Het bestaat uit het pagina voor pagina omslaan van het boek op zoek naar een trefwoord. Deze methode is natuurlijk veel minder effectief.

In de versie met een omgekeerde index worden zoekmachines geconfronteerd met het probleem van de bestandsgrootte. In de regel zijn ze aanzienlijk groot. Dit probleem wordt meestal op twee manieren opgelost. De eerste is dat al het onnodige uit de bestanden wordt verwijderd en dat alleen datgene overblijft dat echt nodig is voor de zoekopdracht. De tweede methode is dat voor elke positie niet een absoluut adres wordt onthouden, maar een relatief adres, d.w.z. adresverschil tussen de huidige en vorige posities.

De twee belangrijkste processen die door de zoekmachine worden uitgevoerd, zijn dus het indexeren van sites, pagina's en zoeken. Over het algemeen veroorzaakt het indexeringsproces geen problemen voor zoekmachines. Het probleem is het verwerken van een miljoen verzoeken per dag. Het is verbonden met grote volumes informatie die wordt verwerkt door grote computercomplexen. De belangrijkste factor die het aantal servers bepaalt dat aan de zoekopdracht deelneemt, is de zoekbelasting. Dit verklaart enkele van de eigenaardigheden die zich voordoen bij het zoeken naar informatie.

Zoekmachines bestaan ​​uit vijf afzonderlijke softwarecomponenten:

spin: een browserachtig programma dat webpagina's downloadt.

crawler: een “reizende” spin die automatisch alle links op een pagina volgt.

indexeerder: een ‘blind’ programma dat webpagina’s analyseert die door spiders zijn gedownload.

de databank: opslag van gedownloade en verwerkte pagina's.

zoekmachine-resultatenengine (resultatenleveringssysteem): haalt zoekresultaten uit de database.

Spin: Een spider is een programma dat webpagina's downloadt. Het werkt net als uw browser wanneer u verbinding maakt met een website en een pagina laadt. De spin heeft nr visuele componenten. Dezelfde actie (downloaden) kunt u waarnemen wanneer u een bepaalde pagina bekijkt en wanneer u in uw browser “HTML-code bekijken” selecteert.

Crawler: Net zoals een spin pagina's downloadt, kan hij de pagina strippen en alle links vinden. Het is zijn taak om te bepalen waar de spin vervolgens naartoe moet gaan, op basis van links of op basis van een vooraf bepaalde lijst met adressen.

Indexeerder: De indexer ontleedt de pagina in de verschillende delen en analyseert deze. Elementen zoals paginatitels, koppen, links, tekst, structurele elementen, BOLD, ITALIC-elementen en andere stijldelen van de pagina worden geïsoleerd en geanalyseerd.

Database: De database is de opslagplaats van alle gegevens die de zoekmachine downloadt en analyseert. Hiervoor zijn vaak enorme middelen nodig.

Zoekopdracht Motor Resultaten: Het resultatensysteem is verantwoordelijk voor het rangschikken van pagina's. Het beslist welke pagina's voldoen aan het verzoek van de gebruiker en in welke volgorde ze moeten worden gesorteerd. Dit gebeurt volgens de ranking-algoritmen van zoekmachines. Deze informatie is voor ons het meest waardevol en interessant - het is met dit onderdeel van de zoekmachine dat de optimalisatie samenwerkt en probeert de positie van de site in de zoekresultaten te verbeteren, dus in de toekomst zullen we in detail alle factoren bekijken die van invloed zijn op de rangschikking van de resultaten.

De zoekindex werkt in drie fasen, waarvan de eerste twee voorbereidend en onzichtbaar voor de gebruiker zijn. Ten eerste verzamelt de zoekindex informatie uit Wereld Breed Web . Hiervoor gebruiken ze speciale programma's, vergelijkbare browsers. Ze kunnen een bepaalde webpagina naar een zoekindexserver kopiëren, deze scannen, alle hyperlinks vinden waarop die bronnen staan, opnieuw zoeken naar de hyperlinks die ze bevatten, enz. Soortgelijke programma's genaamd wormen, spinnen, rupsen, crawlers, spinnen en andere soortgelijke namen. Elke zoekindex gebruikt hiervoor zijn eigen index. uniek programma, die hij vaak zelf ontwikkelt. Veel moderne zoekmachines zijn ontstaan ​​uit experimentele projecten die verband houden met de ontwikkeling en implementatie van automatische programma's die het netwerk monitoren. Theoretisch gezien met een succesvolle deelname spin kan de hele webruimte in één duik doorzoeken, maar dit kost veel tijd, en hij moet nog steeds periodiek terugkeren naar eerder bezochte bronnen om de daar optredende veranderingen te volgen en "dode" links te identificeren, dat wil zeggen links die hebben hun relevantie verloren.

Zoekmachines ( Zoekmachine)

Met zoekmachines kunt u WWW-documenten vinden die betrekking hebben op bepaalde onderwerpen of zijn voorzien van trefwoorden of combinaties daarvan. Er worden twee zoekmethoden gebruikt op zoekservers:

· Volgens de hiërarchie van concepten;

· Op trefwoorden.

Zoekservers worden automatisch of handmatig gevuld. De zoekserver heeft meestal links naar de rest zoekservers en stuurt op verzoek van de gebruiker een zoekverzoek.

Er zijn twee soorten zoekmachines.

1. "Full-text"-zoekmachines die elk woord op een webpagina indexeren, met uitzondering van stopwoorden.

2. "Abstracte" zoekmachines die van elke pagina een samenvatting maken.

Voor webmasters zijn full-text-engines nuttiger omdat elk woord dat op een webpagina wordt gevonden, wordt geanalyseerd om de relevantie ervan voor zoekopdrachten van gebruikers te bepalen. Abstracte zoekmachines kunnen pagina's echter beter indexeren dan pagina's met volledige tekst. Dit hangt af van het algoritme voor het extraheren van informatie, bijvoorbeeld door de frequentie van het gebruik van dezelfde woorden.

Belangrijkste kenmerken van zoekmachines.

1.De grootte van een zoekmachine wordt bepaald door het aantal geïndexeerde pagina's. Op elk moment kunnen de links die worden aangeboden als reactie op gebruikersverzoeken echter van verschillende leeftijd zijn. Redenen waarom dit gebeurt:

· sommige zoekmachines indexeren de pagina onmiddellijk op verzoek van de gebruiker, en gaan vervolgens door met het indexeren van pagina's die nog niet zijn geïndexeerd.

· anderen indexeren vaak het meest populaire pagina's netwerken.

2.Indexatiedatum. Sommige zoekmachines tonen de datum waarop een document is geïndexeerd. Hierdoor kan de gebruiker bepalen wanneer een document online is verschenen.

3. Indexeringsdiepte laat zien hoeveel pagina's na de opgegeven pagina de zoekmachine zal indexeren. De meeste machines hebben geen beperkingen op de indexeerdiepte. Redenen waarom niet alle pagina's geïndexeerd kunnen worden:

· Niet correct gebruik frameconstructies.

· gebruik van een sitemap zonder reguliere links te dupliceren

4.Werken met kaders. Als een zoekrobot niet weet hoe hij met frameconstructies moet werken, worden bij het indexeren veel constructies met frames gemist.

5. Frequentie van links. Grote zoekmachines kunnen de populariteit van een document bepalen aan de hand van hoe vaak er naar wordt gelinkt. Sommige machines ‘concluderen’ op basis van dergelijke gegevens of het de moeite waard is om een ​​document te indexeren.

6. Updatefrequentie van de server. Als de server regelmatig wordt bijgewerkt, zal de zoekmachine deze vaker opnieuw indexeren.

7. Indexatiecontrole. Laat zien welke tools u kunt gebruiken om de zoekmachine te beheren.

8. Omleiding. Sommige sites leiden bezoekers door van de ene server naar de andere, en deze optie laat zien hoe dit verband houdt met de gevonden documenten.

9. Stop met woorden. Sommige zoekmachines nemen bepaalde woorden niet op in hun indexen of nemen deze woorden mogelijk niet op in zoekopdrachten van gebruikers. Deze woorden worden meestal beschouwd als voorzetsels of veelgebruikte woorden.

10. Spamboetes. Mogelijkheid om spam te blokkeren.

11.Oude gegevens verwijderen. Een parameter die de acties van de webmaster bepaalt bij het sluiten van de server of het verplaatsen naar een ander adres.

Voorbeelden van zoekmachines.

1. Altavista. Het systeem werd in december 1995 geopend. Eigendom van DEC. Sinds 1996 werkt hij samen met Yahoo. AltaVista is beste optie voor aangepast zoeken . Resultaten sorteren op categorie Dit gebeurt niet en u moet de verstrekte informatie handmatig bekijken. AltaVista biedt geen enkele manier om lijsten met actieve sites, nieuws of andere zoekmogelijkheden voor inhoud op te halen.

2. Zoekopdracht opwinden. Gelanceerd eind 1995. In september 1996 - overgenomen door WebCrawler. Deze eenheid beschikt over een krachtige zoekbontlaag, mogelijkheid tot automatische individuele instellingenverstrekte informatie, evenals samengestelde kwalificatiesbeschrijvingen van meerdere knooppunten door gekwalificeerd personeel. Opwinden verschilt daarin van andere zoekknooppuntenHiermee kunt u nieuwsdiensten zoeken en recensies publiceren Webpagina's. De zoekmachine maakt gebruik van toolsstandaard zoeken op trefwoorden en heuristiekzoekmethoden voor inhoud. Dankzij deze combinatieu kunt relevante pagina's vinden Web, als ze niet bevatten opgegeven door de gebruiker sleutel woorden Nadeel van Excite is een enigszins chaotische interface.

3. HotBot. Gelanceerd in mei 1996. Eigendom van Wired. Gebaseerd op Berkeley Inktomi-zoekmachinetechnologie. HotBot is een database met documenten die zijn geïndexeerd door hele tekst en een van de meest uitgebreide zoekmachines op internet. Het is een manier om te zoeken op logische voorwaarden en om de zoekopdracht te beperken tot welk gebied dan ook Website help de gebruiker te vinden Nodige informatie, het overbodige uitbannen. HotBot biedt de mogelijkheid om de gewenste zoekparameters uit vervolgkeuzelijsten te selecteren.

4.InfoZoeken. Gelanceerd vóór 1995, gemakkelijk toegankelijk. Bevat momenteel ongeveer 50 miljoen URL's. Infoseek heeft een goed ontworpen interface en is uitstekend zoekhulpmiddelen. De meeste antwoorden op vragen gaan vergezeld van links “ gerelateerde onderwerpen”, en na elk antwoord staan ​​links naar “soortgelijke pagina’s”. Zoekmachinedatabase met pagina's geïndexeerd op volledige tekst. Antwoorden worden gerangschikt op basis van twee indicatoren: de frequentie waarmee het woord of de zinsdelen op de pagina voorkomen tsakh, evenals de locatie van woorden of zinsdelen op de pagina's. Er is een webdirectory, onderverdeeld in 12 categorieën met honderden subcategorieën waarin kan worden gezocht. Elke cataloguspagina bevat een lijst met re aanbevolen knooppunten.

5. Lycos. In bedrijf sinds mei 1994. Algemeen bekend en gebruikt. Het bevat een map met een groot aantal URL's. en de Point-zoekmachine met technologie statistische analyse pagina-inhoud, in tegenstelling tot volledige tekstindexering. Lycos bevat nieuws, siterecensies, links naar populaire sites, stadsplattegronden en hulpmiddelen voor het vinden van adressen en afbeeldingen uitingen en geluids- en videoclips. Lycos rangschikt de antwoorden op mate van correlatiehet voldoen aan een verzoek op basis van verschillende criteria, bijvoorbeeld het aantallu zoektermen, te vinden in de annotatie bij het documentment, interval tussenwoorden erin doen specifieke zin document, locatietermen in het document.

6. WebCrawler. Geopend op 20 april 1994 als een project van de Universiteit van Washington. WebCrawler biedt kansen syntaxis voor het specificeren van zoekopdrachten, evenals een grote selectie knooppuntannotaties met een eenvoudige interface.


Na elk antwoord geeft WebCrawler een klein pictogram weer met een geschatte beoordeling of aan het verzoek is voldaan. Comee geeft ook een pagina weer met een korte samenvatting voor elk antwoord, de volledige URL, een exacte matchscore en ook het gebruik ervan dit antwoord in de voorbeeldquery als trefwoorden.Grafische interface voor het configureren van queries in Er is geen webcrawler. N is niet toegestaanhet gebruik van universele symbolen is ook onmogelijkwijs gewichten toe aan trefwoorden.Er is geen manier om het zoekveld te beperkeneen bepaald gebied.

7. Yahoo. De oudste directory van Yahoo werd begin 1994 gelanceerd. Algemeen bekend, veelgebruikt en meest gerespecteerd. In maart 1996 werd de Yahooligans-catalogus voor kinderen gelanceerd. Regionale en topmappen van Yahoo verschijnen. Yahoo is gebaseerd op gebruikersabonnementen. Het kan als startpunt dienen voor elke zoekopdracht op internet vanwege het classificatiesysteem de gebruiker zal vinden een site met overzichtelijke informatie. Webinhoud valt in 14 algemene categorieën, vermeld op Startpagina Yahoo!. Afhankelijk van de specifieke kenmerken van het verzoek van de gebruiker, is het mogelijk om met deze categorieën te werken om kennis te maken met subcategorieën en lijsten met knooppunten, of om te zoeken specifieke woorden en termen in de hele database. De gebruiker kan de zoekopdracht ook beperken binnen elke sectie of subsectie van Yahoo!. Vanwege het feit dat de classificatie van knooppunten door mensen wordt uitgevoerd, en niet via de computer, de kwaliteit van de links is meestal erg hoog. Het verfijnen van de zoekopdracht in geval van een mislukking - moeilijke opdracht. Sluit je aan bij Yahoo ! zoekmachine inbegrepen AltaVista, dus als uw zoekopdracht op Yahoo! het gebeurt automatisch herhaling met behulp van een zoekmachine AltaVista . De resultaten worden vervolgens verzonden naar Yahoo!. Yahoo! biedt de mogelijkheid om zoekopdrachten naar Usenet en Fourl 1 te sturen om adressen te achterhalen E-mail.

Naar Russisch zoekmachines verhalen:

1. Rambler Dit is een Russischtalige zoekmachine. De secties op de Rambler-startpagina hebben betrekking op Russischtalige webbronnen. Er is een informatieclassificator. Een handige mogelijkheid Het werk is om voor elk een lijst te geven met de meest bezochte knooppunten het voorgestelde onderwerp.

2. Zoeken naar een haven. Apoort behoort tot de toonaangevende gecertificeerde zoekmachines Microsoft zoals lokale zoekmachinessystemen voor de Russische versie Microsoft Internet Explorer. Een van de voordelen van Aport is Engels-Russisch en Russisch-Engelse vertaling V online mode zoekopdrachten en zoekopdrachten naar resultaten, waardoor u kunt zoeken in Russische internetbronnen , zelfs zonder Russisch te kennen. Bovendien je kunt zoeken naar informatie gebruik van uitdrukkingen, zelfs voor zinnen.Een van de belangrijkste eigenschappen van het Aport-zoeksysteem is dat u dat kuntverdeel het volgende:

Vertaling van zoekopdrachten en zoekresultaten van het Russisch naar het EngelsChinese taal en omgekeerd;

Automatische controle spelfouten in het verzoek;

Informatieve weergave van zoekresultaten voor gevonden sites;

Mogelijkheid om in elke grammaticale vorm te zoeken;


geavanceerde zoektaal voor professionals contante gebruikers.

Andere zoekeigenschappen zijn onder meer:ondersteuning van vijf hoofdcodepagina's (verschillende besturingssystemen).systemen) voor de Russische taal, zoektechnologie met behulp vaner zijn geen beperkingen URL en datum van documenten, zoekimplementatiedoor koppen, commentaren en handtekeningennaar afbeeldingen, enz., zoekparameters opslaan en definiëren aantal eerdere gebruikersverzoeken, samenvoegen kopieën van het document die zich op verschillende servers bevinden.

3.Lijst. ru ( http://www.list.ru) Bij de implementatie heeft deze server er veelgemeen met het Engelstalige systeem Yahoo!. Op Startpagina server bevat links naar de meest populaire zoekcategorieën.


De lijst met links naar de hoofdcategorieën van de catalogus bevat centraal deel. Zoeken in de catalogus is zo geïmplementeerd dat het resultaat van een zoekopdracht zowel op individuele sites als in categorieën kan worden gevonden. Als de zoekopdracht succesvol is, worden de URL, titel, beschrijving en trefwoorden weergegeven. Acceptabel gebruik Yandex-querytaal. METlink "Structuurmap" wordt geopend apart raam volledige kata-categorieloggen. De mogelijkheid om van de rubricator naar elke geselecteerde subcategorie te gaan is geïmplementeerd. Meer gedetailleerde thematische indelingde huidige sectie wordt weergegeven door een lijst met links. De catalogus is als volgt opgebouwd zodanig dat alle sites erop staan lagere niveaus beroerterondleidingen worden ook in secties gepresenteerd.De weergegeven lijst met bronnen is alfabetisch geordend, maar u kunt ervoor kiezen om te sorteren op: op tijd menu toevoegen, door overgang, door volgorde van toevoeging aan de catalogus, volgenspopulariteit onder catalogusbezoekers.

4. Yandex. Softwareproducten De Yandex-serie vertegenwoordigt een reeks hulpmiddelen voor het indexeren van volledige tekst en het zoeken naar tekstgegevens, waarbij rekening wordt gehouden met de morfologie van de Russische taal. Yandex bevat modules voor morfologische analyse en synthese, indexering en zoeken, evenals een reeks hulpmodules, zoals een documentanalysator, opmaaktalen, formaatconverters en een spider.

Morfologische analyse- en synthese-algoritmen op basis van het basiswoordenboek zijn in staat woorden te normaliseren, dat wil zeggen hun oorspronkelijke vorm te vinden, en ook hypothesen op te bouwen voor woorden die niet in het basiswoordenboek voorkomen. Met het full-text indexeringssysteem kunt u een compacte index maken en snel zoeken op basis van logische operatoren.

Yandex is ontworpen om lokaal en intern met teksten te werken globaal netwerk, en kan ook als module op andere systemen worden aangesloten.

Hoofdelement moderne internet- Dit zoekmachines of zoekmachines, Yandex, Rambler, Google en anderen. Er is een zee op internet diverse informatie, en het zijn zoekmachines die de gebruiker helpen snel de benodigde informatie te vinden.

In leerboeken of wetenschappelijke boeken staat een lijst met belangrijke termen - alfabetisch onderwerpindex of inhoudsopgave. In de index staan ​​de belangrijkste termen uit dit boek (trefwoorden) en de paginanummers waarop ze voorkomen.

Het werk van zoekmachines is gebaseerd op een soortgelijk principe. Wanneer een gebruiker een zoekterm (trefwoord) invoert, wordt hij of zij doorverwezen naar een internetonderwerpenindex of -index: een lijst met alle internettrefwoorden, samen met de pagina's waarop ze verschijnen.

Zoekmachine is een programma dat een internetonderwerpenindex (index) samenstelt en opslaat, en daarin ook specifieke trefwoorden vindt.

Fasen bij het samenstellen van een index en het doorzoeken ervan:

Het verzamelen van webpagina-adressen op internet

Een eerste lijst met websitepagina-adressen wordt in de zoekmachine geladen. Dan de zoekmachine, of beter gezegd de zoekmachine bestanddeelzoekrobot, verzamelt alles hypertekstlinks met elke gegeven pagina's naar andere pagina's en voegt alle adressen in de links toe aan de oorspronkelijke lijst met adressen. Zo groeit de initiële lijst snel.

Pagina's leegpompen

Een zoekrobot of spider doorzoekt pagina's, downloadt er tekstmateriaal van, slaat dit op de schijven van zijn computers op en draagt ​​het vervolgens voor indexering over naar de indexeringsrobot.

Indexcompilatie

Om te beginnen wordt de tekst van de geïndexeerde pagina ontdaan van alle niet-tekstuele elementen (afbeeldingen, opmaak HTML-taal enz.). Vervolgens worden de uit de tekst geselecteerde woorden teruggebracht tot hun stammen of nominatief naamval. De verzamelde woordstammen zijn gerangschikt in alfabetische volgorde wijzend op paginanummers, waar de basis wordt genomen, en aantallen voorvallen, waar was de basis op deze pagina.

Zoekopdracht

Wanneer een gebruiker een woord in een zoekreeks invoert, heeft de zoekmachine toegang tot de index. Vindt alle paginanummers gerelateerd aan gegeven woord en toont de gebruiker het zoekresultaat (lijst met pagina's).

Kwaliteit van zoekmachines

Een synoniem voor zoekkwaliteit is haar relevantie. In relatie tot zoekmachines het woord relevant(gerelateerd aan de zaak) is bijna de hoofdterm. De relevantie van de zoekresultaten van een zoekmachine betekent dat die resultaten pagina's bevatten die relevant zijn voor de betekenis van de zoekopdracht. Relevantie of zoekkwaliteit is een behoorlijk complex iets.

Nog een belangrijk criterium de kwaliteit van de zoekmachine is nauwkeurigheid.

Nauwkeurigheid is een maatstaf voor de kwaliteit van de geproduceerde resultaten; deze wordt berekend als de kwantiteit relevante pagina's in het totale aantal pagina's dat in de zoekresultaten wordt geretourneerd. Niet alleen de nauwkeurigheid van de zoekopdracht is echter belangrijk, maar ook variërend Zoekresultaten.

Variërend– rangschikking van zoekresultaten op relevantie.

Het is onmogelijk om te zeggen welke zoekmachine beter is. Voor de gebruiker betere zoekmachine, wat de meest relevante en nauwkeurige resultaten oplevert. Voor de site-eigenaar is een goede machine er een waarin de site duidelijk zichtbaar is en die grootste aantal bezoekers targeten.