Wat evalueerden de eerste zoekmachines? Zoekmachines en mappen

Zoekmachines(Zoekmachine)

Met zoekmachines kunt u WWW-documenten vinden die betrekking hebben op bepaalde onderwerpen of zijn voorzien van trefwoorden of combinaties daarvan. Er worden twee zoekmethoden gebruikt op zoekservers:

· Volgens de hiërarchie van concepten;

· Op trefwoorden.

Zoekservers worden automatisch of handmatig gevuld. De zoekserver heeft meestal links naar de rest zoekservers en stuurt op verzoek van de gebruiker een zoekverzoek.

Er zijn twee soorten zoekmachines.

1. "Full-text"-zoekmachines die elk woord op een webpagina indexeren, met uitzondering van stopwoorden.

2. "Abstracte" zoekmachines die van elke pagina een samenvatting maken.

Voor webmasters zijn full-text-engines nuttiger omdat elk woord dat op een webpagina wordt gevonden, wordt geanalyseerd om de relevantie ervan voor zoekopdrachten van gebruikers te bepalen. Abstracte zoekmachines kunnen pagina's echter beter indexeren dan pagina's met volledige tekst. Dit hangt af van het algoritme voor het extraheren van informatie, bijvoorbeeld door de frequentie van het gebruik van dezelfde woorden.

Belangrijkste kenmerken van zoekmachines.

1.De grootte van een zoekmachine wordt bepaald door het aantal geïndexeerde pagina's. Op elk moment kunnen de links die worden aangeboden als reactie op gebruikersverzoeken echter van verschillende leeftijd zijn. Redenen waarom dit gebeurt:

· sommige zoekmachines indexeren de pagina onmiddellijk op verzoek van de gebruiker, en gaan vervolgens door met het indexeren van pagina's die nog niet zijn geïndexeerd.

· anderen indexeren vaak het meest populaire pagina's netwerken.

2.Indexatiedatum. Sommige zoekmachines tonen de datum waarop een document is geïndexeerd. Hierdoor kan de gebruiker bepalen wanneer een document online is verschenen.

3. Indexeringsdiepte laat zien hoeveel pagina's na de opgegeven pagina worden geïndexeerd zoeksysteem. De meeste machines hebben geen beperkingen op de indexeerdiepte. Redenen waarom niet alle pagina's geïndexeerd kunnen worden:

· Niet correct gebruik frameconstructies.

· gebruik van een sitemap zonder reguliere links te dupliceren

4.Werken met kaders. Als zoekrobot weet niet hoe hij met frameconstructies moet werken, dan zullen bij het indexeren veel constructies met frames gemist worden.

5. Frequentie van links. Grote zoekmachines kunnen de populariteit van een document bepalen aan de hand van hoe vaak er naar wordt gelinkt. Sommige machines ‘concluderen’ op basis van dergelijke gegevens of het de moeite waard is om een document te indexeren.

6. Updatefrequentie van de server. Als de server regelmatig wordt bijgewerkt, zal de zoekmachine deze vaker opnieuw indexeren.

7. Indexatiecontrole. Laat zien welke tools u kunt gebruiken om de zoekmachine te beheren.

8. Omleiding. Sommige sites leiden bezoekers door van de ene server naar de andere, en deze optie laat zien hoe dit verband houdt met de gevonden documenten.

9. Stop met woorden. Sommige zoekmachines nemen bepaalde woorden niet op in hun indexen of nemen deze woorden mogelijk niet op in zoekopdrachten van gebruikers. Deze woorden worden meestal beschouwd als voorzetsels of veelgebruikte woorden.

10. Spamboetes. Mogelijkheid om spam te blokkeren.

11.Oude gegevens verwijderen. Een parameter die de acties van de webmaster bepaalt bij het sluiten van de server of het verplaatsen naar een ander adres.

Voorbeelden van zoekmachines.

1. Altavista. Het systeem werd in december 1995 geopend. Eigendom van DEC. Sinds 1996 werkt hij samen met Yahoo. AltaVista is beste optie voor aangepast zoeken . Resultaten sorteren op categorie Dit gebeurt niet en u moet de verstrekte informatie handmatig bekijken. AltaVista biedt geen enkele manier om lijsten met actieve sites, nieuws of andere zoekmogelijkheden voor inhoud op te halen.

2. Zoekopdracht opwinden. Gelanceerd eind 1995. In september 1996 - overgenomen door WebCrawler. Deze eenheid beschikt over een krachtige zoekbontlaag, mogelijkheid tot automatische individuele instellingenverstrekte informatie, evenals samengestelde kwalificatiesbeschrijvingen van meerdere knooppunten door gekwalificeerd personeel. Opwinden verschilt daarin van andere zoekknooppuntenHiermee kunt u nieuwsdiensten zoeken en recensies publiceren Webpagina's. De zoekmachine maakt gebruik van toolsstandaard zoeken op trefwoorden en heuristiekzoekmethoden voor inhoud. Dankzij deze combinatieu kunt relevante pagina's vinden Web, als ze geen door de gebruiker opgegeven sleutel bevatten woorden Nadeel van Excite is een enigszins chaotische interface.

3. HotBot. Gelanceerd in mei 1996. Eigendom van Wired. Gebaseerd op Berkeley Inktomi-zoekmachinetechnologie. HotBot is een database met documenten die zijn geïndexeerd door hele tekst en een van de meest uitgebreide zoekmachines op internet. De Booleaanse zoekmogelijkheden en de mogelijkheid om zoekopdrachten te beperken tot elk gebied of elke website helpen de gebruiker bij het vinden Nodige informatie, het overbodige uitbannen. HotBot biedt de mogelijkheid om de gewenste zoekparameters uit vervolgkeuzelijsten te selecteren.

4.InfoZoeken. Gelanceerd vóór 1995, gemakkelijk toegankelijk. Bevat momenteel ongeveer 50 miljoen URL's. Infoseek heeft een goed ontworpen interface en is uitstekend zoekhulpmiddelen. De meeste antwoorden op vragen gaan vergezeld van links naar 'gerelateerde onderwerpen', en elk antwoord wordt gevolgd door links naar 'soortgelijke pagina's'. Zoekmachinedatabase met pagina's geïndexeerd op volledige tekst. Antwoorden worden gerangschikt op basis van twee indicatoren: de frequentie waarmee het woord of de zinsdelen op de pagina voorkomen tsakh, evenals de positie van woorden of zinsdelen op de pagina's. Er is een webdirectory, onderverdeeld in 12 categorieën met honderden subcategorieën waarin kan worden gezocht. Elke cataloguspagina bevat een lijst met re aanbevolen knooppunten.

5. Lycos. In bedrijf sinds mei 1994. Algemeen bekend en gebruikt. Het bevat een map met een groot aantal URL's. en de Point-zoekmachine met technologie statistische analyse pagina-inhoud, in tegenstelling tot volledige tekstindexering. Lycos bevat nieuws, siterecensies, links naar populaire sites, stadsplattegronden en hulpmiddelen voor het vinden van adressen en afbeeldingen uitingen en geluids- en videoclips. Lycos rangschikt de antwoorden op mate van correlatiehet voldoen aan een verzoek op basis van verschillende criteria, bijvoorbeeld het aantallu zoektermen, te vinden in de annotatie bij het documentment, interval tussenin woorden in een specifieke zin van het document, locatietermen in het document.

6. WebCrawler. Geopend op 20 april 1994 als een project van de Universiteit van Washington. WebCrawler biedt kansen syntaxis voor het specificeren van zoekopdrachten, evenals een grote selectie knooppuntannotaties met een eenvoudige interface.

Na elk antwoord geeft WebCrawler een klein pictogram weer met een geschatte beoordeling of aan het verzoek is voldaan. Comee geeft ook een pagina weer met een korte samenvatting voor elk antwoord, de volledige URL, een exacte matchscore en ook het gebruik ervan dit antwoord in de voorbeeldquery als trefwoorden.Grafische interface voor het configureren van queries in Er is geen webcrawler. N is niet toegestaanhet gebruik van universele symbolen is ook onmogelijkwijs gewichten toe aan trefwoorden.Er is geen manier om het zoekveld te beperkeneen bepaald gebied.

7. Yahoo. Oudste Yahoo-directory werd begin 1994 gelanceerd. Algemeen bekend, veelgebruikt en meest gerespecteerd. In maart 1996 werd de Yahooligans-catalogus voor kinderen gelanceerd. Regionale en topmappen van Yahoo verschijnen. Yahoo is gebaseerd op gebruikersabonnementen. Het kan als startpunt dienen voor elke zoekopdracht op internet vanwege het classificatiesysteem de gebruiker zal vinden een site met overzichtelijke informatie. Webinhoud valt in 14 algemene categorieën, vermeld op Startpagina Yahoo!. Afhankelijk van de specifieke kenmerken van het verzoek van de gebruiker, is het mogelijk om met deze categorieën te werken om kennis te maken met subcategorieën en lijsten met knooppunten, of om te zoeken specifieke woorden en termen in de hele database. De gebruiker kan de zoekopdracht ook beperken binnen elke sectie of subsectie van Yahoo!. Vanwege het feit dat de classificatie van knooppunten door mensen wordt uitgevoerd, en niet via de computer, de kwaliteit van de links is meestal erg hoog. Het verfijnen van de zoektocht in geval van een mislukking is echter een moeilijke taak. Sluit je aan bij Yahoo ! zoekmachine inbegrepen AltaVista, dus als uw zoekopdracht op Yahoo! het gebeurt automatisch herhaling met behulp van een zoekmachine AltaVista . De resultaten worden vervolgens verzonden naar Yahoo!. Yahoo! biedt de mogelijkheid om zoekopdrachten naar Usenet en Fourl 1 te sturen om adressen te achterhalen E-mail.

Russische zoekmachines zijn onder meer:

1. Rambler Dit is een Russischtalige zoekmachine. De secties op de Rambler-startpagina hebben betrekking op Russischtalige webbronnen. Er is een informatieclassificator. Een handige mogelijkheid Het werk is om voor elk een lijst te geven met de meest bezochte knooppunten het voorgestelde onderwerp.

2. Zoeken naar een haven. Apoort behoort tot de toonaangevende gecertificeerde zoekmachines Microsoft zoals lokale zoekmachinessystemen voor de Russische versie Microsoft Internet Explorer. Een van de voordelen van Aport is Engels-Russisch en Russisch-Engelse vertaling in de modus van online zoekopdrachten en zoekopdrachten naar resultaten, waardoor u kunt zoeken in Russische internetbronnen , zelfs zonder Russisch te kennen. Bovendien je kunt zoeken naar informatie gebruik van uitdrukkingen, zelfs voor zinnen.Een van de belangrijkste eigenschappen van het Aport-zoeksysteem is dat u dat kuntverdeel het volgende:

Vertaling van zoekopdrachten en zoekresultaten van het Russisch naar het EngelsChinese taal en omgekeerd;

Automatische controle spelfouten in het verzoek;

Informatieve weergave van zoekresultaten voor gevonden sites;

Mogelijkheid om in elke grammaticale vorm te zoeken;

geavanceerde zoektaal voor professionals contante gebruikers.

Andere zoekeigenschappen zijn onder meer:ondersteuning van vijf hoofdcodepagina's (verschillende besturingssystemen).systemen) voor de Russische taal, zoektechnologie met behulp vaner zijn geen beperkingen URL en datum van documenten, zoekimplementatiedoor koppen, commentaren en handtekeningennaar afbeeldingen, enz., zoekparameters opslaan en definiëren aantal eerdere gebruikersverzoeken, samenvoegen kopieën van het document die zich op verschillende servers bevinden.

3.Lijst. ru ( http://www.list.ru) Bij de implementatie heeft deze server er veelgemeen met het Engelstalige systeem Yahoo!. Op Startpagina server bevat links naar de meest populaire zoekcategorieën.

De lijst met links naar de hoofdcategorieën van de catalogus bevat centraal deel. Zoeken in de catalogus is zo geïmplementeerd dat het resultaat van een zoekopdracht zowel op individuele sites als in categorieën kan worden gevonden. Als de zoekopdracht succesvol is, worden de URL, titel, beschrijving en trefwoorden weergegeven. Acceptabel gebruik Yandex-querytaal. METlink "Structuurmap" wordt geopend apart raam volledige kata-categorieloggen. De mogelijkheid om van de rubricator naar elke geselecteerde subcategorie te gaan is geïmplementeerd. Meer gedetailleerde thematische indelingde huidige sectie wordt weergegeven door een lijst met links. De catalogus is als volgt opgebouwd zodanig dat alle sites erop staan lagere niveaus beroerterondleidingen worden ook in secties gepresenteerd.De weergegeven lijst met bronnen is alfabetisch geordend, maar u kunt ervoor kiezen om te sorteren op: op tijd menu toevoegen, door overgang, door volgorde van toevoeging aan de catalogus, volgenspopulariteit onder catalogusbezoekers.

4. Yandex. Softwareproducten uit de Yandex-serie vertegenwoordigen een reeks hulpmiddelen voor het indexeren van volledige tekst en het zoeken naar tekstgegevens, rekening houdend met de morfologie van de Russische taal. Yandex bevat modules voor morfologische analyse en synthese, indexering en zoeken, evenals een reeks hulpmodules, zoals een documentanalysator, opmaaktalen, formaatconverters en een spider.

Morfologische analyse- en synthese-algoritmen op basis van het basiswoordenboek zijn in staat woorden te normaliseren, dat wil zeggen hun oorspronkelijke vorm te vinden, en ook hypothesen op te bouwen voor woorden die niet in het basiswoordenboek voorkomen. Met het full-text indexeringssysteem kunt u een compacte index maken en snel zoeken op basis van logische operatoren.

Yandex is ontworpen om lokaal en intern met teksten te werken globaal netwerk, en kan ook als module op andere systemen worden aangesloten.

Natuurlijk eindigt de lijst met populaire zoekmachines hier niet: hun aantal loopt in de honderden. Ik ben er echter zeker van dat deze ruim voldoende zullen zijn om met Engelstalige sites te kunnen werken.

Opgemerkt moet worden dat bijna alle hierboven gepresenteerde zoekmachines met het Cyrillische alfabet kunnen werken. Maar om informatie in het Russisch te zoeken, raad ik nog steeds binnenlandse zoekmachines aan:

Er zijn andere Russischtalige zoekmachines, maar deze zijn het populairst, vooral de eerste twee.

Rijst. 4.1. Zoekmachine Google-systeem

Uit het boek Countering Black PR op internet auteur Koezin Alexander Vladimirovitsj

Zoekmachines en directory's als hulpmiddelen voor het promoten van 'gevechts'-internetbronnen en het vullen ervan met inhoud. Deze sectie is geschreven met behulp van materiaal uit het boek 'Internet Intelligence: A Guide to Action'

Uit het boek Blog. Creëer en promoot auteur Joesjtsjoek Evgeni Vladimirovitsj

Zoekmachines en catalogi als hulpmiddelen voor het promoten van een blog en het vullen ervan met inhoud. We zullen het hebben over het automatiseren van het vullen van een blog met interessante inhoud, dat wil zeggen: hoe je sneller materiaal voor een blog kunt vinden dan andere bloggers. Het is onwaarschijnlijk dat de meeste lezers daartoe in staat zullen zijn naar

Uit het boek Internet Intelligence [Guide to Action] auteur Joesjtsjoek Evgeni Leonidovitsj

Het verzamelen van zoekopdrachten gerelateerd aan de bedrijfsnaam in zoekmachines

Uit het boek Een computer met uw eigen handen in elkaar zetten auteur Vatamanjoek Alexander Ivanovitsj

5.2. Populaire besturingssystemen Er zijn veel besturingssystemen, en elk heeft zijn eigen mate van populariteit. Sommige systemen zijn beter voor netwerken, terwijl andere beter zijn batterijduur, omdat je alles kunt combineren zonder prestatieverlies

Uit het boek Win2K FAQ (v. 6.0) auteur Sjasjkov Alexey

(6.10) Er is een gemengd netwerk, netware en NT, clients W2kPro en W98. Machines met W98 kunnen niet inloggen op machines met W2k. Om dit probleem op te lossen, moet u binden met behulp van protocollen: IPX/SPX alleen aan de Novell-client, TCP/IP alleen aan Microsoft-client. U kunt dit doen in eigenschappen netwerk connecties menu

Uit het boek Abstract, cursussen, diploma op een computer auteur

Zoekmachines Als u een selectie van materialen op een specifieker en speciale informatie, is het beter om zoekmachines te gebruiken. Een zoekmachine is een reeks speciale programma's waarmee u op internet kunt zoeken. Ze zijn vrij van de inherente nadelen

Uit het boek Internet. Nieuwe kansen. Trucs en effecten auteur Balovsjak Nadezjda Vasilievna

Hoe zoekmachines werken en hoe u zoekopdrachten correct kunt construeren Moderne zoekmachines zijn een reeks speciale programma's die zijn ontworpen om informatie op internet te zoeken. Het principe van hun werking is als volgt: van tijd tot tijd

Uit het boek Internet 100%. Gedetailleerde handleiding: van beginner tot professional auteur Gladky Alexey Anatolievich

Populaire online bioscopen Een van de populaire gratis online bioscopen bevindt zich op http://vsekino.tv (Fig. 7.5). Rijst.

Uit het boek Internet - gemakkelijk en eenvoudig! auteur Alexandrov Egor

Populaire directory's De meest populaire en complete directory ter wereld is ongetwijfeld het Engelstalige Yahoo! (http://dir.yahoo.com) (Afb. 4.4). Rijst. 4.4. De meest populaire directory met links Yahoo! moet worden opgemerkt dat directories vaak worden gecombineerd met zoekmachines, zo veel van de gepresenteerde

Uit het boek Yandex voor iedereen auteur Abramzon M.G.

1.11.3. Populaire berichten De lijst met populaire berichten wordt één keer per dag bijgewerkt. Er worden enkele tientallen van dergelijke platen geselecteerd, maar slechts enkele van de meest populaire worden gepresenteerd titelpagina Zoek sectie. De rest kunt u bekijken via de link Totaal records.

Uit het boek Hoe u bestanden op internet kunt vinden en downloaden auteur Reitman M.A.

1.11.6. Populaire categorieën Als er voorheen een gesprek was over de beoordeling van bloggers, services en de meest populaire berichten, nu we zullen praten over categorieën. De categorie van hun bericht wordt bepaald door hun auteurs. Hoe, waarom, waarom - hangt af van het onderwerp, van mode, van stemming. Echter

Uit het boek Eerste stappen met Windows 7. Een beginnershandleiding auteur Kolisnichenko Denis N.

1.11.7. Populair nieuws De nieuwsbeoordeling van de Yandex-service wordt gemarkeerd als een afzonderlijk blok tussen andere indicatoren. Nieuws. Dit is het nieuws dat het meest wordt besproken op blogs. De lijst met populair nieuws wordt elke 5-10 minuten bijgewerkt. Als je de link volgt van

Uit het boek Maak kennis met de laptop auteur Zjoekov Ivan

Populaire trackers Er zijn veel torrent-trackers in de wereld waarvan je de diensten kunt gebruiken. De volgende zijn de meest populaire trackers.? http://lostfilm.tv is een tracker gespecialiseerd in tv-series. In de regel hebben releases professionele nasynchronisatie en kwaliteit

Uit het boek IT-beveiliging: is het de moeite waard om het bedrijf te riskeren? door Linda McCarthy

10.2.1. Zoekmachines Het internet bevat een enorme hoeveelheid informatie. Iedereen kan immers een website op internet maken, dus het aantal nieuwe sites groeit elke dag. Zoekmachines worden gebruikt om op internet te zoeken. Een zoekmachine is een specialisme

Uit het boek van de auteur

Populaire internettoepassingen ICQ (ICQ) ICQ is een gecentraliseerde instant messaging-dienst. De dienstgebruiker (dat wil zeggen u) werkt met een clientprogramma (de zogenaamde “messenger”). Berichten worden direct verzonden. Je kan ook

Uit het boek van de auteur

Populair postlijsten Bugtraq-mailinglijsten Deze lijst bespreekt UNIX-kwetsbaarheden, hoe deze kunnen worden uitgebuit en hoe ze kunnen worden gesloten. Het doel ervan is niet om te leren hoe je systemen kunt hacken, maar eerder hoe je kwetsbaarheden kunt ontdekken, hoe je informatie daarover kunt delen, hoe je

Het is bekend dat gebruikers die via zoekmachines op een site terechtkomen, tot veertig procent van het verkeer voor hun rekening nemen. Daarom is het erg handig om te zorgen voor de juiste indexering van uw site in zoekmachines. Met ‘juiste indexering’ bedoel ik dat de relevantie van de zoekopdracht en de inhoud van de site in acht moeten worden genomen, d.w.z. in eenvoudige en toegankelijke taal moet de inhoud van de site overeenkomen met het verzoek (sommige ‘masters’ misbruiken sets trefwoorden die niet overeenkomen met de werkelijkheid. Toen mijn zus zich bijvoorbeeld voorbereidde op het uitbrengen van een cd met lokale kopieën van de eerste niveaus van webpagina's, werd het woord 'x#y' en soortgelijke woorden gevonden op de servers van zeer gerenommeerde bedrijven. dat had niets met dit soort woordenschat te maken :-).

Altavista
Ophalen-zoeken
Mediataal
Wandelaar
RusInfOlie
Russische Express
LICHAAM-zoeken
HotBot
Yandex

Waarom heb ik deze specifieke zoekmachines vermeld? Omdat, volgens mijn observaties, dit degenen zijn die Russisch sprekende netizens gebruiken. Wat zijn "mijn observaties"? Dit is een analyse van toegangslogboeken tot mijn server http://citforum.ru/, meer precies dat deel van de logs waar informatie over HTTP_REFERER wordt verzameld, d.w.z. adressen (URL's) waar clients een link naar een pagina op mijn server gebruikten.

Wat is de waardering van de machines die ik in de praktijk vermeld heb, welke machines worden meer gebruikt, welke minder?

Altavista staat op de eerste plaats, met een enorme marge ten opzichte van de rest. Deze zoekmachine liep al voorop voordat daar zoekopdrachten in verschillende talen (inclusief Russischtalige documenten) verschenen. Nou, het is begrijpelijk: een uitstekende, gemakkelijk toegankelijke server, die al heel lang actief is (sinds begin 1996), een enorme database met documenten (meer dan 50 miljoen adressen). Er moet ook rekening mee worden gehouden dat Russischsprekende gebruikers zich niet alleen in Rusland bevinden, maar ook in Bulgarije, Tsjechië en Slowakije, Polen, Israël, Duitsland, om nog maar te zwijgen van de voormalige republieken van de USSR - Oekraïne, Wit-Rusland. .. (Over de Baltische staten zou ik vooral willen zeggen: zij zijn het die, wanneer ze elkaar ontmoeten in de straten van sommige Kaunas of Tallinn, geen Russisch kennen, maar voor de monitor, vooral als het echt nodig is, ze echt weet je :-)) Dus voor al deze gebruikers is het handiger om Altavista te gebruiken, en niet onze binnenlandse auto's - dichterbij, nog steeds...

De volgende meest populaire zoekmachine is, vreemd genoeg, de jongste in Rusland: Yandex. Zoals Aleksey Amilyushchenko (Comptek-bedrijf) mij vertelde, zijn er vandaag de dag gemiddeld 72.000 verzoeken per dag en is er een trend van +10% per week (gegevens van 04/07/98). Het lijkt mij dat Yandex de meest veelbelovende Russische zoekmachine is. Met Comptek's systeem voor het ontleden van de "grote en machtige" Russische taal zou Yandex heel goed als overwinnaar uit de strijd kunnen komen in de concurrentie met de tweede walvis in dit gebied: Rambler.

Rambler is de derde serieuze zoekmachine voor Russischsprekende gebruikers. Het belangrijkste dat ik er niet leuk aan vind, is dat het de inhoud van de structuur negeert . (Dit heb ik niet bedacht, zei Dmitry Kryukov van Stack Ltd.) Waarschijnlijk is het juist vanwege de weigering om rekening te houden met trefwoorden dat zo'n vreemde reeks links wordt weergegeven in de zoekresultaten. Het tweede nadeel, dat puur interface-karakter heeft, is dat de resultaten voortdurend in KOI-codering worden geproduceerd, ongeacht wat de gebruiker eerder heeft geselecteerd. Derde nadeel: de spin van Rambler werkt door HTTP-protocol 0,9, wat leidt tot indexeringsfouten, d.w.z. als er meerdere op hetzelfde IP-adres wonen virtuele servers, Rambler ziet alleen de eerste, en beschouwt alle anderen eenvoudigweg als synoniemen. Ach, laten we hopen dat dit snel opgelost wordt.

Nou, op de laatste plaats in mijn beoordeling staan Aport-Search, dat servers heel vreemd indexeert, RusInfOil, dat regelmatig sluit voor reconstructie, en TELA-Search - een mooi en bijna nutteloos gadget voor de www.dux.ru-server.

Je kunt je afvragen: stonden HotBot en de Pathfinder-metazoekmachine van Medialingua ook op de lijst? Ik ben ze niet vergeten, het is alleen dat HotBot om een onbekende reden een menigte vermeldingen in mijn logboeken achterlaat, wat geen willekeurige vluchten kunnen zijn van buitenlanders die de Russische taal niet verstaan (er zijn veel minder van dergelijke vluchten van andere geïmporteerde machines), en ik heb “Pathfinder” nog niet serieus genoeg bestudeerd.

Waarom moeten zoekmachines een website promoten?

Het is heel eenvoudig, zoals ik al zei: zoekmachines kunnen tot veertig procent van het verkeer naar een site leiden. En om dit te laten gebeuren, is het noodzakelijk dat uw site correct wordt geïndexeerd, en hiervoor moet u weten hoe dit wordt gedaan.

En dit gebeurt op de volgende manier: óf de robot van de zoekmachine komt zelf op uw site, óf u geeft zelf de site aan in de juiste interface (AddUrl), die aanwezig is in elke zichzelf respecterende zoekmachine. De eerste optie kent vertragingen (de robot komt er nog steeds, misschien over een dag, misschien over een jaar: het internet is groot). De tweede vergt enige tijd (een verscheidenheid aan software voor het automatisch registreren van uw site in een wolk van zoekmachines levert ons niets op - de machines worden geïmporteerd).

Waar alles in kan gebeuren op z'n best vereist:

er moet op zijn minst wat tekst op de site staan. Zoekmachines negeren afbeeldingen en tests daarop. Het is waar dat je de tekst kunt dupliceren in het alt-attribuut van de img-tag
Elk sitedocument MOET een betekenisvolle titel, trefwoorden en een korte beschrijving bevatten. Ze schrijven alleen dat zoekmachines full-text zijn, maar in werkelijkheid is dit niet het geval.
Een robots.txt-bestand maken (vooral als je dat hebt eigen server zoals www.naam.ru).
Handmatige registratie bij elke zoekmachine waarin u geïnteresseerd bent en daaropvolgende controle over de indexering van uw site.

U heeft dus de eerste pagina van uw website al geregistreerd in verschillende zoekmachines.

Denk je dat alles al contractueel is vastgelegd? Hoe het ook is. Als een link naar uw site in een reactie van een zoekmachine op het tweede scherm wordt weergegeven, “is het net zo erg alsof er helemaal geen link was” (Danny Sullivan, searchenginewatch.com)

Met andere woorden: het simpelweg opgeven van de pagina in AddURL is niet voldoende. Het is noodzakelijk om het document van tevoren voor te bereiden, zodat in reactie op passende verzoeken aan de zoekmachine, in zijn antwoord op het verzoek, de link naar uw document, zo niet de eerste, dan op zijn minst in de top tien links (of beter als er in deze top tien verschillende links naar uw documenten staan:-). Wat betekent ‘voorbereiden’? Dit is een puur technische vraag, niets bovennatuurlijks. Alleen al in de HEAD-sectie van elk document op uw site moet u de “sprekende” titel, trefwoorden, beschrijving en robots aangeven.

Titel:document titel. Een goede, betekenisvolle titel kan ervoor zorgen dat een gebruiker jouw link uit vele anderen kiest. Vaak zie je kopjes als de volgende: “Inhoud” - wat, waarom - is onduidelijk, er is geen wens om te controleren. Een ander geval: op alle pagina's van de site is de titel "Welkom bij het bedrijf..." - het is ook niet erg aantrekkelijk om alle documenten met deze titel te controleren. Stel je voor dat je de zoekmodus hebt geselecteerd op titels, zonder een beschrijving van elk document.

Trefwoorden:trefwoorden. Het is de inhoud van deze container die de relevantie van het document voor de zoekopdracht beïnvloedt.

Hoe vaak ze ook zeggen dat zoekmachines full-text zijn, dit is niet helemaal waar, maar de inhoud van deze container zal zeker in de index van zoekmachines terechtkomen. Helaas willen de makers van een van de grootste binnenlandse zoekmachines, Rambler, niet aan deze container werken. Maar tevergeefs.

het inhoudsveld mag geen eindelijnmarkeringen, aanhalingstekens, enz. bevatten. speciale karakters, karakter en hoofdlettergebruik doen er niet toe
Het wordt niet aanbevolen om dezelfde trefwoorden meerdere keren te herhalen; dit kan als spam worden beschouwd en de pagina loopt het risico uit de index van de zoekmachine te worden verwijderd.
U mag niet dezelfde zoekwoorden gebruiken voor verschillende pagina's van uw site. Dit is uiteraard eenvoudiger, maar de inhoud van de documenten zelf is anders. Als je dit proces echt wilt automatiseren, kun je een programma schrijven dat alle geselecteerde blokken van het document in dit veld schrijft, bijvoorbeeld wat er tussen de tags H, I en B staat.
als de inhoudsregel te lang is, is het niet verboden om nog meerdere soortgelijke constructies te maken.
Over het algemeen kan het totale volume aan trefwoorden in één document oplopen tot 50% van het volume van dat document.

Beschrijving: korte beschrijving document. Een behoorlijk nuttige container, waarvan de inhoud wordt gebruikt als een korte beschrijving van relevante documenten in de reactie van moderne zoekmachines. Als deze container niet bestaat, wordt een bepaald aantal regels vanaf het begin van het document geretourneerd. Dienovereenkomstig is het niet ongebruikelijk dat JavaScript zich helemaal aan het begin van het document bevindt en in plaats van een normale beschrijving wordt abracadabra gegeven in de vorm van een stukje script.

Het inhoudsveld mag geen regeleinden, aanhalingstekens of andere speciale tekens bevatten.
Het is wenselijk dat er uit een paar menselijke zinnen een betekenisvolle samenvatting van het document ontstaat, zodat de gebruiker van de zoekmachine, naast de titel, de betekenis van het document kan begrijpen.
Helaas weten binnenlandse zoekmachines nog niet hoe ze met deze container moeten werken, hoewel ze beloven dat ze dit snel zullen leren.

Is het mogelijk om de acties van zoekmachines te controleren?

Het is mogelijk, en zelfs noodzakelijk! De eerste actie die hiervoor moet worden ondernomen, is het schrijven van een robots.txt-bestand en dit in de root van uw server plaatsen. Dit bestand legt in de volksmond aan de zoekmachinerobot uit wat wel en niet moet worden geïndexeerd. Waarom bijvoorbeeld servicebestanden, zoals statistische rapporten, indexeren? Of de resultaten van scripts? Bovendien zullen veel ‘slimme’ machines de servers eenvoudigweg niet indexeren zonder robots.txt te vinden. Overigens kunt u in dit bestand verschillende indexeringsmaskers voor verschillende zoekmachines opgeven.

Meer hierover kun je lezen in mijn vertaling ‘Standaard voor Robots Exclusion’. Tweede actie: voorzie de sitepagina's van Robots META-tags. Dit is een flexibeler hulpmiddel voor indexering dan robots.txt. In deze tag kunt u de robot van de zoekmachine in het bijzonder instrueren om geen links naar andere servers te volgen, bijvoorbeeld in documenten met lijsten met links. Het formaat van deze puinhoop is als volgt:

robot_terms is een door komma's gescheiden lijst met de volgende trefwoorden (hoofdletters of kleine letters doen er niet toe): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW. GEEN vertelt alle robots om deze pagina te negeren tijdens het indexeren (equivalent aan gelijktijdig gebruik trefwoorden NOINDEX, NOFOLLOW). ALLE staat toe dat deze pagina en alle links erop worden geïndexeerd (gelijk aan het gelijktijdig gebruiken van de trefwoorden INDEX, FOLLOW). INHOUDSOPGAVE staat toe dat deze pagina wordt geïndexeerd GEENINDEX staat niet toe dat deze pagina wordt geïndexeerd VOLGEN staat toe dat alle links op deze pagina worden geïndexeerd GEEN VOLG staat niet toe dat links van deze pagina worden geïndexeerd

Als deze metatag wordt weggelaten of robot_terms niet zijn opgegeven, gedraagt de zoekrobot zich standaard alsof robot_terms=INDEX, FOLLOW (d.w.z. ALL) is opgegeven. Als het trefwoord ALL wordt gedetecteerd in CONTENT, handelt de robot dienovereenkomstig en negeert mogelijk gespecificeerde andere trefwoorden. Als CONTENT trefwoorden bevat die tegengestelde betekenissen hebben, bijvoorbeeld FOLLOW, NOFOLLOW, handelt de robot naar eigen goeddunken (in dit geval: VOLGEN).

Als robot_terms alleen NOINDEX bevat, worden links van deze pagina niet geïndexeerd. Als robot_terms alleen NOFOLLOW bevat, wordt de pagina geïndexeerd en worden links dienovereenkomstig genegeerd.

Bewaken van de huidige status van uw documenten in de zoekmachine-index.

Nou, oké, je hebt alles hierboven gelezen en dat ook gedaan. Wat is het volgende? En dan volgt er een lange, vervelende en vooral regelmatige controle om te zien hoe het gaat. Hoe triest het ook is, je zult hier aandacht aan moeten besteden, al was het maar omdat documenten soms uit zoekmachines verdwijnen. Waarom? Ik wou dat ik het wist... Dus in goede zoekmachines kun je zien welke documenten en hoeveel er zijn huidige tijd staat in de index. Zo werkt het:

Alt Vista
In deze zoekmachine is het controleren van de URL-status vrij eenvoudig: typ gewoon de vraagregel in:

URL: citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml

In het eerste geval worden alle geïndexeerde serverpagina's geretourneerd. In de tweede - alleen Windows-coderingspagina's. In de derde - is er een index.shtml-bestand uit de opgegeven map in de AltaVista-index?

Opwinden
Het controleren van de status van een URL in de Excite-zoekmachine is net zo eenvoudig als in AltaVista. Typ gewoon de URL. Bijvoorbeeld:

HotBot
De URL-status wordt in de HotBot-zoekmachine op een iets andere manier gecontroleerd. Dit wordt als volgt gedaan:

Voer de URL in het verzoekveld in
Wijzig de optie 'alle woorden' in 'links naar deze URL'

Infozoek
In de Infoseek-zoekmachine is er een aparte interface met een hele reeks instellingen om de status van een URL te controleren:

WebCrawler
WebCrawler biedt de mogelijkheid om de status van een URL op een pagina te controleren:

Wandelaar
In deze zoekmachine kan de URL-status op twee manieren worden gecontroleerd.

In het gedeelte "Geavanceerd zoeken" door de servernaam op te geven als masker in een van de opties Top 100 woorden op Rambler

INTERNETZOEKMACHINE

Er is een enorme hoeveelheid informatie opgeslagen op internet bruikbare informatie, maar het vinden van de juiste kan veel tijd kosten. Dit is een van de belangrijkste problemen die aanleiding hebben gegeven tot de opkomst van zoekmachines. Internetzoekmachines zijn gekoppeld aan databases die een groot deel van de op internet beschikbare informatie catalogiseren. Zoekmachines hebben programma's die databases indexeren, en menselijke bibliothecarissen categoriseren, sorteren en transformeren het internet in een doorzoekbare omgeving. Ondanks het feit dat er meer dan 100 zoekmachines en browsertools zijn, ervaren gebruikers vaak frustratie veroorzaakt door moeilijkheden bij het vinden van de informatie die ze nodig hebben. En de belangrijkste vraag van vandaag blijft niet de beschikbaarheid van deze of gene informatie op internet, maar de vraag waar je die moet zoeken.

Zoekmachines bestaan uit drie hoofdelementen. Het eerste element is de indexer, of, zoals deze ook wordt genoemd, de “spin”. De indexer leest informatie van een webpagina en volgt links naar andere pagina's op dezelfde website. Websites worden regelmatig bekeken, één keer per maand of één keer per twee maanden; dit is nodig om veranderingen te monitoren. Alle gegevens over de gevonden informatie gaan naar het tweede deel van de zoekmachine, de index, of, zoals deze ook wel wordt genoemd, de catalogus. Dit is zoiets als een enorm boek waarin de inhoudsopgave van elke webpagina wordt opgeslagen die door de indexeerder wordt gevonden. Wanneer een webpagina verandert, wordt de informatie daarover in de index ook bijgewerkt. Soms verschijnen nieuwe pagina's of wijzigingen niet onmiddellijk in de catalogus. Zolang de gegevens over de webpagina niet in de catalogus zijn opgenomen, is de pagina niet toegankelijk voor de zoekmachine. Software zoekmachine is het derde onderdeel. Dit programma doorzoekt miljoenen gecatalogiseerde pagina's om informatie te vinden die overeenkomt met de zoekintentie, en rangschikt deze vervolgens op basis van hun relevantie voor het opgegeven doel. Zoekmachines die zijn ontworpen om websites te analyseren, zijn gebaseerd op het gebruik van zoekopdrachten. De gebruiker typt woorden of zinsdelen die relevant zijn voor het onderwerp van interesse.

Speciaal programma(de spin) ‘kruipt’ over het web en vindt vervolgens, met behulp van speciale zoekalgoritmen, binnen een paar seconden de benodigde gegevens. Bij het reageren op een zoekopdracht doorzoekt de zoekmachine miljoenen bronnen en vindt de adressen van relevante documenten. Zoekmachines bieden geannoteerde lijsten met hyperlinks naar relevante internetpagina's. Als u op een hyperlink klikt, wordt de bijbehorende URL gebruikt om tekst, afbeeldingen en links op een andere computer te vinden. Internetzoekmachines met hun enorme catalogi van webpagina's verbeteren voortdurend de zoekalgoritmen en breiden hun functionaliteit uit. Elke zoekmachine heeft zijn eigen persoonlijkheid (heeft zijn eigen bijzondere kenmerken) en werkt anders. Het werk van veel zoekmachines wordt als behoorlijk succesvol beschouwd. Echter alles moderne systemen hebben een aantal ernstige nadelen:

1. Zoekopdrachten op trefwoorden leveren te veel links op, en veel daarvan zijn nutteloos.

2. Een groot aantal zoekmachines met verschillende gebruikersinterfaces creëert het probleem van cognitieve overbelasting.

3. Methoden voor het indexeren van databases zijn in de regel niet semantisch gerelateerd aan de informatie-inhoud.

4. Ontoereikende strategieën voor directoryonderhoud resulteren vaak in links naar informatie die niet langer beschikbaar is op internet.

5. Zoekmachines zijn nog niet geavanceerd genoeg om natuurlijke taal te begrijpen.

6. Met het toegangsniveau dat moderne zoekmachines bieden, is dit bijna onmogelijk gemotiveerde conclusie over het nut van de bron.

IN De laatste tijd de behoefte aan intellectuele hulp groeit snel: er is hulp nodig voor het productief zoeken naar informatie, voor het navigeren op het enorme internet of bedrijfsnetwerk gespecialiseerde informatie. Dit leidde tot de opkomst van intelligente agenten. Intelligente agenten zijn doorgaans een integraal onderdeel van een zoekmachine. Sommige bijzonder geavanceerde programma's lijken op levende assistenten. Kunstmatige intelligentietechnologieën worden gebruikt om informatie te zoeken en te sorteren. Zo’n zoekmachine ‘denkt’ en handelt zelfstandig. De gebruiker traint de agent, waarna de agent op internet gaat zoeken om de benodigde documenten uit de miljoenen beschikbare documenten te selecteren en deze te evalueren. De gebruiker kan de intelligente agent op elk moment ‘oproepen’ en zien hoe het werk vordert, of hem blijven trainen op basis van de gevonden informatie, waardoor de zoekopdracht nog nauwkeuriger wordt. Tabel 3 toont voorbeelden van intelligente agenten en hun kenmerken.

Intelligente agenten voeren namens de gebruiker of een ander programma een reeks instructies uit, kunnen zelfstandig werken en hebben een zekere mate van autonomie in het netwerk. Er zijn enkele verschillen tussen intelligente agenten en Java-applets. Java-applets worden van internet gedownload en op de computer van de gebruiker uitgevoerd. Intelligente agenten gaan daadwerkelijk online en zoeken naar applicaties die helpen een taak te voltooien en hun missie op afstand uit te voeren, waardoor de computer van de gebruiker vrijkomt voor andere taken. Wanneer het doel is bereikt, informeren ze de gebruiker dat het werk is voltooid en presenteren ze de resultaten aan hem.

Intelligente agenten kunnen ‘begrijpen’ welke informatie de gebruiker nodig heeft. Agenten kunnen worden geprogrammeerd om gedrag te veranderen op basis van ervaringen en interacties met andere agenten. Gegeneraliseerde kenmerken van intelligente agenten kunnen als volgt worden weergegeven:

Intelligentie - gebaseerd op leren feedback, door voorbeelden, fouten en door interactie met andere agenten.

Gebruiksgemak - agenten kunnen worden “getraind” met behulp van natuurlijke taal.

Individuele aanpak - agenten passen zich aan de voorkeuren van de gebruiker aan.

Integratie - continu leren, bestaande kennis toepassen op nieuwe situaties, een mentaal model ontwikkelen.

Autonomie - agenten zijn in staat de omgeving te ‘voelen’, te reageren op de veranderingen ervan, en kunnen conclusies trekken.

tafel 3

Voorbeelden van intelligente agenten en hun kenmerken.

De schaal van informatiebronnen en hun aantal op internet neemt voortdurend toe. Het wordt duidelijk dat de gecentraliseerde database die typisch is voor zoekmachines geen bevredigende oplossing is. Intelligente agenten vormen een compleet nieuw vakgebied dat de basis vormt voor de volgende generatie zoekmachines die informatie kunnen filteren en nauwkeurigere resultaten kunnen behalen. Bijvoorbeeld Hyperlink-Induced Topic Search Engine, ontwikkeld door John Kleinberg van Cornell University. Deze zoekmachine zoekt niet op trefwoorden. Het systeem analyseert de natuurlijke structuur van het web, zoekt naar 'gemeenschappen' van pagina's die betrekking hebben op een bepaald onderwerp, en ontdekt vervolgens welke van deze pagina's door de auteurs van de pagina's zelf als belangrijk worden beschouwd. Dit idee is vergelijkbaar met citatiestatistieken, die al lang in de academische gemeenschap worden gebruikt. Deze aanpak is efficiënter en betrouwbaarder dan traditioneel zoeken op trefwoorden.

Hallo, beste lezers van de blogsite. , dan hadden de weinige gebruikers er genoeg van uw eigen bladwijzers. Zoals u zich echter herinnert, gebeurde dit in geometrische progressie, en al snel werd het moeilijker om in al zijn diversiteit te navigeren.

Toen verschenen er mappen (Yahoo, Dmoz en anderen), waarin hun auteurs verschillende sites toevoegden en in categorieën sorteerden. Dit maakte het leven van de toenmalige, nog niet zo talrijke gebruikers van het mondiale netwerk meteen gemakkelijker. Veel van deze catalogi zijn nog steeds in leven.

Maar na enige tijd werd de omvang van hun databases zo groot dat de ontwikkelaars eerst dachten aan het creëren van een zoekopdracht erin, en vervolgens aan het creëren van geautomatiseerd systeem het indexeren van alle internetinhoud om deze voor iedereen toegankelijk te maken.

De belangrijkste zoekmachines van het Russischtalige segment van internet

Zoals u begrijpt, werd dit idee met verbluffend succes geïmplementeerd, maar alles verliep echter alleen goed voor een handvol geselecteerde bedrijven die erin slaagden niet op internet te verdwijnen. Bijna alle zoekmachines die in de eerste golf verschenen, zijn nu verdwenen, wegkwijnden of werden gekocht door succesvollere concurrenten.

Een zoekmachine is een zeer complex en, belangrijker nog, zeer hulpbronnenintensief mechanisme (dit betekent niet alleen materiële hulpbronnen, maar ook menselijke hulpbronnen). Achter het ogenschijnlijk eenvoudige , of zijn ascetische tegenhanger van Google, schuilen duizenden werknemers, honderdduizenden servers en vele miljarden investeringen die nodig zijn om deze reus te laten blijven functioneren en concurrerend te blijven.

Nu deze markt betreden en helemaal opnieuw beginnen is meer een utopie dan een utopie echte zaken project. Een van de rijkste bedrijven ter wereld, Microsoft, probeert bijvoorbeeld al tientallen jaren voet aan de grond te krijgen op de zoekmarkt, en pas nu begint hun zoekmachine Bing langzaamaan aan hun verwachtingen te voldoen. En daarvoor was er een hele reeks mislukkingen en tegenslagen.

Wat kunnen we zeggen over het betreden van deze markt zonder speciale financiële invloeden? Onze binnenlandse zoekmachine Nigma heeft bijvoorbeeld veel nuttige en innovatieve dingen in zijn arsenaal, maar hun verkeer is duizenden keren lager dan dat van de leiders van de Russische markt. Kijk bijvoorbeeld eens naar het dagelijkse Yandex-publiek:

In dit opzicht kunnen we aannemen dat de lijst met de belangrijkste (beste en gelukkigste) zoekmachines van Runet en het hele internet al is gevormd en dat de hele intriges alleen liggen in wie uiteindelijk wie zal verslinden, of hoe ze zullen worden verspreid. procentueel aandeel, als ze allemaal overleven en blijven drijven.

Russische zoekmachinemarkt is heel duidelijk zichtbaar en hier kunnen we waarschijnlijk twee of drie hoofdspelers en een paar kleinere spelers onderscheiden. Over het algemeen heeft zich in RuNet een vrij unieke situatie ontwikkeld, die zich, zoals ik het begrijp, slechts in twee andere landen in de wereld heeft herhaald.

Ik heb het over het feit dat de Google-zoekmachine, die in 2004 naar Rusland kwam, nog steeds geen leiderschap heeft kunnen nemen. In feite probeerden ze rond deze periode Yandex te kopen, maar daar werkte iets niet en nu zijn “ons Rusland”, samen met Tsjechië en China, die plaatsen waar de almachtige Google, zo niet verslagen, dan in stuitte in ieder geval op ernstige weerstand.

Zie trouwens de huidige stand van zaken onder de beste zoekmachines Runet Iedereen kan. Het is voldoende om deze URL erin te plakken adresbalk je browser:

Http://www.liveinternet.ru/stat/ru/searches.html?period=maand;total=ja

Het feit is dat de meeste gebruikt op haar websites en via deze URL kunt u statistieken bekijken van bezoekers van verschillende zoekmachines op alle websites die tot de RU-domeinzone behoren.

Nadat u de opgegeven URL heeft ingevoerd, ziet u een afbeelding die niet erg aantrekkelijk en representatief is, maar die de essentie van de zaak goed weergeeft. Besteed aandacht aan de top vijf van zoekmachines waarvan sites in het Russisch verkeer ontvangen:

Ja, natuurlijk bevinden niet alle bronnen met Russischtalige inhoud zich in deze zone. Er zijn ook SU en RF, en algemene gebieden zoals COM of NET staan vol met internetprojecten gericht op Runet, maar toch is de steekproef behoorlijk representatief.

Deze afhankelijkheid kan op een kleurrijkere manier worden gepresenteerd, zoals iemand bijvoorbeeld online deed voor zijn presentatie:

Dit verandert niets aan de essentie. Er zijn een paar leiders en een aantal staat heel erg ver achter op de zoekmachines. Trouwens, ik heb al over veel van hen geschreven. Soms kan het best interessant zijn om in de geschiedenis van succes te duiken of, omgekeerd, om je te verdiepen in de redenen voor de mislukkingen van ooit veelbelovende zoekmachines.

Dus, in volgorde van belangrijkheid voor Rusland en de Runet als geheel, zal ik ze opsommen en korte kenmerken geven:

Zoeken op Google is voor veel mensen op deze planeet al een begrip geworden - u kunt erover lezen in de link. In deze zoekmachine vond ik de optie "Vertaling van resultaten" leuk, toen je antwoorden van over de hele wereld ontving, maar in je moedertaal, maar nu is deze helaas niet beschikbaar (althans op google.ru).

De laatste tijd ben ik ook verbaasd over de kwaliteit van hun output (zoekmachineresultaatpagina). Persoonlijk gebruik ik altijd eerst de RuNet-spiegelzoekmachine (er is er een, nou ja, ik ben er aan gewend) en alleen als ik daar geen begrijpelijk antwoord vind, wend ik me tot Google.

Meestal maakte de release ervan me blij, maar de laatste tijd heeft het me alleen maar verbaasd - soms komt er zulke onzin naar buiten. Het is mogelijk dat hun strijd om de inkomsten uit contextueel adverteren te vergroten en het voortdurend schudden van zoekresultaten om SEO-promotie in diskrediet te brengen, tot het tegenovergestelde resultaat kunnen leiden. In ieder geval heeft deze zoekmachine een concurrent op het RuNet, en wat voor een dan ook.

Ik denk dat het onwaarschijnlijk is dat iemand specifiek naar Go.mail.ru gaat om in RuNet te zoeken. Daarom kan het verkeer naar entertainmentprojecten vanuit deze zoekmachine aanzienlijk meer dan tien procent bedragen. Eigenaars van dergelijke projecten moeten aandacht besteden aan dit systeem.

Naast de duidelijke leiders op de zoekmachinemarkt van het Russischtalige internetsegment zijn er echter nog een aantal spelers waarvan het aandeel vrij laag is, maar toch maakt het feit van hun bestaan het noodzakelijk om een paar woorden te zeggen over hen.

Runet-zoekmachines van het tweede echelon

Internetbrede zoekmachines

Over het algemeen is er op de schaal van het hele internet slechts één serieuze speler: Googlen. Dit is de onbetwiste leider, maar er is nog steeds enige concurrentie.

Ten eerste is het nog steeds hetzelfde Bing, dat bijvoorbeeld een zeer goede positie heeft op de Amerikaanse markt, vooral gezien het feit dat zijn engine ook op alle Yahoo-diensten wordt gebruikt (bijna een derde van de gehele Amerikaanse zoekmarkt).

Ten tweede, vanwege het enorme aandeel dat gebruikers uit China uitmaken in het totale aantal internetgebruikers, hun belangrijkste zoekmachine gerechtigd Baidu zich vast in de verdeling van plaatsen op de wereld Olympus. Hij werd geboren in 2000 en nu bedraagt zijn aandeel ongeveer 80% van het gehele nationale publiek in China.

Het is moeilijk om iets begrijpelijkers over Baidu te zeggen, maar op internet zijn er meningen dat plaatsen in de Top niet alleen worden ingenomen door de sites die het meest relevant zijn voor het verzoek, maar ook door degenen die ervoor hebben betaald (rechtstreeks naar de zoekmachine , en niet naar het SEO-bureau). Dit geldt uiteraard vooral voor commerciële vermeldingen.

Als we naar de statistieken kijken, wordt het over het algemeen duidelijk waarom Google er gemakkelijk mee instemt zijn zoekresultaten te verslechteren in ruil voor hogere winsten uit contextueel adverteren. In feite zijn ze niet bang voor gebruikersverloop, omdat ze in de meeste gevallen nergens heen kunnen. Deze situatie is enigszins triest, maar we zullen zien wat er daarna gebeurt.

Om het leven van de optimizers nog moeilijker te maken, en misschien om de gemoedsrust van de gebruikers van deze zoekmachine te behouden, gebruikt Google onlangs encryptie bij het verzenden van zoekopdrachten van de browsers van gebruikers naar de zoekbalk. Binnenkort is in de statistieken van bezoekerstellers niet meer te zien voor welke vragen Google-gebruikers bij jou terecht zijn gekomen.

Natuurlijk zijn er naast de in deze publicatie genoemde zoekmachines nog duizenden andere - regionaal, gespecialiseerd, exotisch, enz. Het zou onmogelijk zijn om ze allemaal in één artikel op te sommen en te beschrijven, en waarschijnlijk ook niet nodig. Laten we er beter een paar woorden over zeggen hoe gemakkelijk het is om een zoekmachine te maken en hoe het niet gemakkelijk of goedkoop is om het up-to-date te houden.

De overgrote meerderheid van de systemen werkt volgens vergelijkbare principes (lees hierover en dat) en streeft hetzelfde doel na: gebruikers een antwoord geven op hun vraag. Bovendien moet dit antwoord relevant zijn (overeenkomend met de vraag), alomvattend en, wat niet onbelangrijk is, relevant (van de eerste frisheid).

Het oplossen van dit probleem is niet zo eenvoudig, vooral gezien het feit dat de zoekmachine de inhoud van miljarden internetpagina's in een handomdraai zal moeten analyseren, de onnodige pagina's zal moeten verwijderen en uit de resterende pagina's een lijst (probleem) zal moeten vormen, waar de meest passende antwoorden op de vraag van de gebruiker verschijnen eerst.

Deze uiterst complexe taak wordt opgelost door vooraf informatie van deze pagina's te verzamelen met behulp van verschillende indexeringsrobots. Ze verzamelen links van reeds bezochte pagina's en laden informatie daaruit in de database van de zoekmachine. Er zijn bots die tekst indexeren (een gewone en snelle bot die leeft van nieuws en regelmatig bijgewerkte bronnen zodat de nieuwste gegevens altijd in de resultaten worden weergegeven).

Daarnaast zijn er robots die afbeeldingen indexeren (voor hun daaropvolgende uitvoer naar), favicons, sitespiegels (voor hun daaropvolgende vergelijking en mogelijke lijming), bots die de functionaliteit van internetpagina's controleren, welke gebruikers of via tools voor webmasters (hier kunt u over kunt lezen, en).

Het indexeringsproces zelf en het daaropvolgende proces van het bijwerken van indexdatabases zijn behoorlijk tijdrovend. Hoewel Google dit veel sneller doet dan zijn concurrenten, in ieder geval Yandex, die hier een week of twee over doet (lees meer).

Meestal verdeelt de zoekmachine de tekstinhoud van een internetpagina in afzonderlijke woorden, wat leidt tot: Basisprincipes, zodat je vervolgens de juiste antwoorden kunt geven op vragen die in verschillende morfologische vormen worden gesteld. Alle overtollige bodykits in de vorm HTML-tags, spaties, enz. dingen worden verwijderd en de resterende woorden worden alfabetisch gesorteerd en hun positie in dit document wordt ernaast aangegeven.

Dit soort dingen wordt een omgekeerde index genoemd en stelt u in staat niet op webpagina's te zoeken, maar op gestructureerde gegevens die zich op de servers van zoekmachines bevinden.

Het aantal van dergelijke servers voor Yandex (dat voornamelijk alleen naar Russischtalige sites zoekt en een beetje naar Oekraïens en Turks) loopt in de tienduizenden of zelfs honderdduizenden, en voor Google (dat in honderden talen zoekt) in de miljoenen .

Veel servers beschikken over kopieën, die zowel dienen om de veiligheid van documenten te vergroten als om de snelheid van de verwerking van verzoeken te verhogen (door de belasting te verdelen). Schat de kosten van het in stand houden van deze hele economie.

Het verzoek van de gebruiker wordt door de load balancer verzonden naar het serversegment dat momenteel het minst is geladen. Vervolgens wordt er een analyse uitgevoerd van de regio van waaruit de gebruiker van de zoekmachine zijn verzoek heeft verzonden, en wordt deze morfologisch geanalyseerd. Als er onlangs een soortgelijk verzoek is ingediend zoekbalk, dan krijgt de gebruiker gegevens uit de cache om de servers niet te overbelasten.

Als het verzoek nog niet in de cache is opgeslagen, wordt het overgebracht naar het gebied waar de indexdatabase van de zoekmachine zich bevindt. Als antwoord ontvangt u een lijst met alle internetpagina's die in ieder geval enigszins verband houden met het verzoek. Er wordt niet alleen rekening gehouden met directe gebeurtenissen, maar ook met andere morfologische vormen, enz. dingen.

Hun gerangschikt moet worden en in dit stadium komt het algoritme in het spel ( kunstmatige intelligentie). In feite vermenigvuldigt het verzoek van de gebruiker zich ten koste van iedereen mogelijke opties de interpretatie ervan en de antwoorden op veel vragen worden tegelijkertijd gezocht (door het gebruik van zoektaaloperatoren, waarvan sommige beschikbaar zijn voor gewone gebruikers).

In de regel bevatten de zoekresultaten één pagina van elke site (soms meer). zijn nu zeer complex en houden rekening met veel factoren. Bovendien worden ze gecorrigeerd en worden referentiesites handmatig geëvalueerd, waardoor u de werking van het algoritme als geheel kunt aanpassen.

Over het algemeen is het duidelijk dat de materie donker is. We kunnen hier nog lang over praten, maar het is al duidelijk dat gebruikerstevredenheid met een zoeksysteem wordt bereikt, oh, wat is dat moeilijk. En er zullen altijd mensen zijn die iets niet leuk vinden, zoals jij en ik, beste lezers.

Veel succes! Tot binnenkort op de pagina's van de blogsite

Je kunt meer video's bekijken door naar te gaan

");">

Misschien ben je geïnteresseerd

Yandex People - hoe u naar mensen kunt zoeken door sociale netwerken Apometr is een gratis dienst voor het bijhouden van wijzigingen in zoekresultaten en updates van zoekmachines. DuckDuckGo - een zoekmachine die u niet volgt
Hoe de internetsnelheid te controleren - online-test verbindingen op computer en telefoon, SpeedTest, Yandex en andere meters
Yandex- en Google-afbeeldingen, evenals zoeken op afbeeldingsbestand in Tineye (tinai) en Google