Ce au evaluat primele motoare de căutare? Motoare de căutare și directoare

Motoarele de căutare(motor de căutare)

Motoarele de căutare vă permit să găsiți documente WWW legate de subiecte date sau echipate cu cuvinte cheie sau combinații ale acestora. Există două metode de căutare utilizate pe serverele de căutare:

· Conform ierarhiei conceptelor;

· Prin cuvinte cheie.

Serverele de căutare sunt populate automat sau manual. Serverul de căutare are de obicei link-uri către restul servere de căutareși le trimite o cerere de căutare la cererea utilizatorului.

Există două tipuri de motoare de căutare.

1. Motoare de căutare „full-text” care indexează fiecare cuvânt de pe o pagină web, cu excepția cuvintelor oprite.

2. Motoarele de căutare „abstracte” care creează un rezumat al fiecărei pagini.

Pentru webmasteri, motoarele full-text sunt mai utile deoarece orice cuvânt găsit pe o pagină web este analizat pentru a determina relevanța acestuia pentru interogările utilizatorilor. Cu toate acestea, motoarele abstracte pot indexa paginile mai bine decât cele cu text integral. Aceasta depinde de algoritmul de extragere a informațiilor, de exemplu, de frecvența de utilizare a acelorași cuvinte.

Principalele caracteristici ale motoarelor de căutare.

1.Mărimea unui motor de căutare este determinată de numărul de pagini indexate. Cu toate acestea, în orice moment, linkurile furnizate ca răspuns la solicitările utilizatorilor pot avea vârste diferite. Motive pentru care se întâmplă acest lucru:

· unele motoare de căutare indexează imediat pagina la cererea utilizatorului, iar apoi continuă să indexeze paginile care nu au fost încă indexate.

· alții indică adesea cel mai mult pagini populare retelelor.

2. Data indexării. Unele motoare de căutare arată data la care un document a fost indexat. Acest lucru ajută utilizatorul să determine când un document a apărut online.

3. Adâncimea de indexare arată câte pagini după cea specificată vor fi indexate motor de căutare. Majoritatea mașinilor nu au restricții privind adâncimea de indexare. Motive pentru care nu toate paginile pot fi indexate:

· Nu utilizarea corectă structuri de cadru.

· utilizarea unei hărți a site-ului fără a duplica link-uri obișnuite

4. Lucrul cu rame. Dacă robot de căutare nu știe cum să lucreze cu structuri de cadru, atunci multe structuri cu cadre vor fi ratate în timpul indexării.

5. Frecvența legăturilor. Motoarele de căutare majore pot determina popularitatea unui document în funcție de cât de des este legat de acesta. Unele mașini, pe baza unor astfel de date, „conclud” dacă merită sau nu indexarea unui document.

6.Frecvența de actualizare a serverului. Dacă serverul este actualizat frecvent, motorul de căutare îl va reindexa mai des.

7. Controlul indexării. Arată ce instrumente puteți utiliza pentru a controla motorul de căutare.

8.Redirecționare. Unele site-uri redirecționează vizitatorii de la un server la altul, iar această opțiune arată cum va fi legată de documentele găsite.

9.Opriți cuvinte. Unele motoare de căutare nu includ anumite cuvinte în indexurile lor sau pot să nu includă acele cuvinte în interogările utilizatorilor. Aceste cuvinte sunt de obicei considerate prepoziții sau cuvinte folosite frecvent.

10. Amenzi pentru spam. Abilitatea de a bloca spam-ul.

11.Ștergerea datelor vechi. Un parametru care determină acțiunile webmasterului la închiderea serverului sau mutarea acestuia la o altă adresă.

Exemple de motoare de căutare.

1. Altavista. Sistemul a fost deschis în decembrie 1995. Deținut de DEC. Din 1996 colaborează cu Yahoo. AltaVista este cea mai buna varianta pentru căutare personalizată . Oricum, sortarea rezultatelor pe categorii Acest lucru nu se face și trebuie să revizuiți manual informațiile furnizate. AltaVista nu oferă niciun mijloc de a prelua liste de site-uri active, știri sau alte capabilități de căutare de conținut.

2.Excitați căutarea. Lansat la sfârșitul anului 1995. În septembrie 1996 - achiziționat de WebCrawler. Această unitate are o blană de căutare puternicăscăzut, posibilitate de setări individuale automateinformațiile furnizate, precum și calificările compilatedescrieri ale mai multor noduri de către personal calificat. Excita diferă de alte noduri de căutare prin aceea căvă permite să căutați servicii de știri și să publicați recenzii Pagini web. Motorul de căutare folosește instrumentecăutare standard de cuvinte cheie și euristicămetode de căutare a conținutului. Datorită acestei combinații,puteți găsi pagini relevante Web, dacă nu conțin o cheie specificată de utilizator cuvinte Dezavantajul Excite este o interfață oarecum haotică.

3.HotBot. Lansat în mai 1996. Deținut de Wired. Bazat pe tehnologia motorului de căutare Berkeley Inktomi. HotBot este o bază de date care conține documente indexate de textul integral, și unul dintre cele mai cuprinzătoare motoare de căutare de pe Web. Capacitățile sale de căutare booleană și capacitatea sa de a limita căutările la orice zonă sau site web ajută utilizatorul să găsească informatiile necesare, eliminând ceea ce este inutil. HotBot oferă posibilitatea de a selecta parametrii de căutare doriti din listele derulante.

4.Căutare informații. Lansat înainte de 1995, ușor accesibil. În prezent, conține aproximativ 50 de milioane de adrese URL. Infoseek are o interfață bine concepută și excelentă instrumente de căutare. Majoritatea răspunsurilor la interogări sunt însoțite de link-uri „subiecte conexe”, iar fiecare răspuns este urmat de link-uri „pagini similare”. Baza de date a motorului de căutare a paginilor indexate după text integral. Răspunsurile sunt ordonate după doi indicatori: frecvența de apariție a cuvântului sau a frazelor pe pagină tsakh, precum și locația cuvintelor sau expresiilor pe pagini. Există un Director Web, împărțit în 12 categorii cu sute de subcategorii care pot fi căutate. Fiecare pagină de catalog conține o listă de re noduri recomandate.

5. Lycos. Funcționează din mai 1994. Cunoscut și folosit pe scară largă. Include un director cu un număr mare de adrese URL. și motorul de căutare Point cu tehnologie analiza statistica conținutul paginii, spre deosebire de indexarea textului integral. Lycos conține știri, recenzii de site-uri, link-uri către site-uri populare, hărți ale orașului și instrumente pentru găsirea adreselor, imaginilor expresii și clipuri audio și video. Lycos aranjează răspunsurile după gradul de corelaresatisfacerea unei cereri bazate pe mai multe criterii, de exemplu, numărullu termeni de căutare, găsit în adnotarea la docment, interval întreîn cuvinte dintr-o anumită expresie a documentului, locațietermenii din document.

6. WebCrawler. Deschis pe 20 aprilie 1994 ca proiect al Universității din Washington. WebCrawler oferă oportunități sintaxă pentru specificarea interogărilor, precum și o selecție mare adnotări de noduri cu o interfață simplă.


După fiecare răspuns, WebCrawler va afișa o pictogramă mică care indică o potrivire aproximativă cu cererea. Comee afișează, de asemenea, o pagină cu un scurt rezumat pentru fiecare răspuns, adresa URL completă, un scor de potrivire exactă și, de asemenea, utilizează acest răspuns în interogarea exemplu ca cuvinte cheie.Interfață grafică pentru configurarea interogărilor în Nu există web crawler. N nu este permisutilizarea simbolurilor universale este de asemenea imposibilăatribuiți ponderi cuvintelor cheie.Nu există nicio modalitate de a limita câmpul de căutareo anumită zonă.

7. Yahoo. Cel mai vechi directorul Yahoo a fost lansat la începutul anului 1994. Cunoscut pe scară largă, folosit frecvent și cel mai respectat. În martie 1996, a fost lansat catalogul Yahooligans pentru copii. Apar directoarele regionale și de top Yahoo. Yahoo se bazează pe abonamentele utilizatorilor. Poate servi drept punct de plecare pentru orice căutare pe Web datorită sistemului său de clasificare utilizatorul va găsi un site cu informații bine organizate. Conținutul web se încadrează în 14 categorii generale, enumerate pe pagina de start Yahoo!. În funcție de specificul solicitării utilizatorului, este posibil fie să lucrați cu aceste categorii pentru a vă familiariza cu subcategorii și liste de noduri, fie să căutați cuvinte specificeși termeni în întreaga bază de date. De asemenea, utilizatorul poate limita căutarea în orice secțiune sau subsecțiune a Yahoo!. Datorită faptului că clasificarea nodurilor este efectuată de oameni, și nu pe computer, calitatea linkurilor este de obicei foarte ridicată. Cu toate acestea, rafinarea căutării în caz de eșec este o sarcină dificilă. Alăturați-vă Yahoo ! motor de căutare inclus AltaVista, deci dacă căutați pe Yahoo! se întâmplă automat repetare folosind un motor de căutare AltaVista . Rezultatele sunt apoi trimise la Yahoo!. Yahoo! oferă posibilitatea de a trimite interogări de căutare către Usenet și Fourl 1 pentru a afla adrese e-mail.

Motoarele de căutare rusești includ:

1. Rambler Acesta este un motor de căutare în limba rusă. Secțiunile enumerate pe pagina de pornire Rambler acoperă resurse web în limba rusă. Există un clasificator de informații. O oportunitate convenabilă munca este de a oferi o listă cu cele mai vizitate noduri pentru fiecare tema propusă.

2. Căutare Aport. Aport se clasează printre cele mai importante motoare de căutare certificate Microsoft precum motoarele de căutare localesisteme pentru versiunea rusă Microsoft Internet Explorer. Unul dintre avantajele Aport este englezo-rus și Traducere rusă-englezăîn modul interogări online și căutări de rezultate, datorită cărora puteți căuta în resursele de internet rusești , chiar și fără să cunoască limba rusă. În plus poti cauta informatii ment folosind expresii, chiar și pentru propoziții.Printre principalele proprietăți ale sistemului de căutare Aport putețiîmpărțiți următoarele:

Traducerea interogării și a rezultatelor căutării din rusă în englezălimba chineză și invers;

Verificare automată greșeli de ortografie în cerere;

Afișare informativă a rezultatelor căutării pentru site-urile găsite;

Abilitatea de a căuta în orice formă gramaticală;


limbaj avansat de interogare pentru profesioniști utilizatorii de numerar.

Alte proprietăți de căutare includ:suport pentru cinci pagini de cod principale (operare diferităsisteme) pentru limba rusă, folosind tehnologia de căutarenu există restricții cu privire la URL și data documentelor, implementarea căutăriiprin titluri, comentarii și semnăturila imagini etc., salvarea parametrilor de căutare și definirea numărul de solicitări anterioare ale utilizatorilor, fuzionarea copii ale documentului aflate pe diferite servere.

3.Lista. ru ( http://www.list.ru) În implementarea sa, acest server are multecomun cu sistemul în limba engleză Yahoo!. Pe pagina de start serverul conține link-uri către cele mai populare categorii de căutare.


Lista de link-uri către principalele categorii ale catalogului ia partea centrala. Căutarea în catalog este implementată în așa fel încât rezultatul unei interogări să poată fi găsit atât pe site-uri individuale, cât și pe categorii. Dacă căutarea are succes, sunt afișate adresa URL, titlul, descrierea și cuvintele cheie. Utilizare acceptabilă Limbajul de interogare Yandex. CUlinkul „Structurădirectorul" se deschide în fereastra separata rubricator kata completjurnal. A fost implementată capacitatea de a trece de la rubricator la orice subcategorie selectată. Diviziune tematică mai detaliatăsecțiunea curentă este reprezentată de o listă de legături. Catalogul este organizat astfel astfel încât toate site-urile conținute pe niveluri inferioare stroktururile sunt, de asemenea, prezentate în secțiuni.Lista de resurse afișată este sortată alfabetic, dar puteți alege să sortați după: după timp adaugă meniu, prin tranziție, prin ordinea adaugarii in catalog, conformpopularitate în rândul vizitatorilor catalogului.

4. Yandex. Produsele software din seria Yandex reprezintă un set de instrumente pentru indexarea textului integral și căutarea datelor text, ținând cont de morfologia limbii ruse. Yandex include module pentru analiza morfologică și sinteza, indexare și căutare, precum și un set de module auxiliare, cum ar fi un analizor de documente, limbaje de marcare, convertoare de format și un spider.

Algoritmii de analiză morfologică și de sinteză bazați pe dicționarul de bază sunt capabili să normalizeze cuvintele, adică să găsească forma lor inițială și, de asemenea, să construiască ipoteze pentru cuvintele care nu sunt conținute în dicționarul de bază. Sistemul de indexare full-text vă permite să creați un index compact și să căutați rapid pe baza operatori logici.

Yandex este proiectat să lucreze cu texte la nivel local și în retea globala, și poate fi, de asemenea, conectat ca modul la alte sisteme.

Desigur, lista motoarelor de căutare populare nu se termină aici – numărul lor este de sute. Cu toate acestea, sunt sigur că acestea vor fi mai mult decât suficiente pentru a lucra cu site-uri în limba engleză.

Trebuie remarcat faptul că aproape toate motoarele de căutare prezentate mai sus pot funcționa și cu alfabetul chirilic. Dar pentru a căuta informații în rusă, recomand în continuare motoarele de căutare interne:

Există și alte motoare de căutare în limba rusă, dar acestea sunt cele mai populare, în special primele două.

Orez. 4.1. Motor de căutare sistemul Google

Din cartea Countering Black PR on the Internet autor Kuzin Alexander Vladimirovici

Motoarele de căutare și directoarele ca instrumente pentru promovarea resurselor de pe Internet „de luptă” și pentru a le completa cu conținut

Din cartea Blog. Creați și promovați autor Iuşciuk Evgenii Vladimirovici

Motoarele de căutare și cataloagele ca instrumente pentru promovarea unui blog și completarea acestuia cu conținut Vom vorbi despre automatizarea umplerii unui blog cu conținut interesant, adică despre cum să găsești material pentru un blog mai rapid decât alți bloggeri. Este puțin probabil ca majoritatea cititorilor să reușească la

Din cartea Internet Intelligence [Ghid de acțiune] autor Iuşciuk Evgenii Leonidovici

Compilarea de interogări legate de numele companiei în motoarele de căutare

Din cartea Asamblarea unui computer cu propriile mâini autor Vatamanyuk Alexandru Ivanovici

5.2. Sisteme de operare populare Există multe sisteme de operare și fiecare are propriul său grad de popularitate. Unele sisteme sunt mai bune pentru rețea, în timp ce altele sunt mai bune pentru durata de viață a bateriei, deoarece puteți combina totul fără a pierde performanța și

Din cartea Win2K FAQ (v. 6.0) autorul Shashkov Alexey

(6.10) Există o rețea mixtă, netware și NT, clienți W2kPro și W98. Aparatele cu W98 nu se pot conecta la mașinile cu W2k. Pentru a rezolva această problemă, trebuie să vă legați folosind protocoale: IPX/SPX numai la clientul Novell, TCP/IP numai la Client Microsoft. Puteți face acest lucru în proprietăți conexiuni de rețea meniu

Din cartea Rezumat, cursuri, diploma pe computer autor

Motoare de căutare Dacă aveți nevoie pentru a obține o selecție de materiale pe o mai specifică și informatii speciale, este mai bine să folosiți motoarele de căutare. Un motor de căutare este un set de programe speciale pentru căutarea pe Internet. Ele sunt lipsite de dezavantajele inerente

Din cartea Internet. Noi oportunități. Trucuri și efecte autor Balovsyak Nadezhda Vasilievna

Cum funcționează motoarele de căutare și cum se construiesc corect interogările Motoarele de căutare moderne sunt un set de programe speciale concepute pentru a căuta informații pe Internet Principiul funcționării lor este următorul: din când în când

Din cartea Internet 100%. Tutorial detaliat: de la începător la profesionist autor Gladky Alexey Anatolievici

Cinematografe online populare Unul dintre cinematografele online gratuite populare se află la http://vsekino.tv (Fig. 7.5). Orez.

Din cartea Internet - ușor și simplu! autor Alexandrov Egor

Directoare populare Cel mai popular și complet director din lume este, fără îndoială, Yahoo! (http://dir.yahoo.com) (Fig. 4.4). Orez. 4.4. Cel mai popular director de link-uri Yahoo! Trebuie remarcat faptul că directoarele sunt adesea combinate cu motoarele de căutare, atât de multe dintre cele prezentate

Din cartea Yandex pentru toată lumea autorul Abramzon M. G.

1.11.3. Postări populare Lista postărilor populare este actualizată o dată pe zi. Sunt selectate câteva zeci de astfel de înregistrări, dar doar câteva dintre cele mai populare sunt trimise pagina de titlu Secțiunea de căutare. Restul poate fi vizualizat la link-ul Total records.

Din cartea Cum să găsiți și să descărcați orice fișiere de pe Internet autorul Reitman M.A.

1.11.6. Categorii populare Dacă înainte se vorbea despre ratingul bloggerilor, servicii, cele mai populare postări, acum vom vorbi despre categorii. Categoria mesajului lor este determinată de autorii lor. Cum, de ce, de ce - depinde de subiect, de modă, de starea de spirit. Cu toate acestea

Din cartea Primii pași cu Windows 7. Un ghid pentru începători autor Kolisnichenko Denis N.

1.11.7. Știri populare Evaluarea știrilor a serviciului Yandex este evidențiată ca un bloc separat printre alți indicatori. Ştiri. Acestea sunt știrile despre care se discută cel mai mult pe bloguri. Lista de știri populare este actualizată la fiecare 5-10 minute. Dacă urmați linkul de la

Din cartea Meet the Laptop autor Jukov Ivan

Trackere populare Există multe dispozitive de urmărire torrent în lume ale căror servicii le puteți utiliza. Următoarele sunt cele mai populare trackere.? http://lostfilm.tv este un tracker specializat în seriale TV. De regulă, lansările au dublare și calitate profesională

Din cartea Securitate IT: merită să riscați corporația? de Linda McCarthy

10.2.1. Motoarele de căutare Internetul conține o cantitate imensă de informații. La urma urmei, oricine poate crea un site web pe Internet, astfel încât numărul de site-uri noi crește în fiecare zi. Motoarele de căutare sunt folosite pentru a căuta pe Internet

Din cartea autorului

Aplicații populare de internet ICQ (ICQ) ICQ este un serviciu centralizat de mesagerie instantanee. Utilizatorul serviciului (adică dumneavoastră) lucrează cu un program client (așa-numitul „messenger”). Mesajele sunt trimise instantaneu. De asemenea, puteți

Din cartea autorului

Popular liste poștale Liste de corespondență Bugtraq Această listă discută despre vulnerabilități UNIX, cum pot fi exploatate și cum să le închideți. Scopul său nu este de a învăța cum să piratați sistemele, ci mai degrabă cum să descoperiți vulnerabilități, cum să partajați informații despre acestea, cum să

Se știe că utilizatorii care ajung pe un site din motoarele de căutare furnizează până la patruzeci la sută din trafic. Prin urmare, este foarte util să ai grijă de indexarea corectă a site-ului tău în motoarele de căutare. Prin „indexare corectă” înțeleg că trebuie respectată relevanța interogării și conținutul site-ului, adică, într-un limbaj simplu și accesibil, conținutul site-ului trebuie să corespundă solicitării (unii „maeștri” abuzează de seturi de cuvinte cheie care nu corespund realității De exemplu, când sora mea se pregătea să lanseze un CD cu copii locale ale primelor niveluri ale paginilor Web, cuvântul „x#y” și altele asemenea au fost găsite pe serverele unor companii foarte reputate. care nu avea nimic în comun cu acest tip de vocabular :-).

  • Altavista
  • Preluare-căutare
  • Medialingua
  • Hoinar
  • RusInfOil
  • Russian Express
  • Căutare corporală
  • HotBot
  • Yandex

De ce am enumerat aceste motoare de căutare specifice?

Pentru că, conform observațiilor mele, acestea sunt cele pe care internauții vorbitori de limbă rusă le folosesc. Care sunt „observațiile mele”? Aceasta este o analiză a jurnalelor de acces la serverul meu http://citforum.ru/, mai precis acea parte a jurnalelor în care sunt colectate informații despre HTTP_REFERER, adică. adrese (URL-uri) la care clienții au folosit un link către orice pagină de pe serverul meu.

Altavista este pe primul loc cu o marjă uriașă față de restul. Acest motor de căutare a fost în frunte chiar înainte ca căutarea în diferite limbi (inclusiv documente în limba rusă) să apară acolo. Ei bine, este de înțeles - un server excelent, ușor accesibil, rulează de mult timp (de la începutul anului 1996), o bază de date uriașă de documente (peste 50 de milioane de adrese). De asemenea, trebuie luat în considerare faptul că utilizatorii vorbitori de limbă rusă se află nu numai în Rusia, ci și în Bulgaria, Cehia și Slovacia, Polonia, Israel, Germania, ca să nu mai vorbim de fostele republici ale URSS - Ucraina, Belarus. .. (aș vrea să spun mai ales despre balți: ei sunt cei care, când se întâlnesc pe străzile unor Kaunas sau Tallinn, nu știu rusă, dar în fața monitorului, mai ales dacă este cu adevărat necesar, chiar știu :-)) Deci pentru toți acești utilizatori este mai convenabil să folosiți Altavista, și nu mașinile noastre domestice - mai aproape, tot...

Următorul cel mai popular motor de căutare, destul de ciudat, este cel mai tânăr din Rusia - Yandex. După cum mi-a spus Aleksey Amilyushchenko (comptenia Comptek), astăzi există o medie de 72.000 de solicitări pe zi și există o tendință de +10% pe săptămână (date din 04/07/98). Mi se pare că Yandex este cel mai promițător motor de căutare rusesc. Cu sistemul Comptek de analizare a „marelui și puternic” limbă rusă, Yandex poate ieși victorios în competiția cu a doua balenă din această zonă - Rambler.

Rambler este al treilea motor de căutare serios pentru utilizatorii vorbitori de limbă rusă. Principalul lucru care nu-mi place la el este că ignoră conținutul structurii . (Nu am venit cu asta, asta a spus Dmitry Kryukov de la Stack Ltd.) Probabil, tocmai din cauza refuzului de a lua în considerare cuvintele cheie este afișat un set atât de ciudat de link-uri în rezultatele interogării. Al doilea dezavantaj de natură pur interfață este că rezultatele sunt date în mod constant în codificarea KOI, indiferent de ceea ce utilizatorul a selectat înainte. Al treilea dezavantaj: păianjenul lui Rambler funcționează Protocolul HTTP 0.9, ceea ce duce la erori de indexare, de ex. dacă mai multe locuiesc pe aceeași adresă IP servere virtuale, Rambler îl vede doar pe primul și le consideră pe toate celelalte pur și simplu sinonime. Ei bine, să sperăm că se va rezolva în curând.

Ei bine, pe ultimul loc în ratingul meu se află Aport-Search, care indexează serverele în mod foarte ciudat, RusInfOil, care se închide regulat pentru reconstrucție și TELA-Search - un gadget frumos și aproape inutil pentru serverul www.dux.ru.

Vă puteți întreba: HotBot și metamotorul Pathfinder de la Medialingua au fost și ele pe listă?

Nu le-am uitat, doar că HotBot, dintr-un motiv necunoscut, lasă o mulțime de înregistrări în jurnalele mele, care nu pot fi zboruri aleatorii ale străinilor care nu înțeleg limba rusă (sunt mult mai puține astfel de zboruri din alte mașini importate) și nu am studiat încă suficient de serios „Pathfinder”.

De ce trebuie motoarele de căutare să promoveze un site web?

Este foarte simplu, așa cum am spus deja, motoarele de căutare pot furniza până la patruzeci la sută din trafic către un site. Și pentru ca acest lucru să se întâmple, este necesar ca site-ul tău să fie indexat corect, iar pentru aceasta trebuie să știi cum se face acest lucru.

Și acest lucru se face în felul următor: fie robotul motorului de căutare ajunge însuși pe site-ul tău, fie tu însuți indicați site-ul în interfața corespunzătoare (AddUrl), care este prezent în orice motor de căutare care se respectă. Prima variantă suferă de întârzieri (robotul tot va ajunge acolo, poate într-o zi, poate într-un an: internetul este mare). Al doilea necesită să petrecem ceva timp (o varietate de software pentru înregistrarea automată a site-ului dvs. într-un nor de motoare de căutare nu ne oferă nimic - mașinile sunt importate). Pentru ca totul să se întâmple în la cel mai bun mod

  • necesar:
  • ar trebui să existe măcar ceva text pe site. Motoarele de căutare ignoră imaginile și testele pe ele. Adevărat, puteți duplica textul în atributul alt al etichetei img
  • Fiecare document de site TREBUIE să conțină un titlu semnificativ, cuvinte cheie și o scurtă descriere. Ei scriu doar că motoarele de căutare sunt full-text, dar în realitate nu este cazul. Crearea unui fișier robots.txt (mai ales dacă aveți propriul server
  • precum www.name.ru).

Înregistrarea manuală în fiecare motor de căutare care vă interesează și controlul ulterior al indexării site-ului dumneavoastră.

Deci, ați înregistrat deja prima pagină a site-ului dvs. în diverse motoare de căutare.

Cu alte cuvinte, pur și simplu specificarea paginii în AddURL nu este suficientă. Este necesar să pregătiți documentul în prealabil, astfel încât, ca răspuns la solicitările corespunzătoare către motorul de căutare, în răspunsul acestuia la cerere, linkul către documentul dvs. să fie, dacă nu primul, atunci cel puțin în primele zece link-uri (sau mai bine daca in acest top zece existau mai multe link-uri catre documentele tale:- ). Ce înseamnă „pregătește”?

Aceasta este o întrebare pur tehnică, nimic supranatural. Doar în secțiunea HEAD a fiecărui document de pe site-ul dvs. ar trebui să indicați titlul „vorbitor”, cuvintele cheie, descrierea și roboții.Titlu:

titlul documentului. Un titlu bun și semnificativ poate face un utilizator să-ți aleagă linkul dintre multe altele. Adesea vedeți titluri precum următoarele: „Conținut” - ce, de ce - este neclar, nu există dorința de a verifica. Un alt caz: pe toate paginile site-ului, titlul este „Bine ați venit la companie...” - de asemenea, nu este foarte atractiv să verificați toate documentele intitulate în acest fel. Imaginează-ți că ai selectat modul de căutare după titluri, fără o descriere a fiecărui document.Cuvinte cheie:

listă de cuvinte cheie și expresii separate prin virgulă

  • Indiferent cât de mult ar spune că motoarele de căutare sunt full-text, acest lucru nu este în întregime adevărat, dar conținutul acestui container va ajunge cu siguranță în indexul motorului de căutare. Din păcate, creatorii unuia dintre cele mai mari motoare de căutare interne, Rambler, nu doresc să lucreze la acest container. Dar degeaba. câmpul de conținut nu trebuie să conțină semne de sfârșit de rând, ghilimele etc. caractere speciale
  • , majuscule și minuscule nu contează
  • Nu este recomandat să repeți aceleași cuvinte cheie de mai multe ori, acest lucru poate fi perceput ca spam și pagina riscă să fie eliminată din indexul motorului de căutare.
  • Nu ar trebui să utilizați aceleași cuvinte cheie pentru diferite pagini ale site-ului dvs. Acest lucru este, desigur, mai simplu, dar conținutul documentelor în sine este diferit.
  • Dacă doriți cu adevărat să automatizați acest proces, puteți scrie un program care să scrie toate blocurile selectate ale documentului în acest câmp, de exemplu, ce este între etichetele H, I și B.

dacă rândul în conținut este prea lung, nu este interzis să se facă mai multe construcții similare. În general, volumul total de cuvinte cheie dintr-un document poate ajunge până la 50% din volumul respectivului document. document. Un container destul de util, conținutul său este folosit ca o scurtă descriere a documentelor relevante în răspunsul motoarelor de căutare moderne. Dacă acest container nu există, atunci se returnează un anumit număr de rânduri de la începutul documentului.

  • scurt rezumat al documentului
  • Câmpul de conținut nu trebuie să conțină sfârșit de rând, ghilimele sau alte caractere speciale.
  • Este de dorit să existe un rezumat semnificativ al documentului din câteva propoziții umane, astfel încât utilizatorul motorului de căutare, pe lângă titlu, să poată înțelege semnificația documentului.

Din păcate, motoarele de căutare autohtone nu știu încă să lucreze cu acest container, deși promit că vor învăța în curând.

Este posibil să controlezi acțiunile motoarelor de căutare?

Este posibil, ba chiar necesar! Prima acțiune care trebuie făcută pentru aceasta este să scrieți un fișier robots.txt și să îl puneți în rădăcina serverului dvs.

Acest fișier explică în mod popular robotului motorului de căutare ce ar trebui indexat și ce nu trebuie indexat. De exemplu, de ce indexați fișierele de servicii, cum ar fi rapoartele statistice? Sau rezultatele scripturilor? Mai mult decât atât, multe mașini „inteligente” pur și simplu nu vor indexa serverele fără a găsi robots.txt. Apropo, în acest fișier puteți specifica diferite măști de indexare pentru diferite motoare de căutare. Puteți citi mai multe despre asta în traducerea mea „Standard pentru excluderea roboților”. A doua acțiune: furnizați paginilor site-ului etichete META Robots. Acesta este un instrument de control al indexării mai flexibil decât robots.txt. În special, în această etichetă puteți instrui robotul motorului de căutare să nu urmeze link-uri către alte servere, de exemplu, în documente cu liste de link-uri. Formatul acestei mizerie este următorul: robot_terms este o listă separată prin virgulă cu următoarele cuvinte cheie (caracterele mari sau mici nu contează): ALL, NONE, INDEX, NOINDEX, FOLLOW, FOLLOW. NICI UNUL le spune tuturor roboților să ignore această pagină la indexare (echivalent cu utilizare simultană cuvinte cheie NOINDEX, NOFOLLOW). TOATE permite indexarea acestei pagini și a tuturor linkurilor din ea (echivalent cu utilizarea simultană a cuvintelor cheie INDEX, FOLLOW). INDEX permite indexarea acestei pagini NOINDEX nu permite ca această pagină să fie indexată nu permite indexarea linkurilor din această pagină

Dacă această metaetichetă este omisă sau nu sunt specificate robot_terms, atunci în mod implicit robotul de căutare acționează ca și cum robot_terms=INDEX, FOLLOW (adică ALL) ar fi fost specificate. Dacă cuvântul cheie ALL este detectat în CONȚINUT, atunci robotul acționează în consecință, ignorând eventual alte cuvinte cheie specificate. Dacă CONȚINUT conține cuvinte cheie care au semnificații opuse, de exemplu, FOLLOW, NOFOLLOW, atunci robotul acționează la propria discreție (în acest caz, FOLLOW).

Dacă robot_terms conține doar NOINDEX, atunci linkurile din această pagină nu sunt indexate. Dacă robot_terms conține doar NOFOLLOW, atunci pagina este indexată și linkurile sunt ignorate în consecință.

Monitorizarea stării curente a documentelor dumneavoastră în indexul motorului de căutare.

Ei bine, ai citit totul de mai sus și ai făcut-o. Ce urmează? Și apoi va fi o verificare lungă, plictisitoare și, cel mai important, regulată pentru a vedea cum merg lucrurile. Oricât de trist ar fi, va trebui să acordați atenție acestui lucru, fie și doar pentru că documentele dispar uneori din motoarele de căutare. De ce? Aș fi vrut să știu... Deci, în motoarele de căutare bune poți vedea ce documente și câte dintre ele sunt ora curentă este în index. Iată cum se face:

Alta Vista
În acest motor de căutare, verificarea stării adresei URL este destul de simplă - trebuie doar să tastați linia de interogare:

url: citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml

În primul caz, toate paginile serverului indexate vor fi returnate. În a doua - numai pagini de codare Windows.

În al treilea - există un fișier index.shtml din directorul specificat în indexul AltaVista?
Excita

Verificarea stării unei adrese URL în motorul de căutare Excite este la fel de simplă ca și în AltaVista. Doar introduceți adresa URL.
De exemplu:

  • HotBot
  • Starea URL-ului este verificată în motorul de căutare HotBot într-un mod ușor diferit. Acest lucru se face astfel:

Introduceți adresa URL în câmpul de solicitare
Schimbați opțiunea „toate cuvintele” la „linkuri către această adresă URL”

Infoseek
În motorul de căutare Infoseek, există o interfață separată cu un set întreg de setări pentru verificarea stării unei adrese URL:

WebCrawler
WebCrawler oferă posibilitatea de a verifica starea unei adrese URL pe o pagină:

  • HoinarÎn acest motor de căutare, starea adresei URL poate fi verificată în două moduri.

În secțiunea „Căutare avansată”, specificând numele serverului ca mască într-una dintre opțiuni

Top 100 de cuvinte pe Rambler MOTOR DE CĂUTARE INTERNET, dar găsirea celui potrivit poate dura mult timp. Aceasta este una dintre principalele probleme care au dat naștere apariției motoarelor de căutare. Motoarele de căutare pe Internet sunt asociate cu baze de date care catalogează o mare parte din informațiile disponibile pe Internet. Motoarele de căutare au programe care indexează bazele de date, iar bibliotecarii umani categorizează, sortează și transformă Web-ul într-un mediu de căutare. În ciuda faptului că există peste 100 de motoare de căutare și instrumente de navigare, utilizatorii se confruntă adesea cu frustrare cauzată de dificultăți în a găsi informațiile de care au nevoie. Și întrebarea principală astăzi rămâne nu disponibilitatea uneia sau acelea informații pe Internet, ci întrebarea unde să le cauți.

Motoarele de căutare sunt compuse din trei elemente principale. Primul element este indexerul sau, așa cum este numit și „păianjenul”. Indexatorul citește informații de pe o pagină web și urmărește link-uri către alte pagini de pe același site web. Site-urile web sunt vizualizate în mod regulat, o dată pe lună sau o dată la două luni; acest lucru este necesar pentru a monitoriza schimbările. Toate datele despre informațiile găsite merg în a doua parte a motorului de căutare, index sau, așa cum se numește uneori, catalog. Aceasta este ceva ca o carte uriașă care stochează cuprinsul fiecărei pagini web găsite de indexator. Când o pagină web se modifică, informațiile despre aceasta din index sunt de asemenea actualizate. Uneori pagini noi sau modificări nu apar imediat în catalog. Până când datele despre pagina web nu sunt incluse în catalog, pagina este inaccesibilă motorului de căutare. Software motorul de căutare este a treia componentă. Acest program parcurge milioane de pagini catalogate pentru a găsi informații care se potrivesc cu intenția de căutare și apoi le clasifică în funcție de relevanța lor pentru obiectivul specificat. Motoarele de căutare concepute pentru a analiza site-urile web se bazează pe utilizarea interogărilor. Utilizatorul introduce cuvinte sau expresii relevante pentru subiectul de interes.

Program special(păianjenul) „se târăște” pe Web și apoi, folosind algoritmi speciali de căutare, găsește datele necesare în câteva secunde. Când răspunde la o interogare de căutare, motorul de căutare caută milioane de surse și găsește adresele documentelor relevante. Motoarele de căutare oferă liste adnotate de hyperlinkuri către paginile de Internet relevante. Dacă faceți clic pe un hyperlink, adresa URL corespunzătoare va fi folosită pentru a găsi text, imagini și link-uri pe alt computer. Motoarele de căutare de pe Internet cu cataloagele lor uriașe de pagini web îmbunătățesc constant algoritmii de căutare și își extind funcționalitatea. Fiecare motor de căutare are propria sa personalitate (are propriile sale caracteristici speciale) și funcționează diferit. Munca multor motoare de căutare este considerată destul de reușită. Totuși, totul sisteme moderne suferă de unele dezavantaje serioase:



1. Căutările prin cuvinte cheie generează prea multe link-uri, iar multe dintre ele sunt inutile.

2. Un număr mare de motoare de căutare cu diferite interfețe cu utilizatorul creează problema supraîncărcării cognitive.

3. Metodele de indexare a bazelor de date, de regulă, nu sunt legate semantic de conținutul informației.

4. Strategiile inadecvate de întreținere a directoarelor duc adesea la legături către informații care nu mai sunt disponibile pe Internet.

5. Motoarele de căutare nu sunt încă suficient de avansate pentru a înțelege limbajul natural.

6. Cu nivelul de acces pe care îl oferă motoarele de căutare moderne, este aproape imposibil de făcut concluzie argumentată despre utilitatea sursei.

ÎN în ultima vreme nevoia de asistență intelectuală crește rapid: asistență este necesară pentru căutarea productivă a informațiilor, pentru navigarea pe Internetul vast sau rețeaua corporativă informatii de specialitate. Acest lucru a dus la apariția agenților inteligenți. De obicei, agenții inteligenți sunt o parte integrantă a unui motor de căutare. Unele programe deosebit de avansate sunt ca asistenții vii. Tehnologiile de inteligență artificială sunt folosite pentru căutarea și sortarea informațiilor. Un astfel de motor de căutare „gândește” și acționează pe cont propriu. Utilizatorul îl antrenează pe agent, apoi agentul caută pe Internet pentru a selecta documentele necesare din milioanele de documente disponibile și a le evalua. Utilizatorul poate „rechema” agentul inteligent în orice moment și poate vedea cum progresează munca sau poate continua antrenamentul pe baza informațiilor găsite, ceea ce va face căutarea și mai precisă. Tabelul 3 prezintă exemple de agenți inteligenți și caracteristicile acestora.

Agenții inteligenți efectuează o serie de instrucțiuni în numele utilizatorului sau al unui alt program, pot lucra independent și au un anumit grad de autonomie în rețea. Există unele diferențe între agenții inteligenți și appleturile Java. Aplicațiile Java sunt descărcate de pe Internet și rulează pe computerul utilizatorului. Agenții inteligenți intră de fapt online și caută aplicații care ajută la finalizarea unei sarcini și la îndeplinirea misiunii de la distanță, eliberând computerul utilizatorului pentru alte sarcini. Când scopul este atins, aceștia anunță utilizatorul că lucrarea este finalizată și îi prezintă rezultatele.

Agenții inteligenți sunt capabili să „înțeleagă” de ce informații are nevoie utilizatorul. Agenții pot fi programați să schimbe comportamentul pe baza experienței și a interacțiunilor cu alți agenți. Caracteristicile generalizate ale agenților inteligenți pot fi prezentate după cum urmează:

Inteligenta - bazata pe invatare feedback, prin exemple, erori și prin interacțiunea cu alți agenți.

Ușurință în utilizare - agenții pot fi „antrenați” folosind limbajul natural.

Abordare individuală - agenții se adaptează la preferințele utilizatorului.

Integrare - învățare continuă, aplicarea cunoștințelor existente în situații noi, dezvoltarea unui model mental.

Autonomie - agenții sunt capabili să „simte” mediul și să răspundă la schimbările acestuia și sunt capabili să tragă concluzii.

Tabelul 3

Exemple de agenți inteligenți și caracteristicile acestora.

Amploarea resurselor informaționale și numărul lor de pe Internet sunt în continuă expansiune. Devine clar că baza de date centralizată tipică motoarelor de căutare nu este o soluție satisfăcătoare. Agenții inteligenți sunt un domeniu complet nou care stă la baza următoarei generații de motoare de căutare care vor putea filtra informațiile și vor obține rezultate mai precise. De exemplu, Hyperlink-Induced Topic Search Engine, dezvoltat de John Kleinberg de la Universitatea Cornell. Acest motor de căutare nu caută cuvinte cheie. Sistemul analizează structura naturală a Web-ului, căutând „comunități” de pagini legate de un anumit subiect, apoi află care dintre aceste pagini sunt considerate semnificative din punctul de vedere al autorilor paginii înșiși. Această idee este similară cu valorile de citare, care au fost folosite de mult timp în comunitatea academică. Această abordare este mai eficientă și mai fiabilă decât căutările tradiționale de cuvinte cheie.

Bună ziua, dragi cititori ai blogului. , atunci puținii săi utilizatori s-au săturat propriile tale marcaje. Cu toate acestea, după cum vă amintiți, s-a întâmplat în progresie geometrică și foarte curând a devenit mai dificil de navigat în toată diversitatea sa.

Apoi au apărut directoare (Yahoo, Dmoz și altele), în care autorii lor adăugau și sortau diverse site-uri pe categorii. Acest lucru a făcut imediat viața mai ușoară pentru utilizatorii de atunci, încă nu foarte numeroși, ai rețelei globale. Multe dintre aceste cataloage sunt încă în viață astăzi.

Dar după ceva timp, dimensiunea bazelor lor de date a devenit atât de mare încât dezvoltatorii s-au gândit mai întâi să creeze o căutare în ele și apoi să creeze sistem automatizat indexarea întregului conținut de pe Internet pentru a-l face accesibil tuturor.

Principalele motoare de căutare ale segmentului de limbă rusă a internetului

După cum înțelegeți, această idee a fost implementată cu un succes uimitor, dar, totuși, totul a ieșit bine doar pentru o mână de companii selectate care au reușit să nu dispară pe internet. Aproape toate motoarele de căutare care au apărut în primul val acum fie au dispărut, au lânceit, fie au fost cumpărate de concurenți mai de succes.

Un motor de căutare este un mecanism foarte complex și, important, foarte consumator de resurse (aceasta înseamnă nu numai resurse materiale, ci și umane). În spatele aparentului simplu, sau a analogului său ascetic de la Google, există mii de angajați, sute de mii de servere și multe miliarde de investiții care sunt necesare pentru ca acest colos să continue să funcționeze și să rămână competitiv.

A intra acum pe această piață și a începe de la zero este mai mult o utopie decât afaceri adevărate proiect. De exemplu, una dintre cele mai bogate corporații din lume, Microsoft, încearcă de zeci de ani să se introducă pe piața de căutare și abia acum motorul lor de căutare Bing începe încetul cu încetul să le răspundă așteptărilor. Și înainte de asta a existat o serie întreagă de eșecuri și eșecuri.

Ce putem spune despre intrarea pe această piață fără influențe financiare speciale. De exemplu, motorul nostru de căutare autohton Nigma are o mulțime de lucruri utile și inovatoare în arsenalul său, dar traficul lor este de mii de ori mai mic decât liderii pieței ruse. De exemplu, aruncați o privire asupra audienței zilnice Yandex:

În acest sens, putem presupune că lista principalelor (cele mai bune și mai norocoase) motoare de căutare ale Runetului și ale întregului Internet a fost deja formată și întreaga intrigă stă doar în cine va devora în cele din urmă pe cine sau cum vor fi distribuite. cota procentuală, dacă toți supraviețuiesc și rămân pe linia de plutire.

Piața rusă a motoarelor de căutare este foarte clar vizibil și aici, probabil, putem distinge doi sau trei jucători principali și câțiva minori. În general, în RuNet s-a dezvoltat o situație destul de unică, care, după cum am înțeles, s-a repetat doar în alte două țări ale lumii.

Vorbesc despre faptul că motorul de căutare Google, care a venit în Rusia în 2004, încă nu a fost capabil să preia conducerea. De fapt, ei au încercat să cumpere Yandex în această perioadă, dar ceva nu a mers acolo și acum „Rusia noastră”, împreună cu Cehia și China, sunt acele locuri în care atotputernicul Google, dacă nu a fost învins, atunci, în în orice caz, a întâlnit o rezistență serioasă.

De fapt, pentru a vedea starea actuală a lucrurilor printre cele mai bune motoare de căutare Runet Oricine poate. Va fi suficient să lipiți această adresă URL în bara de adrese browserul tau:

Http://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

Ideea este că cele mai multe folosește pe site-urile sale web, iar această adresă URL vă permite să vedeți statistici ale vizitatorilor din diferite motoare de căutare către toate site-urile web care aparțin zonei de domeniu RU.

După ce ați introdus adresa URL dată, veți vedea o imagine care nu este foarte atractivă și prezentabilă, dar reflectă bine esența problemei. Acordați atenție primelor cinci motoare de căutare de la care site-urile în limba rusă primesc trafic:

Da, desigur, nu toate resursele cu conținut în limba rusă se află în această zonă. Există, de asemenea, SU și RF, iar zonele generale precum COM sau NET sunt pline de proiecte Internet axate pe Runet, dar totuși, eșantionul este destul de reprezentativ.

Această dependență poate fi prezentată într-un mod mai colorat, așa cum, de exemplu, cineva a făcut-o online pentru prezentarea sa:

Asta nu schimbă esența. Există câțiva lideri și câțiva foarte, foarte departe de motoarele de căutare. Apropo, am scris deja despre multe dintre ele. Uneori poate fi destul de interesant să te arunci în istoria succesului sau, dimpotrivă, să aprofundezi în motivele eșecurilor unor motoare de căutare cândva promițătoare.

Deci, în ordinea importanței pentru Rusia și Runet în ansamblu, le voi enumera și le voi oferi scurte caracteristici:

    Căutarea pe Google a devenit deja un cuvânt de uz casnic pentru mulți oameni de pe planetă - puteți citi despre asta în link. În acest motor de căutare, mi-a plăcut opțiunea „traducerea rezultatelor”, când primeai răspunsuri din toată lumea, dar în limba ta maternă, dar acum, din păcate, nu este disponibilă (cel puțin pe google.ru).

    În ultimul timp am fost, de asemenea, nedumerit de calitatea rezultatelor lor (Pagina de rezultate ale motorului de căutare). Personal, folosesc întotdeauna mai întâi motorul de căutare în oglindă RuNet (există unul acolo, ei bine, m-am obișnuit) și numai dacă nu găsesc acolo un răspuns inteligibil, apelez la Google.

    De obicei eliberarea lor m-a bucurat, dar în ultima vreme nu m-a făcut decât să mă încurce - uneori ies la iveală asemenea prostii. Este posibil ca lupta lor de a crește veniturile din publicitatea contextuală și amestecarea constantă a rezultatelor căutării pentru a discredita promovarea SEO să ducă la rezultatul opus. În orice caz, acest motor de căutare are un concurent pe RuNet și ce fel de acesta.

    Cred că este puțin probabil ca cineva să meargă în mod special la Go.mail.ru pentru a căuta în RuNet. Prin urmare, traficul către proiecte de divertisment din acest motor de căutare poate fi semnificativ mai mare de zece procente. Proprietarii unor astfel de proiecte ar trebui să acorde atenție acestui sistem.

Cu toate acestea, pe lângă liderii clari de pe piața motoarelor de căutare a segmentului de limbă rusă a internetului, mai există câțiva jucători a căror cotă este destul de scăzută, dar cu toate acestea, însuși faptul existenței lor face necesar să rostim câteva cuvinte. despre ei.

Motoarele de căutare Runet din eșalonul doi


Motoare de căutare pe Internet

În general, pe scara întregului Internet există un singur jucător serios - Google. Acesta este liderul de necontestat, dar mai are ceva concurență.

În primul rând, este tot la fel Bing, care, de exemplu, are o poziție foarte bună pe piața americană, mai ales având în vedere că motorul său este folosit și pe toate serviciile Yahoo (aproape o treime din întreaga piață de căutare din SUA).

Ei bine, în al doilea rând, din cauza ponderii uriașe pe care o alcătuiesc utilizatorii din China în numărul total de utilizatori de Internet, lor motorul de căutare principal numit Baidu se încadrează în distribuția locurilor de pe Olimpul mondial. S-a născut în 2000 și acum ponderea sa este de aproximativ 80% din întregul public național din China.

Este greu de spus ceva mai inteligibil despre Baidu, dar pe internet exista pareri ca locurile din Topul sau sunt ocupate nu doar de site-urile cele mai relevante pentru cerere, ci si de cei care au platit-o (direct catre motorul de cautare). , și nu la biroul SEO). Desigur, acest lucru se aplică în primul rând înregistrărilor comerciale.

În general, privind statisticile, devine clar de ce Google acceptă cu ușurință să-și înrăutățească rezultatele căutării în schimbul creșterii profiturilor din publicitatea contextuală. De fapt, nu le este frică de abandonul utilizatorilor, pentru că în cele mai multe cazuri nu au unde să meargă. Această situație este oarecum tristă, dar vom vedea ce se întâmplă în continuare.

Apropo, pentru a face viața și mai dificilă pentru optimizatori și poate pentru a menține liniștea minții utilizatorilor acestui motor de căutare, Google a folosit recent criptarea atunci când transmite interogări din browserele utilizatorilor către bara de căutare. În curând nu va mai fi posibil să vedeți în statisticile contoarelor de vizitatori pentru ce interogări au venit utilizatorii Google.

Desigur, pe lângă motoarele de căutare menționate în această publicație, există mii de altele - regionale, specializate, exotice etc. Încercarea de a le enumera și de a descrie pe toate într-un singur articol ar fi imposibilă și probabil nu necesară. Să spunem mai bine câteva cuvinte despre cât de ușor este să creezi un motor de căutareși cât de ușor și de ieftin este să-l ții la zi.

Marea majoritate a sistemelor funcționează pe principii similare (citiți despre asta și asta) și urmăresc același scop - de a oferi utilizatorilor un răspuns la întrebarea lor. Mai mult, acest răspuns trebuie să fie relevant (corespunzător întrebării), cuprinzător și, ceea ce nu este lipsit de importanță, relevant (de primă prospețime).

Rezolvarea acestei probleme nu este atât de ușoară, mai ales având în vedere că motorul de căutare va trebui să analizeze din mers conținutul a miliarde de pagini de internet, să le îndepărteze pe cele inutile, iar din cele rămase să formeze o listă (problemă), unde sunt cele mai multe răspunsurile adecvate la întrebarea utilizatorului vor apărea mai întâi.

Această sarcină extrem de complexă este rezolvată prin colectarea preliminară a informațiilor din aceste pagini folosind diverse roboți de indexare. Ei colectează link-uri de la paginile deja vizitate și încarcă informații din acestea în baza de date a motorului de căutare. Există roboți care indexează text (un bot obișnuit și rapid care trăiește din știri și resurse actualizate frecvent, astfel încât cele mai recente date să fie întotdeauna prezentate în rezultatele căutării).

În plus, există roboți care indexează imaginile (pentru ieșirea lor ulterioară), favicon-uri, oglinzi de site (pentru compararea lor ulterioară și posibila lipire), roboți care verifică funcționalitatea paginilor de Internet, care utilizatorii sau prin instrumente pentru webmasteri (aici pot citi despre, și) .

Procesul de indexare în sine și procesul ulterior de actualizare a bazelor de date indexate necesită destul de mult timp. Deși Google face acest lucru mult mai repede decât concurenții săi, cel puțin Yandex, care durează o săptămână sau două pentru a face acest lucru (citiți despre).

De obicei, motorul de căutare descompune conținutul text al unei pagini de Internet în cuvinte individuale, ceea ce duce la principii de bază pentru ca apoi să dai răspunsuri corecte la întrebările puse sub diferite forme morfologice. Tot excesul de trusă de corp în formă Etichete HTML, spatii etc. lucrurile sunt șterse, iar cuvintele rămase sunt sortate alfabetic și poziția lor în acest document este indicată lângă ele.

Acest tip de lucru se numește index invers și vă permite să căutați nu după pagini web, ci după date structurate situate pe serverele motoarelor de căutare.

Numărul de astfel de servere pentru Yandex (care caută în principal numai site-uri în limba rusă și puțin pentru ucraineană și turcă) este de zeci sau chiar sute de mii, iar pentru Google (care caută în sute de limbi) - de milioane .

Multe servere au copii, care servesc atât la creșterea securității documentelor, cât și la creșterea vitezei de procesare a cererilor (prin distribuirea încărcăturii). Estimați costurile menținerii întregii economii.

Solicitarea utilizatorului va fi trimisă de echilibrator de încărcare către segmentul de server care este cel mai puțin încărcat în prezent. Apoi se efectuează o analiză a regiunii din care utilizatorul motorului de căutare și-a trimis solicitarea și se face o analiză morfologică a acesteia. Dacă o cerere similară a fost introdusă recent bara de căutare, apoi utilizatorului i se oferă date din cache pentru a nu supraîncărca serverele.

Dacă cererea nu a fost încă memorată în cache, atunci este transferată în zona în care se află baza de date index a motorului de căutare. Ca răspuns, veți primi o listă cu toate paginile de internet care sunt cel puțin oarecum legate de cerere. Nu sunt luate în considerare doar aparițiile directe, ci și alte forme morfologice, precum și etc. lucruri.

Lor trebuie clasatși în acest stadiu intră în joc algoritmul ( inteligenţă artificială). De fapt, cererea utilizatorului se înmulțește în detrimentul tuturor opțiuni posibile interpretarea acestuia și răspunsurile la multe întrebări sunt căutate simultan (prin utilizarea operatorilor de limbaj de interogare, dintre care unii sunt disponibili pentru utilizatorii obișnuiți).

De regulă, rezultatele căutării conțin o pagină de pe fiecare site (uneori mai multe). sunt acum foarte complexe și iau în considerare mulți factori. În plus, pentru a le corecta, și sunt utilizate, care evaluează manual site-urile de referință, ceea ce vă permite să ajustați funcționarea algoritmului în ansamblu.

În general, este clar că problema este întunecată. Putem vorbi despre asta mult timp, dar este deja clar că satisfacția utilizatorilor cu un sistem de căutare este atinsă, oh, cât de dificil este. Și întotdeauna vor exista cei cărora nu le place ceva, ca tine și mine, dragi cititori.

Mult succes pentru tine! Ne vedem curând pe paginile site-ului blogului

Puteți viziona mai multe videoclipuri accesând
");">

S-ar putea să fiți interesat

Yandex People - cum să cauți oameni după rețelele sociale Apometr este un serviciu gratuit de urmărire a modificărilor rezultatelor căutării și a actualizărilor motoarelor de căutare. DuckDuckGo - un motor de căutare care nu te urmărește
Cum se verifică viteza internetului - test online conexiuni la computer și telefon, SpeedTest, Yandex și alte contoare
Imagini Yandex și Google, precum și căutarea după fișier imagine în Tineye (tinai) și Google