Co musisz wiedzieć o wyszukiwarkach
2007-09-27 13:22
© fot. mat. prasowe
Fenomen wyszukiwania w Internecie to prawdziwe biznesowe El Dorado. W gospodarce opartej na informacji i wiedzy wyszukiwarki są pierwszym sitem ułatwiającym znajdowanie złotych grudek w potokach informacyjnego szlamu. Aby rozumieć właściwą rolę wyszukiwarek w biznesie, a co za tym idzie także umiejętnie z nich korzystać, warto poznać je poznać bliżej. Oto 7 najważniejszych rzeczy, które musisz wiedzieć o wyszukiwarkach.
Przeczytaj także: Google nie chce słowa "google"
Rzecz pierwsza - JAKWyszukiwarka składa się z trzech podstawowych elementów: szperacza, indeksu oraz przetwarzającego zapytania systemu wykonawczego (interfejsu) i związanego z nim programu, który łączy zapytania z indeksem. System wykonawczy zarządza również bardzo ważnymi kwestiami trafności i rankingu. Wszystkie trzy elementy są nierozerwalnie związane z jakością i szybkością działania wyszukiwarki, a w każdym z nich można wyróżnić setki czynników mających wpływ na całościowy proces wyszukiwania.
Wyszukiwanie zawsze zaczyna się od użytkownika: jego zapytania i jego intencji - chęci uzyskania odpowiedzi, znalezienia strony czy też dowiedzenia się czegoś nowego. Intencje są motorem wyszukiwania. W przeciętnym wyszukiwaniu do pola wpisujemy jedno lub dwa krótkie słowa, a z wyświetlanych milionów wyników sprawdzamy kliknięciem średnio jeden lub dwa. Oczywiście są to tylko średnie. Niewielki procent osób zawodowo skazanych na surfowanie (na przykład dziennikarze) wykonuje bowiem setki wyszukiwań dziennie, a niektórzy tylko kilka miesięcznie.
Proces wyszukiwania rozpoczyna się od szperacza. Szperacz (ang. crawler) to specjalistyczny program przeskakujący w sieci www z odsyłacza na odsyłacz, zbierający informacje o znalezionych stronach i odsyłający je do zindeksowania. Szperacze można sobie wyobrazić jako malutkie roboty przemierzające rozległą cyberprzestrzeń, ale prawda jest mniej czarująca. Szperacze są domatorami siedzącymi w swoich serwerach i wysyłającymi bardzo wiele żądań do znajdujących się w Internecie stron, podobnie jak czyni to przeglądarka.
W wyniku tych żądań pojawiają się informacje o stronach WWW, które szperacz przekazuje indeksatorowi. Odnotowuje jednocześnie wszystkie znalezione na stronie odsyłacze (linki), umieszczając je w kolejce w pliku z żądaniami. Następnie wysyła kolejne żądania do tych odsyłaczy, znajduje dalsze odsyłacze, i tak dalej w nieskończoność Im więcej stron szperacze odwiedzają i im częściej to czynią, tym kompletniejszy jest indeks. A im kompletniejszy indeks, tym trafniejsze są wyniki wyświetlane po wysłaniu zapytania.
Pierwsze wersje szperaczy wykrywały i indeksowały tylko tytuły stron www, ale dzisiejsze, bardziej zaawansowane wersje, indeksują zawartość całej strony www, a także różne typy plików jak np. Adobe Acrobat (PDF), dokumenty Microsoft Office, pliki dźwiękowe i wideo, a nawet meta dane czyli przygotowywane przez webmasterów strukturalne informacje o indeksowanych stronach i ich zawartości.
Szperacz odsyła znalezione przez siebie informacje do gigantycznej bazy danych zwanej indeksem. Indeks dzieli się na kilka części, zależnie od tego czy dane zostały przetworzone i uzdatnione do udostępnienia zwykłym użytkownikom. Surowe indeksy mają postać list uporządkowanych na podstawie domeny: w indeksie znajduje się lista słów znalezionych na określonej stronie, a także istotne informacje o niej np. słowa na stronie, odsyłacze, tekst kotwicy (tekst wokół i w obrębie odsyłacza) itd. Informacje są zorganizowane w ten sposób, że znając adres URL można znaleźć związane z nim słowa.
Dlaczego ma to znaczenie? Ponieważ kolejny etap tworzenia inteligentnego indeksu polega na odwróceniu bazy danych czyli zbudowaniu listy słów, które są następnie kojarzone z adresami URL. Dlatego też gdy wpiszemy do wyszukiwarki "Mongolia zewnętrzna", wyszukiwarka może natychmiast wyłuskać listę adresów URL, wszystkich stron, na których słowa te się znajdują.
Przeczytaj także:
Czy SearchGPT może zagrozić Google?
oprac. : Wydawnictwo Naukowe PWN