Roboţi web

Un robot web (Web crawler, Web spider, Web robot, sau, în comunitatea FOAF, Web scutter) este un program sau script automat care scrutează World Wide Web metodic, automat. Alte nume mai puţin uzuale sunt ante-uri, indexori atutomat, boturi, sau viermi (ants, automatic indexers, bots, worms) (Kobayashi, M. and Takeda, K. (2000). “Information retrieval on the web“. ACM Computing Surveys (ACM Press) 32 (2): 144–173. doi:10.1145/358923.358934.).

Procesul este denumit  Web crawling sau spidering. Multe situri, în special motoarele de căutare, folosesc spidering pentru a-şi actualiza datele. Roboţii web sunt folosiţi în principal pentru a crea copii ale tuturor paginilor vizitate pentru procesarea ulterioară de către motoarele de căutare care le indexează pentru a oferi o căutare rapidă. Roboţii pot fi de asemenea folosiţi pentru întreţinerea automată a sitului web, precum în verificarea linkurilor sau validarea codurilor HTML. De asemenea, roboţii pot fi folosiţi pentru a obţine anumite tipuri specifice de informaţii din paginile web, precum extragerea adreselor de email (folosite de obicei pentru spam).

Un robot este un tip de bot, sau agent software. În general, el foloseşte o listă de URL-uri pentru vizite, denumite grăunţi (seeds). În vizitele sale pe aceste URL-uri, robotul identifică toate hiperlinkurile din pagini şi le adaugă la lista de URL.uri de vizitat, denumită front de lucru (crawl frontier). URL-urile din frontul de lucru sunt revizitate periodic în funcţie de un set de politici.

Referinţe

(Traducere şi adaptare din Wikipedia sub licenţa GNU de NS)

Video: Lecture -38 Search Engine And Web Crawler – Part-I

Share
Roboţi web

This entry was posted on joi, februarie 12th, 2009 at 5:34 and is filed under Roboţi web. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

Leave a Reply