Arhiva etichetelor: crawler

Internet data mining

Internet data mining sau web mining

Se referă la descărcarea (culegerea) de date de pe internet. Putem face asta și manual însă este o muncă foarte migăloasă. Imaginați-vă ce înseamna să intrați pe siteul unei librării online și să copiați toate titlurile de cărți și codurile ISBN astfel încât la final să aveți un tabel în excel. Gândiți-vă că un astfel de tabel poate avea și milioane de rânduri. Este mult mai ușor să facem asta automat.

Copierea conținutului unui site

Există programe ce copiază conținutul unui site, însă aceste programe copiază în totalitate conținutul, toate sursele HTML ale siteului și nu date structurate cum am avea nevoie.

Colectarea datelor

Pentru a colecta date structurate într-un mod automat se folosesc programe software. Aceste programe care colectează datele sunt numite web scrapers, web spiderscrawlers sau web data extractors.

Aceste programe sunt de cele mai multe ori programe specifice făcute special pentru o anumita sursa de date și au capacitatea de a prelua date structurate.

Când spunem date structurate de cele mai multe ori ne gândim la tabele de date care pot fi: tabele cu anunțuri, tabele cu articole, tabele cu produse și prețuri, tabele cu adrese URL și multe altele.

De exemplu pentru a lua toate anunțurile de pe un site de evenimente de multe ori se crează un program special în acest scop, sau se configurează un program generic pentru siteul din care vrem să extragem datele.

Astfel de servicii sunt oferite de firme precum TheWebMiner.