Arhiva etichetelor: web scraping

Când avem nevoie de web mining?

În articolul precedent am scris despre internet data mining sau web mining.

Ca să înțelegem mai bine când avem nevoie de web mining voi scrie mai jos câteva exemple de situații:

Conținut

Când avem nevoie să obținem o listă de produse.

Când avem nevoie să obținem o listă cu articole sau titluri.

Când vrem să urmărim schimbările de pe siteurile concurenților.

Email marketing

Când avem nevoie să obținem adrese de email de oameni dintr-un anumit domeniu.

Când avem nevoie de date de contact de la firme dintr-un anumit domeniu.

Prețuri

Când avem nevoie să obținem o listă de prețuri pentru a găsi cel mai mic preț.

Când avem nevoie să obținem o listă de prețuri pentru a urmării trenduri de preț.

Când avem nevoie să obținem o listă de prețuri pentru a compara prețuri în diferite locuri.

Descoperiri și analiză

Când vrem să descoperim noi oportunități de piață, Exemplu: zone mari în care nu există stații de benzină.

Când vrem să urmărim și analizăm anumite schimbări ce se petrec pe un site.

Când vrem să comparam date din mai multe surse web (din mai multe siteuri).

…și multe altele

Exemplele de mai sus au fost doar câteva, în realitate există nenumărate utilizări ale acestei tehnici de obținere de date. Câteva exemple găsiți și aici.

Internet data mining

Internet data mining sau web mining

Se referă la descărcarea (culegerea) de date de pe internet. Putem face asta și manual însă este o muncă foarte migăloasă. Imaginați-vă ce înseamna să intrați pe siteul unei librării online și să copiați toate titlurile de cărți și codurile ISBN astfel încât la final să aveți un tabel în excel. Gândiți-vă că un astfel de tabel poate avea și milioane de rânduri. Este mult mai ușor să facem asta automat.

Copierea conținutului unui site

Există programe ce copiază conținutul unui site, însă aceste programe copiază în totalitate conținutul, toate sursele HTML ale siteului și nu date structurate cum am avea nevoie.

Colectarea datelor

Pentru a colecta date structurate într-un mod automat se folosesc programe software. Aceste programe care colectează datele sunt numite web scrapers, web spiderscrawlers sau web data extractors.

Aceste programe sunt de cele mai multe ori programe specifice făcute special pentru o anumita sursa de date și au capacitatea de a prelua date structurate.

Când spunem date structurate de cele mai multe ori ne gândim la tabele de date care pot fi: tabele cu anunțuri, tabele cu articole, tabele cu produse și prețuri, tabele cu adrese URL și multe altele.

De exemplu pentru a lua toate anunțurile de pe un site de evenimente de multe ori se crează un program special în acest scop, sau se configurează un program generic pentru siteul din care vrem să extragem datele.

Astfel de servicii sunt oferite de firme precum TheWebMiner.