Arhiva autorului: Adrian Balcan

Când avem nevoie de web mining?

În articolul precedent am scris despre internet data mining sau web mining.

Ca să înțelegem mai bine când avem nevoie de web mining voi scrie mai jos câteva exemple de situații:

Conținut

Când avem nevoie să obținem o listă de produse.

Când avem nevoie să obținem o listă cu articole sau titluri.

Când vrem să urmărim schimbările de pe siteurile concurenților.

Email marketing

Când avem nevoie să obținem adrese de email de oameni dintr-un anumit domeniu.

Când avem nevoie de date de contact de la firme dintr-un anumit domeniu.

Prețuri

Când avem nevoie să obținem o listă de prețuri pentru a găsi cel mai mic preț.

Când avem nevoie să obținem o listă de prețuri pentru a urmării trenduri de preț.

Când avem nevoie să obținem o listă de prețuri pentru a compara prețuri în diferite locuri.

Descoperiri și analiză

Când vrem să descoperim noi oportunități de piață, Exemplu: zone mari în care nu există stații de benzină.

Când vrem să urmărim și analizăm anumite schimbări ce se petrec pe un site.

Când vrem să comparam date din mai multe surse web (din mai multe siteuri).

…și multe altele

Exemplele de mai sus au fost doar câteva, în realitate există nenumărate utilizări ale acestei tehnici de obținere de date. Câteva exemple găsiți și aici.

Internet data mining

Internet data mining sau web mining

Se referă la descărcarea (culegerea) de date de pe internet. Putem face asta și manual însă este o muncă foarte migăloasă. Imaginați-vă ce înseamna să intrați pe siteul unei librării online și să copiați toate titlurile de cărți și codurile ISBN astfel încât la final să aveți un tabel în excel. Gândiți-vă că un astfel de tabel poate avea și milioane de rânduri. Este mult mai ușor să facem asta automat.

Copierea conținutului unui site

Există programe ce copiază conținutul unui site, însă aceste programe copiază în totalitate conținutul, toate sursele HTML ale siteului și nu date structurate cum am avea nevoie.

Colectarea datelor

Pentru a colecta date structurate într-un mod automat se folosesc programe software. Aceste programe care colectează datele sunt numite web scrapers, web spiderscrawlers sau web data extractors.

Aceste programe sunt de cele mai multe ori programe specifice făcute special pentru o anumita sursa de date și au capacitatea de a prelua date structurate.

Când spunem date structurate de cele mai multe ori ne gândim la tabele de date care pot fi: tabele cu anunțuri, tabele cu articole, tabele cu produse și prețuri, tabele cu adrese URL și multe altele.

De exemplu pentru a lua toate anunțurile de pe un site de evenimente de multe ori se crează un program special în acest scop, sau se configurează un program generic pentru siteul din care vrem să extragem datele.

Astfel de servicii sunt oferite de firme precum TheWebMiner.

Ce este Data Mining-ul?

Data mining-ul se referă la analiza datelor pentru găsirea de informații prețioase. În traducere directă l-am putea numi „minerit în date”. Metodele de analiză sunt altele decât cele din statistica clasica. Spre exemplu una din metode se numește clusterizare și presupune găsirea de entități similare (nu identice) într-o mulțime. Un caz concret al acestei definiții poate fi găsirea de cumpărători cu un comportament similar.

Ce nu e Data Mining?

Data Mining nu însemnă aplicarea de simple operații statistice. De exemplu suma, media sau mediana unor valori nu fac parte din metodele asociate cu domeniul data mining.

Despre analiza datelor

De cele mai multe ori motivul pentru care strângem date este ca să aflam diferite informații. Drumul acesta de la datele colectate la informații utile se numește analiză datelor sau data mining atunci când sunt necesare operații de prelucrare mai complexe.

Astăzi o sa dau ca exemplu o situație cu care ne-am confruntat noi de curând:

Folosind Google Analytics am observat ca doar 10% din cei care ajungeau pe blogul nostru, ajungeau și pe site.

Capture

Soluția a fost simplă: Am adăugat în meniu un buton (foarte vizibil) către siteul nostru.

Rezultatul: Am reușit să dublam rata de vizitatori care ajung în site din blogul nostru.

Acesta este doar un exemplu foarte simplu de situație în care putem lua decizii pe baza rezultatelor unei analize.

Data Mining

Data Mining este un domeniu de activitate ce provine din statistică şi are ca scop descoperirea de informații valoroase în cantități mari de date.

Câteva exemple

„Scutece și bere” – Într-o analiza a comenzilor de la un supermarket s-a observat ca exista un tip de clienții care cumpără de multe ori scutece scutece și bere, magazinul a apropiat standurile cu aceste doua produse și a reușit sa crească vânzările la ambele.

Principiul Pareto, cunoscut ca regula 80 – 20 spune ca 20% din clienți aduc 80% din vânzări.

Principiul Pareto aplicat în business:

  • 80% din profitul companiei provine de la 20% din clienții săi.
  • 80% din plângerile primite de o firmă provin de la 20% din clienții săi.
  • 80% din profitul companiei este generat de 20% din timpul folosit de angajați.
  • 80% din vânzările companiei provin de la 20% din produsele sale.
  • 80% din vânzările companiei sunt generate de 20% din echipa de vânzări.

Despre alte cazuri în care ne ajută domeniul data mining vom discuta și în următoarele posturi.