Arhiva etichetelor: Data Mining

Unelte pentru BigData și Data Mining

De curând am testat o unealtă de date mining despre care vreau să vă povestesc astăzi.
Aplicația se numește Datameer și este una de tip cloud bazata pe Hadoop.
Nu trebuie să instalăm nimic pe calculator, însă trebuie să avem datele pe care vrem să le analizăm.

Pasul 1: Importarea datelor

Pentru a importa datele trebuie să selectam formatul în care acestea sunt reprezentate

datameer 0

Pasul 2: Câteva mici configurări

Unele dintre ele țin de formatul datelor, altele de modul de detecție a tipurilor de date. Programul încearcă să detecteze tipul fiecărei coloane. Dealtfel se pot adaugă tipurile de date dintr-un fișier.

datameer 0.1

Pasul 3: Reglaje fine

Dacă programul nu reușește să detecteze bine coloanele putem sa le introducem noi manual. Un minus al programului este reprezentat de faptul că nu putem ajusta datele în acest pas decât prin eliminarea înregistrărilor care nu corespund tipurilor de date definite de utilizator.
datameer 1

Pasul 4: Setarea eșantionului care este folosit pentru previzualizarea operațiilor

datameer2

Cam ăsta a fost tot procesul prin care se adaugă datele în datameer.
Mai departe apare o interfață asemănătoare cu Excel în care vedem datele noastre.
Avem în plus câteva butoane care sunt responsabile pentru toată magia:

Column Dependency
Practic putem vedea dacă există legături între diferite coloane. Putem vedea dacă o variabilă este influențată de alta.

Clustering
Putem grupa datele după asemănarea lor.
Toată partea de descoperire a asemănărilor o face programul, noi trebuie doar sa spunem numărul de grupuri pe care vrem sa îl obținem.

Decision tree
Construiește un arbore de decizie pe baza datelor noastre.

Cam acestea sunt funcțiile magice pe care le are Datameer, dar adevărata putere a programului nu este reprezentata de funcții în sine, ci abilitatea acestuia de a le rula pe cantități uriașe de date.

Internet data mining

Internet data mining sau web mining

Se referă la descărcarea (culegerea) de date de pe internet. Putem face asta și manual însă este o muncă foarte migăloasă. Imaginați-vă ce înseamna să intrați pe siteul unei librării online și să copiați toate titlurile de cărți și codurile ISBN astfel încât la final să aveți un tabel în excel. Gândiți-vă că un astfel de tabel poate avea și milioane de rânduri. Este mult mai ușor să facem asta automat.

Copierea conținutului unui site

Există programe ce copiază conținutul unui site, însă aceste programe copiază în totalitate conținutul, toate sursele HTML ale siteului și nu date structurate cum am avea nevoie.

Colectarea datelor

Pentru a colecta date structurate într-un mod automat se folosesc programe software. Aceste programe care colectează datele sunt numite web scrapers, web spiderscrawlers sau web data extractors.

Aceste programe sunt de cele mai multe ori programe specifice făcute special pentru o anumita sursa de date și au capacitatea de a prelua date structurate.

Când spunem date structurate de cele mai multe ori ne gândim la tabele de date care pot fi: tabele cu anunțuri, tabele cu articole, tabele cu produse și prețuri, tabele cu adrese URL și multe altele.

De exemplu pentru a lua toate anunțurile de pe un site de evenimente de multe ori se crează un program special în acest scop, sau se configurează un program generic pentru siteul din care vrem să extragem datele.

Astfel de servicii sunt oferite de firme precum TheWebMiner.

Ce este Data Mining-ul?

Data mining-ul se referă la analiza datelor pentru găsirea de informații prețioase. În traducere directă l-am putea numi „minerit în date”. Metodele de analiză sunt altele decât cele din statistica clasica. Spre exemplu una din metode se numește clusterizare și presupune găsirea de entități similare (nu identice) într-o mulțime. Un caz concret al acestei definiții poate fi găsirea de cumpărători cu un comportament similar.

Ce nu e Data Mining?

Data Mining nu însemnă aplicarea de simple operații statistice. De exemplu suma, media sau mediana unor valori nu fac parte din metodele asociate cu domeniul data mining.

Data Mining

Data Mining este un domeniu de activitate ce provine din statistică şi are ca scop descoperirea de informații valoroase în cantități mari de date.

Câteva exemple

„Scutece și bere” – Într-o analiza a comenzilor de la un supermarket s-a observat ca exista un tip de clienții care cumpără de multe ori scutece scutece și bere, magazinul a apropiat standurile cu aceste doua produse și a reușit sa crească vânzările la ambele.

Principiul Pareto, cunoscut ca regula 80 – 20 spune ca 20% din clienți aduc 80% din vânzări.

Principiul Pareto aplicat în business:

  • 80% din profitul companiei provine de la 20% din clienții săi.
  • 80% din plângerile primite de o firmă provin de la 20% din clienții săi.
  • 80% din profitul companiei este generat de 20% din timpul folosit de angajați.
  • 80% din vânzările companiei provin de la 20% din produsele sale.
  • 80% din vânzările companiei sunt generate de 20% din echipa de vânzări.

Despre alte cazuri în care ne ajută domeniul data mining vom discuta și în următoarele posturi.