Arhiva lunii martie 2014

Procesarea fişierelor text foarte mari

La TheWebMiner avem deseori nevoie să procesam fișiere text foarte mari. Când spun foarte mari mă refer la fișiere mai mari de câteva sute de megabytes. Dintre toate editoarele care le-am testat până acum cel mai mine s-a descurcat Vim, respectiv gVim (versiunea de windows a faimosului editor).

Expresii regulate

Tot pentru procesarea fișierelor text folosim și expresii regulate (numite și RegEx). Expresii care ne ajută să căutăm (sau să căutăm și să înlocuim) porțiuni de text, care respecta un anumit format, într-om mod automat. Totul este frumos până ne lovim de următoarea problemă:

Cum folosim expresii regulate în Vim?

Vim are un format propriu pentru expresiile regulate așa că nu putem folosi expresii regulate standard în Vim, însă noi am creat un convertor special pentru asta. Convertorul îl puteți găsi aici: //thewebminer.com/regex-to-vim.

Sperăm să vă fie de folos acest articol.

Unelte pentru BigData și Data Mining

De curând am testat o unealtă de date mining despre care vreau să vă povestesc astăzi.
Aplicația se numește Datameer și este una de tip cloud bazata pe Hadoop.
Nu trebuie să instalăm nimic pe calculator, însă trebuie să avem datele pe care vrem să le analizăm.

Pasul 1: Importarea datelor

Pentru a importa datele trebuie să selectam formatul în care acestea sunt reprezentate

datameer 0

Pasul 2: Câteva mici configurări

Unele dintre ele țin de formatul datelor, altele de modul de detecție a tipurilor de date. Programul încearcă să detecteze tipul fiecărei coloane. Dealtfel se pot adaugă tipurile de date dintr-un fișier.

datameer 0.1

Pasul 3: Reglaje fine

Dacă programul nu reușește să detecteze bine coloanele putem sa le introducem noi manual. Un minus al programului este reprezentat de faptul că nu putem ajusta datele în acest pas decât prin eliminarea înregistrărilor care nu corespund tipurilor de date definite de utilizator.
datameer 1

Pasul 4: Setarea eșantionului care este folosit pentru previzualizarea operațiilor

datameer2

Cam ăsta a fost tot procesul prin care se adaugă datele în datameer.
Mai departe apare o interfață asemănătoare cu Excel în care vedem datele noastre.
Avem în plus câteva butoane care sunt responsabile pentru toată magia:

Column Dependency
Practic putem vedea dacă există legături între diferite coloane. Putem vedea dacă o variabilă este influențată de alta.

Clustering
Putem grupa datele după asemănarea lor.
Toată partea de descoperire a asemănărilor o face programul, noi trebuie doar sa spunem numărul de grupuri pe care vrem sa îl obținem.

Decision tree
Construiește un arbore de decizie pe baza datelor noastre.

Cam acestea sunt funcțiile magice pe care le are Datameer, dar adevărata putere a programului nu este reprezentata de funcții în sine, ci abilitatea acestuia de a le rula pe cantități uriașe de date.

Distribuția Gauss

Va mai aduceți aminte de Flappy Bird? Spuneam în postul în care vorbeam despre trenduri că este posibil ca acest trend să urmeze distribuția Gauss.

Curba lui Gauss

Se pare ca așa s-a și întâmplat, și este un bun exemplu pentru această distribuție cunoscută în statistică și sub numele de distribuția normală sau clopotul Gauss. Această distribuție este caracterizata de faptul că majoritatea valorilor sunt apropiate de o valoare centrală, graficul acestei distribuții arătând precum un clopot.