Projekty

Obecne:

Apache Mahout
Skalowalna biblioteka do uczenia maszynowego,  która wspiera operacje na dużych zbiorach danych

Do typowych zastosowań takich narzędzi zalicza się analiza logów sklepów internetowych w celu generowania indywidualnych propozycji typu "To również może cię zainteresować", grupowanie tekstów na podstawie ich treści, klasyfikacja dokumentów w predefiniowanych kategoriach oraz wykrywanie punktów wspólnych w wielkich zbiorach danych. Mahout wyłonił się jako podprojekt silnika wyszukiwania Lucene i od wiosny 2010 należy do grupy najważniejszych projektów (tzw. Top Level) fundacji Apache.

Dalczego się zainteresowaliśmy?
- jedyny sensowny sposób na przetwarzanie danych > TB
- wykorzystuje popularny framework Map-Reduce
- rozwojowy
- oparty na Javie
- dobra dokumentacja
* NYSE generuje 1TB danych/dzień
* w 2009r. Facebook miał zgromadzone 400TB danych, przetwarzał 20TB nowych danych/dzień!

Kto już używa?
Yahoo!
Adobe AMP 
AOL
Booz Allen Hamilton
SpeedDate.com
więcej na stronie kto używa projektu Mahout


Kruk S.A.

DEMI - Debt Evaluation Model Improvement (systemy do wyceny pakietów długów), projekt badawczy dla firmy Kruk S.A., 2011-2013


Ukończone:


"GRASP# - analiza otoczenia społecznego oraz powiązań sieciowych osób poszukiwanych i podejrzanych o popełnienie przestępstwa", we współpracy z firmą Research & Engineering Center (REC) oraz Telnet.
Głównym celem projektu GRASP# (Grupy, Relacje i Aktywności w Siatkach Przestępczych) jest stworzenie informatycznego systemu do analizy powiązań międzyludzkich wynikających z dużej ilości danych o wzajemnej komunikacji, wspólnej aktywności i bezpośrednich połączeń z wykorzystaniem zaawansowanych metod eksploracji danych oraz innych metod analitycznych zastosowanych do sieci społecznych.