Előadások

    BSP & gráfalgoritmusok

    Erdélyi Miklós
    2011-03-24 10:15

    Az előadás témája a Bulk Synchronous Parallel (BSP) programozási modell használata lesz gráfalgoritmusok implementálására. Miért jó a BSP gráfalgoritmusok elosztott megvalósítására? Hogyan lehet gráfalgoritmusokat megadni ebben a modellben? Milyen implementációs problémák merülnek fel? Konkrét példaként megnézzük, többek között hogy lehet egy véletlen sétákon alapuló hasonlóságkereső algoritmust implementálni statikus és dinamikusan változó gráfokon.

    Szoftvertesztelés

    Erdélyi Miklós
    2011-02-03 10:15

    Előadásom tartalma a következő lesz:
    A) Elméleti rész: Hogyan írjunk tesztelhető kódot? Bemutatom azokat az alapelveket, amelyeket követve kódunk könnyen tesztelhető lesz.
    B) Gyakorlati rész: Hogyan teszteljünk? Ismertetek 2 elterjedt tesztkeretrendszert, amelyek segítségével megoldhatjuk a tesztelést. Példaként refactorálunk olyan kódot, amely nem vagy csak nagyon nehezen tesztelhet?.
    C) Anekdota: Bemutatom egy jól működő szoftverfejlesztő cég fejlesztési folyamatát.

    Genome Rearrangements Mini-Workshop

    2011-01-27 09:00

    Thursday, January 27, 2011
    Location: Kende building, 5th floor 507

    9:00-9:45 Eric Tannier: Ohnologons and ancestral genome reconstructions

    9:45-10:30 Istvan Miklos: Computational complexity of sampling genome rearrangement scenarios

    10:30-11:00 Coffee break

    11:00-11:45 Haris Gavranovic: An optimization method and a lower bound for matrix sandwich problem

    11:45-12:30 Eszter Friedman: Multiple genome rearrangement with MCMC

    Weblog elemzés Hadoopon

    Gosztonyi Balázs
    2010-12-16 10:15

    1. A Hadoop működése
    - Egy Hadoop job részletes életciklusa
    - A felhasználó által megadható elemek
    2. Log adatbázisok elemzése Hadoopon
    - Mit tudunk tenni, ha a logadatok már túl nagyok egy relációs adatbázisnak?
    - Egy ígéretes kísérlet és tanulságai

    Entity Resolution - azonosságfeloldás avagy deduplikáció

    Sidló Csaba
    2010-11-25 10:15

    Az azonosságfeloldás nem feltétlenül része a szűken értelmezett adatbányászati feladatok körének, viszont szorosan kapcsolódó, mind gyakrabban előforduló, nehéz és elkerülhetetlen feladat. A lényege, hogy mondjuk meg rögzített megfigyelésekről (rekordok) melyek tartoznak ugyanazon rejtett való világbeli, de rejtett entitásokhoz. Klasszikus példák ügyféltörzs deduplikálása, bibliográfiai adathalmazok szerzőinek egyértelműsítése, újabbak pedig a weblapok fogalmainak azonosítása (mint személyek és évszámok) vagy termékkereső oldalak esetén a termékek azonosítása.

    Large-scale image annotation

    Daróczy Bálint
    2010-11-11 10:15

    Jorge Sánchez, Florent Perronnin and Thomas Mensink: Fisher Vector for Large Scale Image Classification, Large Scale Visual Recognition Challenge 2010 (ILSVRC 2010)
    Jason Wetson, Samy Bengio, Nicolas Usunier: Large Scale image annotation:learning to rank with joint word-image embeddings, ECML 2010

    Learning to Rank

    Nándoriné Bán Andrea
    2010-10-21 10:15

    A "Learning to Rank" a felügyelt gépi tanulási egy ága, melyben a cél egy rangsoroló függvény tanítása. A tanuló adat lekérdezéseket (query) és hozzájuk tartozó dokumentumokat tartalmaz. A feladat adott lekérdezéshez a dokumentumok olyan permutációját visszaadni, melyben a lista elején a releváns dokumentumok, a lista végén pedig a kevésbé relevánsak vannak.

    Leo Breiman: Random forests

    Szabó Adrienn
    2010-10-14 10:15

    Random forests are a combination of tree predictors such that each tree depends on the values of a random vector sampled independently and with the same distribution for all trees in the forest. The generalization error for forests converges a.s. to a limit as the number of trees in the forest becomes large. The generalization error of a forest of tree classifiers depends on the strength of the individual trees in the forest and the correlation between them.

    Question Answering

    Nemeskey Dávid
    2010-10-07 10:15

    A kérdésmegválaszolás a szöveges keresés egy speciális területe, ahol a felhasználó természtesen nyelven feltett kérdését próbálja a rendszer minél pontosabban megválaszolni. Az előadáson ismertetem a felmerülő feladatokat, prob lémákat és az általánosan alkalmazott módszereket.
    Több konferencia is szervez a kérdésmegválaszoláshoz kötődő versenyeket, ahol a rendszerek hatékonysága lemérhető. Az előadáson két, a ResPubliQA 2010-en szereplő rendszert ismertetek röviden.

    Oldalak