Entity Resolution - azonosságfeloldás avagy deduplikáció

    Előadó: 
    Sidló Csaba

    Az azonosságfeloldás nem feltétlenül része a szűken értelmezett adatbányászati feladatok körének, viszont szorosan kapcsolódó, mind gyakrabban előforduló, nehéz és elkerülhetetlen feladat. A lényege, hogy mondjuk meg rögzített megfigyelésekről (rekordok) melyek tartoznak ugyanazon rejtett való világbeli, de rejtett entitásokhoz. Klasszikus példák ügyféltörzs deduplikálása, bibliográfiai adathalmazok szerzőinek egyértelműsítése, újabbak pedig a weblapok fogalmainak azonosítása (mint személyek és évszámok) vagy termékkereső oldalak esetén a termékek azonosítása.

    S. E. Whang, D. Menestrina, G. Koutrika, M. Theobald, H. Garcia-Molina: Entity Resolution with Iterative Blocking, SIGMOD 2009
    Menestrina, David and Whang, Steven Euijong and Garcia-Molina, Hector: Evaluating Entity Resolution Results, VLDB 2010
    M.Yakout, A.K.Elmagarmid, H.Elmeleegy, M.Ouzzani, A.Qi: Behavior Based Record Linkage, VLDB 2010
    Köpcke, H.; Thor, A.; Rahm, E.: Evaluation of Entity Resolution Approaches on Real-world Match Problems, VLDB 2010
    S.Euijong, H.Garcia-Molina: Entity Resolution with Evolving Rules, VLDB 2010

    Csatolmány: 
    Típus: 
    adatbányászat szeminárium
    Időpont: 
    csütörtök, 2010, november 25 - 10:15
    Őszi félév

    Nyelvek