Lioma, Christina Amalia: Part of Speech n-Grams for Information Retrieval

    Előadó: 
    Nemeskey Dávid

    A szöveges keresésben ma használt módszerek többsége a bag-of-words modellen alapul, azaz pusztán a szavak dokumentumokban előfordulásának számát veszi figyelembe, azok nyelvi tulajdonságai, szerepe kiaknázatlan marad. Az előadáson tárgyalt dolgozat azt járja körül, hogy miként lehet a nem-lexikális statisztikákat, jelen esetben a szófajokat is figyelembe venni a rangsorolás során. Megmutatja, hogy (a szavakkal ellentétben) egyenes arányosság áll fent egy szófaj n-gram információs tartalma és gyakorisága között, majd több módszert is kidolgoz ezek felhasználására a szöveges keresés javítása érdekében; a mérések alapján sikerrel.

    Típus: 
    adatbányászat szeminárium
    Időpont: 
    csütörtök, 2011, május 12 - 10:15
    Tavaszi félév

    Nyelvek