Letöltések

    Roland-Garros 2017 Twitter collection

    We collected tweets for Roland-Garros, the French Open tennis tournament for Days 1-15 in 2017. The dataset contains the mentions between Twitter users as well as the accounts of tennis players who participated in this contest. The schedule of Days 1-15, that was downloaded from the official event website, is also provided as ground truth.

    You can find more information about the dataset in this GitHub repository:
    https://github.com/ferencberes/online-centrality

    OpenCL implementation of Similarity kernel

    An OpenCL implementation of similarity kernel based on various distances:

    • L2
    • L1
    • Jensen-Shannon

    GitHub link: https://github.com/daroczyb/simker

    MOL BUBI Analytics Challenge - training and test data

    - Description of the files can be found at https://dms.sztaki.hu/bubi/#/app/dataset
    - The train and test files has the same columns and format

    Co-cluster

    A Co-cluster egy c++-ban megvalósított klaszterező keretrendszer. Tud klaszterezni és biklaszterezni több különböző távolságfüggvénnyel. Hatékonyan tudja kezelni a ritka adatokat. Futtathatjuk egyszerre több input adaton úgy, hogy mindegyik adaton különböző távolságmértéket használunk és ezeket egy előre beállított súllyal összeadjuk. Elérhető a GitHub-ról: http://github.com/siklosid/co-cluster.git

    Correlation Learning

    The source codes below extend the Lemur RankLib toolkit.

    RecSys Challenge 2015 - Team Budapest

    Features

    • session\_time: unix timestamp of the session.
    • session\_hour: hour of the day @session\_time.
    • session\_hour\_threshold: 2, if session\_hour is between 5 and 18 and 1, if session\_hour is between 3-5 or 18-20, and 0 otherwise.
    • session\_day: day of the week @session\_time.
    • session\_length: length of the session in seconds.
    • session\_length\_diff: difference of session\_length from 1,200 sec.

    RecSys Challenge 2014

    Adatminőség javítás és adatintegráció

    Csoportunk adatminőség javító és adatintegrációs megoldásainak rövid összefoglalója.

    Wimmut: searching and navigating Wikipedia

    Download our Java application with a user-friendly graphical interface for searching Wikipedia content and navigating network of pages.

    Cross-Linugual Web Classification

    If you use this data, please cite

    A. Garzó, B. Daróczy, T. Kiss, D. Siklósi, A.A. Benczúr
    Cross-Lingual Web Spam Classification
    In Proc. WICOW 2013 in conjunction with WWW 2013

    Oldalak