A POLTEXT Inkubátor Projektről

A Text Mining of Political and Legal Texts (POLTEXT) Inkubátor projekt célja, hogy Big Data módszerekkel vizsgáljon magyar nyelvű és külföldi politikai és jogi dokumentum-gyűjteményeket. A kvalitatív adatforrások (szövegek, képek és videók) elemzésének hagyományos megközelítései jellemzően az adatok kézi feldolgozására építenek. Miközben a forrásanyag ismerete továbbra is nélkülözhetetlen bármilyen társadalomtudományi vizsgálatban, a kézi feldolgozás korlátai is nyilvánvalóak, elsősorban kutatási eredmények megbízhatósága és érvényessége tekintetében. Ugyanis mivel az emberi döntéshozatali folyamat óhatatlanul hordoz magában szubjektív elemeket, két emberi kódoló igen könnyen különböző címkét rendelhet valamely szöveg ugyanazon részéhez. Továbbá az adatforrások széles skálája, nagy terjedelme (pl. egy ország minden elfogadott törvényének szövege) kivitelezhetetlenné teheti az emberi adatfeldolgozást.

Mindezen, és hasonló okokból a kvantitatív szövegelemzési és szövegbányászati megközelítések a szöveges forrásokat alapul vevő társadalomtudományi Big Data projektek tekintetében új módszertani standardot jelentenek. Jelen kutatóhálózat célja hasonlóan gondolkodó, szövegbányászati technikákat alkalmazó kutatókból álló nemzetközi hálózatot létrehozni. Nemzetközi és interdiszciplináris (nem csupán a projekt résztvevői, hanem az adattudomány és a számítógépes nyelvészet képviselői közötti) együttműködések születésének elősegítésére, továbbá számos, különböző európai országból származó és különböző életkorú kutatók közös projektjeinek megszületésére, tudástranszferre és a lehető legmagasabb minőségű társadalomtudományi kutatások születésének is alapot kíván nyújtani a projekt.