4. Névelem-felismerés

Bevezetés

A névelem-felismerés (NER) az egyik legfontosabb speciális szövegbányászati feladat. Legegyszerűbb formájában az információ-visszakeresés területéhez tartozik, komplexebb megoldásai ugyanakkor már a szövegbányászathoz tartoznak (ld. II.1. fejezet). Információ-visszakeresés esetén célunk az, hogy a már strukturált korpuszból visszakeressük a számunkra releváns információt (Russel – Norvig, 2005: 742; Vázsonyi – Tikk, 2007: 63).

A szövegbányászat esetén már lehetőség van a kifejezések közötti kapcsolatok elemzésére, tendenciák és minták felismerésére, és az információk összekapcsolása révén új információk létrehozására (Hearst, 1999: 3–4; Szarvas – Farkas, 2007: 81). A névelem-felismerés módszere az 1990-es években született meg, lényege, hogy egy program felismeri a korpuszban felbukkanó tulajdonneveket, azokat kigyűjti, és típusonként (pl. földrajzi név, márkanév, jogi személy stb.) csoportosítja (ennyiben egy hibrid információkinyerési és kategorizálási feladatként is tekinthetünk rá).

A standardizált megoldások lehetővé teszik akár telefonszámok vagy időpontok kigyűjtését is, ennyiben tehát túlmutatnak a tulajdonnevek körén. A NER legáltalánosabb annotációs sémáit a Dokumentummegértési Konferenciák (MUC) és a Természetesnyelv-tanulási Konferenciák (CoNNL) fejlesztették ki (Jiang, 2012: 15–16). A leckében bemutatjuk e kutatási irány alapfogalmait és alkalmazásait.

1. példa - Földrajzi nevek

Forrás: Exercising control and gathering information: the functions of interpellations in Hungary (1990–2014)

2. példa - Személynevek

Forrás: A politikai elit médiareprezentációja a rendszerváltás után