Bevezetés
Forrás: Tankönyv II.2. fejezet
A névelem-felismerés (NER) az egyik legfontosabb speciális szövegbányászati feladat. Legegyszerűbb formájában az információ-visszakeresés területéhez tartozik, komplexebb megoldásai ugyanakkor már a szövegbányászathoz tartoznak (ld. II.1. fejezet). Információ-visszakeresés esetén célunk az, hogy a már strukturált korpuszból visszakeressük a számunkra releváns információt (Russel – Norvig, 2005: 742; Vázsonyi – Tikk, 2007: 63).
A szövegbányászat esetén már lehetőség van a kifejezések közötti kapcsolatok elemzésére, tendenciák és minták felismerésére, és az információk összekapcsolása révén új információk létrehozására (Hearst, 1999: 3–4; Szarvas – Farkas, 2007: 81). A névelem-felismerés módszere az 1990-es években született meg, lényege, hogy egy program felismeri a korpuszban felbukkanó tulajdonneveket, azokat kigyűjti, és típusonként (pl. földrajzi név, márkanév, jogi személy stb.) csoportosítja (ennyiben egy hibrid információkinyerési és kategorizálási feladatként is tekinthetünk rá).
A standardizált megoldások lehetővé teszik akár telefonszámok vagy időpontok kigyűjtését is, ennyiben tehát túlmutatnak a tulajdonnevek körén. A NER legáltalánosabb annotációs sémáit a Dokumentummegértési Konferenciák (MUC) és a Természetesnyelv-tanulási Konferenciák (CoNNL) fejlesztették ki (Jiang, 2012: 15–16). A leckében bemutatjuk e kutatási irány alapfogalmait és alkalmazásait.
1. példa - Földrajzi nevek
2. példa - Személynevek
Forrás: A politikai elit médiareprezentációja a rendszerváltás után