9. Csoportosítás: topic modellezés

Forrás: Tankönyv IV. fejezet

Bevezetés

A felügyelet nélküli tanulást akkor alkalmazzuk, amikor nem rendelkezünk semmilyen a priori kategóriarendszerrel, címkékkel az adatok struktúráját vagy jellemzőit illetően, és a létrehozandó csoportok számáról sincsen előzetes tudásunk; tehát nincs olyan információnk, amiből tanulva a modellt fel lehetne építeni (Tikk, 2007b). Így célunk, hogy hagyjuk az adatokat magukért beszélni, és saját, szabad szemmel nem látható, de statisztikailag jól megragadható jellemzőik alapján kategorizáljuk őket (feltételezve, hogy nem csak „zaj” található a szövegekben). A felügyelet nélküli tanulási módszerek esetében a felügyelt technikákkal szemben nincs szükség tanítóhalmazra, tehát akármilyen szövegkorpuszra alkalmazható mindenféle előzetes manuális erőfeszítés nélkül (Aggarwal – Zhai, 2012: 5).

A strukturálást sokféle tulajdonság mentén végre lehet hajtani attól függően, hogy mi a kutatási kérdés, illetve milyen típusú eredményeket szeretnénk kapni. A kulcskérdés az, hogy mit határozunk meg a keresendő entitásként: mondatokat, szavakat, párbeszédeket stb.  kapcsán a leggyakoribb a téma szerinti kategorizáció, amit a szakirodalom öszszegző technikának is nevez (mivel nagy méretű szövegkorpuszt vagyunk képesek jellemezni anélkül, hogy bármilyen háttér-információval rendelkeznénk annak tartalmával, szerkezetével kapcsolatban). Az összegzést végző felügyelet nélküli tanulási algoritmus – a szövegek megfelelő formátumra történő alakítása után (szótövesítés, tiltólistás szavak stb.) – a dokumentumokat külön-külön jellemzi a szavak gyakorisága, a leggyakoribb szókapcsolatok, valamint a szavak távolsága alapján.

A dokumentumok statisztikai jellemzőit a bennük megjelenő szavak mint legkisebb entitások alapján definiálja, majd ezen statisztikai jellemzők segítségével a dokumentumokat csoportokba/klaszterekbe rendezi. Az eljárás pontos módja minden esetben a választott algoritmus logikájától függ. Ami minden ilyen eljárásban közös, az az adathalmaz statisztikai módszerekkel történő strukturálásának egy módja, a dimenziócsökkentés, avagy a látens dimenzió feltárása. Ennek különböző módszereivel – ld. főkomponenselemzés, faktoranalízis, klaszterezés – a statisztika tudományága foglalkozik. A felügyelet nélküli tanulás szövegkorpuszra történő alkalmazása során az egyik leggyakoribb eljárás a topic modellezés. Az alábbiakban egy ilyen csoportosítási eljárást mutatunk be.

A minta-feladat