First-order Frequent Patterns in Text Mining

Varování

Publikace nespadá pod Fakultu sociálních studií, ale pod Fakultu informatiky. Oficiální stránka publikace je na webu muni.cz.

Název česky	Prvořádové časté vzory v dolování v textu
Autoři	BLAŤÁK Jan
Rok publikování	2005
Druh	Článek ve sborníku
Konference	EPIA'05, 12th Portuguese Conference on Artificial Intelligence
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
Obor	Informatika
Klíčová slova	machine learning; first-order frequent patterns; text mining; distributed mining
Popis	V tomto článku představíme nové univerzální rozhraní využívající prvořádové časté vzory pro řešení úloh dolování v textu. Sestává ze systému RAP, což je systém ILP určený pro hledání maximálních častých vzorů, a dvou typů doménové znalosti. Jsou popsány dvě metody využití nalezených vzorů pro dolování v textu: propozicionalizace a CBA. Je představena nová verze CBA klasifikátoru. Použití systému je demonstrováno na třech úlohách z dolování textu: extrakci informace z biologických textů, kontextové kontrole pravopisu a morfologické desambiguaci. Diskutujeme také přínos distribuovaného vyhledávání častých vzorů. Je ukázáno, že časté vzory použité jako nové rysy v propozicionalizaci poskytují lepší výsledky než CBA.
Související projekty:	Dynamická geovizualizace v krizovém managementu