Filtering Very Similar Text Documents: A Case Study
| Název česky | Filtrace velmi podobných textových dokumentů: Studie případu. |
|---|---|
| Autoři | |
| Rok publikování | 2004 |
| Druh | Článek ve sborníku |
| Konference | Computational linguistics and Intelligent Text Processing |
| Fakulta / Pracoviště MU | |
| Citace | |
| Obor | Informatika |
| Klíčová slova | machine learning; text categorization; text filtration; text similarity |
| Popis | Článek popisuje problémy s klasifikací a filtrací podobných relevantních a nerelevantních reálných textových dokumentů z jedné velmi specifické domény, získané z internetových zdrojů. Kromě podobnosti jsou dokumenty často nevyváženy -- nedostatek nerelevantních dokumentů pro trénování. Je navržena definice podobnosti. Klasifikace byla testována pomocí šesti algoritmů z hlediska podobnosti textů. Nejlepší výsledky poskytly neuronové sítě založené na backpropagation a support vector machines s radiálními bázovými funkcemi. |
| Související projekty: |