Document Clustering

University essay from Chalmers tekniska högskola/Institutionen för data- och informationsteknik

Abstract: Cluster analysis is a sub-field in artificial intelligence and machine learning that refersto a group of algorithms that try to find a natural grouping of objects based on someobjective metric. In general this problem is hard because a good grouping might be subjective,two expert taxonomists can disagree on what they believe represents reasonablediscriminatory features. The methods work directly on the data and are thus containedin the class of unsupervised algorithms contrary to classification algorithms whose biasis based on known classes. This report tries to give an overview to the application ofclustering algorithms to text and how data might be processed.

Klusteranalys är ett delområde inom artificiell intelligens och maskininlärning som refererartill en grupp av algoritmer som försöker hitta naturliga grupperingar av objektbaserat på dess egenskaper. I allmänhet detta problem är svårt, eftersom en bra grupperingkan vara subjektiv, två experter inom taxonomi kan exmepelvis vara oense omvilka egenskaper de anser vara mest utmärkande. Dessa metoder som arbetar direktpå data och ingår därmed i klassen av oövervakade algoritmer vilka skiljer sig från motklassificeringsproblemets algoritmer vars preferenser baseras på inlärd information. Dennarapport försöker ge en översikt över tillämpningen av kluster algoritmer till text ochhur data kan bearbetas.

  CLICK HERE TO DOWNLOAD THE WHOLE ESSAY. (in PDF format)