Form data enriching using a post OCR clustering process : Measuring accuracy of field names and field values clustering

University essay from Mittuniversitetet/Institutionen för informationssystem och –teknologi

Abstract: Med OCR teknologier kan innehållet av ett formulär läsas in, positionen av varje ord och dess innehåll kan extraheras, dock kan relationen mellan orden ej förstås. Denna rapport siktar på att lösa problemet med att berika data från ett strukturerat formulär utan någon förinställd konfiguration genom användandet utav klustring. Detta görs med en kvantitativ metod där mätning av en utvecklad prototyp som räknar antal korrekt klustrade textrutor och en kvalitativ utvärdering. Prototypen fungerar genom att mata en bild av ett ofyllt formulär och en annan bild av ett ifyllt formulär och en annan bild av ett ifyllt formulär som innehåller informationen som ska berikas till en OCR-motor. Utdatan från OCR-motorn körs genom ett efterbearbetningssteg som tillsammans med en modifierad euklidisk algoritm och en oskarp strängsökningsalgoritm kan klustra fältnamn och fältvärden i den ifyllda formulärbilden. Resultatet av prototypen för tre olika formulärstrukturer och 15 olika bilder vardera gav en träffsäkerhet från 100% till 92% beroende på formulärstruktur. Denna rapport kunde visa möjligheten att grupper ihop fältnamn och fältvärden i ett formulera, med andra ord utvinna information från formuläret

  AT THIS PAGE YOU CAN DOWNLOAD THE WHOLE ESSAY. (follow the link to the next page)