InfoCodex macht z.B. aus dem PDF File ein temporäres Textfile mit pdf2txt. Gleichzeitig werden die Metadaten soweit wie möglich extrahiert (Autor, Titel, Dokument-Datum, File-Typ, Prozentsatz der Graphiken im Dokument etc.)
Die Sätze in den konvertierten Textfiles werden erkannt (Komma, Punkt, Doppelpunkt etc.). Es werden alle Wörter identifiziert und mit den Einträgen in der linguistischen Datenbank (2.7 Mio Einträge) abgeglichen, nötigenfalls unter Zuhilfenahme einer sprachabhängigen lexikalischen Analyse (Endungen wie "s", "en" etc.). Gleichzeitig wird mittels CWR ("Collocated Word Recognition") untersucht, ob aufeinanderfolgende Wörter einem Begriff entsprechen, der in der Datenbank vorhanden ist. Beispiel: Die Wörterfolge "European Court of Justice" wird als Begriff erkannt und wird nicht als vier einzelne Wörter "European", "Court", "of" und "Justice" gehandhabt.
In der Text-Mining Phase werden für alle Wörter bzw. zusammengesetzten Begriffe die Wortart (Name, Hauptwort, Verb etc.), die Signifikanz, die Sprache, die Synonymgruppe und der Link auf den Taxonomiebaum aus der linguistischen Datenbank geholt und für die spätere Verarbeitung festgehalten. Parallel dazu erfolgt die Spracherkennung für den bearbeiteten Textblock.
Die kumulierten Häufigkeiten, mit denen die einzelnen Knoten im Taxonomiebaum durch die Texte aus allen Dokumenten angesprochen werden, ergeben ein Bild über die thematischen Schwergewichte in der Dokumenten-Kollektion. Mit einer Cluster-Analyse wird nun ein 100-dimensionaler Inhaltsraum konstruiert, welcher die Inhalte der effektiv vorliegenden Dokumente möglichst gut wiedergeben kann. Dabei werden auch die Entropien ("Ungewissheiten" der verschiedenen Wörter / Begriffe) berechnet und verwendet.
Die unter Schritt 2 gesammelten Informationen werden unter Verwendung der berechneten Entropien dazu verwendet, um jedes einzelne Text-Dokument auf den unter Schritt 3 konstruierten Inhaltsraum zu projizieren. Jedes Dokument wird in einen 100 dimensionalen Vektor mit 20 Deskriptoren verwandelt.
Die Vektoren bilden den Input für das selbstorganisierende Neuronale Netz (Kohonen-Map). Dieses Modell besorgt nun die logische Anordnung der Dokumente in einer Informations-Landkarte: Ermittlung einer Ordnung nach thematischen Gesichtspunkten und Einordnen der einzelnen Dokumente in die Informations-Landkarte. Gleichzeitig wird das Ähnlichkeitsmass für den inhaltlichen Vergleich von Dokumenten ermittelt.
Hier erfolgen schliesslich die Bildung von Deskriptoren (Verschlagwortung der Dokumente), die Identifikation von Dokumentenfamilien (fast gleiche Dokumente) und die automatische Generierung von Abstracts. ====