Bedienanleitung TreatyIntegity®

Demo

1. Überblick und Zweck

WebJigsaw ist ein visuelles Analysesystem, das Menschen beim Durchsuchen, Erkunden, Analysieren, Verstehen und Verstehen von Sammlungen von Textdokumenten unterstützt. WebJigsaw präsentiert mehrere Visualisierungen der Dokumente und der darin enthaltenen Objekte, wobei ein besonderer Schwerpunkt auf der Darstellung von Verbindungen zwischen den Objekten liegt (Objekte, die in einem Dokument zusammen erscheinen).

Diese Web-Version von Jigsaw wurde entwickelt, um am besten mit Sammlungen vieler Dokumente zu funktionieren, die relativ kurz sind. Unter vielen Dokumenten verstehen wir Sammlungen, die bis zu 2.500-5.000 Dokumente umfassen können, wobei die Dokumente idealerweise etwa 1-6 Absätze lang sein sollten, also etwa ein oder zwei Seiten. Am wichtigsten ist hier die Anzahl der benannten Entitäten pro Dokument. Diese Zahl sollte wahrscheinlich unter etwa 50-75 Einheiten liegen, damit WebJigsaw am hilfreichsten ist.

WebJigsaw ist nicht dazu gedacht, eine kleine Anzahl extrem großer Dokumente wie Bücher oder wissenschaftliche Arbeiten zu analysieren. Diese Art von Dokumenten sollte in kleinere Einheiten wie Abschnitte, Unterabschnitte oder Seiten unterteilt werden, und dann wird jede dieser Einheiten zu einem eigenen Dokument.

Da WebJigsaw viele verschiedene Visualisierungen der Dokumente und Entitäten bietet, sollten Sie idealerweise über eine gute Menge an Bildschirmimmobilien verfügen, um die Ansichten im Browser anzuzeigen. Sie können das System zwar immer noch auf einem kleineren Monitor betreiben, aber Sie sind möglicherweise in der Anzahl der Ansichten begrenzt, die Sie leicht manipulieren können.

Wir haben versucht, dieses Tutorial relativ kurz zu halten, damit Sie es leicht lesen und durchsuchen können, während Sie gleichzeitig die wichtigsten Informationen vermitteln, die für eine effektive Nutzung des Systems notwendig sind.

1. Erste Schritte mit WebJigsaw

Dieser Abschnitt hilft Ihnen, sich schnell mit der Bedienung von WebJigsaw vertraut zu machen.

2.1 Systemanforderungen

Wir haben WebJigsaw gründlich auf Google Chrome v55 getestet. Es sollte auf allen modernen Browsern gut funktionieren, aber die empfohlenen Browser sind Chrome und Firefox.

2.2 Einleiten einer Sitzung

Gehen Sie auf die WebJigsaw-URL in Ihrem Browser. Es sollte die Registerkarte zum Hochladen der Dokumente auf den Server erscheinen, wie unten gezeigt.

WebJigsaw Browser Screenshot
Startbildschirm

2.3 Einlesen mehrer Dokumente

WebJigsaw kann Dokumente aus verschiedenen Formaten einlesen (und speichern). Es kann Originaldokumente wie Text und CSV lesen. Wir haben auch ein Jigsaw Datafile Format mit xml erstellt, das eingelesen werden kann. Darüber hinaus gibt es einige spezifische, proprietäre Dokumentenformate, die WebJigsaw lesen kann.

Um ein Quelldokument zu importieren, das noch nicht bearbeitet wurde, klicken Sie auf die Schaltfläche “Dateien auswählen”. Es öffnet sich das Dialogfenster Browser-Import zur Auswahl der einzulesenden Dokumente. Alternativ können Sie die Dateien auch in den Bereich “Dateien ablegen” ziehen.

Die Hauptregisterkarte hier ist File Import. Es ermöglicht das Lesen von Klartext (.txt), kommagetrennten Werten (.csv), Jigsaw Datafiles (.jig). Sie können mehrere Dateien im Format “txt” einlesen, entweder alle auf einmal oder durch separate Auswahl. Alternativ können Sie auch eine Zip-Datei (.zip) hochladen, d.h. eine komprimierte Sammlung von “.txt”-Dateien. Wir haben dies speziell getan, da das Hochladen einer einzelnen gezippten Datei auf den Server im Allgemeinen schneller ist als das Hochladen mehrerer txt-Dateien. Für csv beginnt ein spezieller Mapping-Prozess, mit dem Sie festlegen können, was jede Spalte in der Datei bedeutet (mehr dazu später in diesem Dokument). Wir hoffen, dass wir bald die Möglichkeit haben werden, Seiten und Websites aus Webcrawls, Seiten aus der Websuche und bibliografische Style-Seiten einzulesen.

Die Dateien, die Sie importieren, können einfacher ASCII-Text oder Unicode sein. Da WebJigsaw nun Unicode lesen kann, können auch Texte aus internationalen (nicht-englischen) Sprachen in WebJigsaw verarbeitet werden.

Import Dialog
Import Dialog

Wir haben ein einfaches proprietäres xml-Dateiformat für igsaw erstellt. Wenn Sie eine bestimmte Art von Daten haben, die Sie in WebJigsaw analysieren möchten, besteht eine Möglichkeit darin, diese zunächst in das Datafile-Format von WebJigsaw zu übersetzen. Wir haben einige Beispieldatenblätter in die Distribution aufgenommen, wie z.B. die Dokumente des VAST-Symposiumswettbewerbs 2007, alle Papierabstracts von InfoVis und VAST-Papieren, ein Beispiel von Papieren aus PubMed über Brustkrebs und die Bibel. Mehr dazu erfahren Sie im nächsten Abschnitt und im Anhang.

Wenn Sie ein Dokument oder einen Satz von Dokumenten importieren, können Sie auch die Entitätskennzeichnung der Dokumente durchführen, wenn Sie möchten. Dies geschieht auf der Registerkarte Entity Analysis nach Anklicken der Schaltfläche “Next”. Sie können einfach die Standardauswahl verlassen oder die Optionen nach Ihren Bedürfnissen auswählen. (Wenn Sie viele Dateien haben und sie relativ groß sind, kann die Identifizierung von Entitäten zeitaufwendig sein, also haben Sie Geduld.) Weitere Informationen zur Entity-Identifikation finden Sie in diesem Abschnitt.

Zusätzlich können Sie auch eine rechnerische Analyse der Dokumente durchführen, wenn Sie möchten. WebJigsaw bietet standardmäßig Dokumentenzusammenfassung, Dokumentenähnlichkeit, Dokumentenclusterung und Sentimentanalyse. Die Analyse der verfügbaren Systeme ist auf der Registerkarte Berechnungen nach dem Klicken auf die Schaltfläche “Weiter” verfügbar, sobald Sie mit der Entity Idenfication fertig sind. Um mehr über Berechnungen zu erfahren, lesen Sie diesen Abschnitt.

Wenn WebJigsaw eine Reihe von Dokumenten importiert, baut es eine Analysedatenbank für diese Dokumente auf dem Server auf. Dies geschieht, damit WebJigsaw bis hin zu großen Dokumentsammlungen skalieren kann. Beachten Sie jedoch, dass das Hochladen und Erstellen dieser Datenbank beim Import einer Reihe von Dokumenten zeitaufwändig sein kann, was möglicherweise einige Minuten in Anspruch nimmt. Nach Abschluss der Analyse wird diese Analysedatenbank als WebJigsaw-Projekt bezeichnet.

2.4 Anzeigen von Ansichten

Um mit der Analyse zu beginnen, sollten Sie wahrscheinlich mit einer Reihe von Ansichten beginnen. Sobald die Vorverarbeitung abgeschlossen ist, werden Sie zur Registerkarte Visualisierung weitergeleitet. Hier finden Sie ein Menü mit den verschiedenen Ansichten. Du kannst wählen, welche du willst. Beachten Sie, dass Sie mehrere Instanzen eines beliebigen View-Typs anlegen können. Wir empfehlen, mindestens eine Dokumentenansicht ständig geöffnet zu haben.

Views Tab
Registerkarte Ansichten

2.5 Start der Analyse und Exploration

Um mit der Exploration zu beginnen, können Sie eine Suchanfrage, Auswahl oder Ausführung eines Befehls in einer Ansicht durchführen. Wenn Sie einen Suchbegriff in das Suchfeld eingeben, sucht WebJigsaw nach diesem Text und zeigt eine Dokumentenansicht an, die die Dokumente mit dem vorhandenen Text enthält. Der Suchmodus Dokumente ist nützlich, wenn Sie nach einem einfachen Wort (z.B. Hund, Auto) suchen möchten, das nicht unbedingt eine Einheit ist. WebJigsaw verhält sich dabei eher wie eine einfache Suchmaschine und zeigt die Dokumente an, die den Suchbegriff enthalten.

2.6 Speichern einer Sitzung

Sie können eine bereits laufende Analysesitzung speichern, indem Sie sie als Jig-Datei speichern. Dies kann mit den Befehlen geschehen, die unter im rechten Menü verfügbar sind.

3. Dokumente importieren und speichern

3.1 Dokumente importieren

WebJigsaw kann eine Vielzahl von Arten von Textdateien importieren. Derzeit kann es ascii oder kommagetrennte Werte (.csv) und Unicode-Text (.txt) einlesen. Einfache ASCII- oder Unicode-Textdateien sind die zuverlässigste Art von Dateien zu importieren, daher empfehlen wir Ihnen, wann immer möglich, Textdateien zu verwenden oder Ihre Dokumente nach Möglichkeit in Textdateien umzuwandeln.

Hinweis

WebJigsaw betrachtet Quelldokumente als alle textuellen Inhalte. Im Allgemeinen wird jeder Text innerhalb der Datei als Textkörper des Dokuments betrachtet. Hiervon gibt es jedoch zwei Ausnahmen. Wenn WebJigsaw die Zeichenkette Date: oder Source: findet, gefolgt von einem anderen Text in einer Zeile innerhalb der oberen fünf Zeilen einer Datei, dann interpretiert es das als eine spezielle Metadatenzeile und verwendet die nachgestellte Zeichenkette  <DocDate> or <DocSource> als die speziellen Felder oder für das Dokument.
Um mehrere Dateien auf einmal einzulesen, wählen Sie einfach mehrere Dateien im Dialogfeld Dateiauswahl mit Hilfe der Umschalt- oder Kontrollmausauswahl für Ihren speziellen Browser und Ihr Betriebssystem aus.

CSV-Dateien importieren

WebJigsaw kann auch.csv-Dateien importieren. Außerdem ist es einfach, .csv-Dateien aus Ihren.xls- oder.xlsx-Dateien zu generieren.

Da die primäre Analyseeinheit in WebJigsaw ein Dokument ist, können Sie sich unweigerlich fragen, wie mit solchen Dateien umgegangen wird. Im Allgemeinen betrachtet WebJigsaw jede Zeile eines Blattes als ein separates Dokument. Die Spalten in einer Tabellenkalkulation können Attribute wie ID, Datum oder Fließtext des Dokuments (Zeile) angeben oder eine Art Entität sein. Es liegt in Ihrer Verantwortung, die Zuordnung von Spalten zu den relevanten Attributen einzurichten. Wenn Sie eine oder mehrere Tabellenkalkulationsdateien importieren, wird Ihnen die CSV-Datei wie gewohnt angezeigt.

CSV File Importer
CSV-Datei-Importer

Wenn Sie ein Mapping definieren, sehen Sie Optionen wie unten beschrieben. Sie können das in jeder Spalte angegebene Attribut definieren, indem Sie das Pulldown-Menü über dieser Spalte auswählen. Das Menü enthält Elemente für die Dokument-ID, Datum, Text und für gängige Entitätstypen wie Person, Ort und Organisation. In diesem Menü können Sie auch einen neuen Typ von Entität erstellen, der in einer Spalte angegeben werden soll. Im oberen Teil des Dialogfensters können Sie die Zeile angeben, in der die Istdaten beginnen, wobei einige Kopfzeilen ignoriert werden.

Defining mapper for csv
Mapper für csv definieren

Einige wichtige Punkte zum Thema Tabellenkalkulation:

  • WebJigsaw kann nur CSV-Dateien (.csv) und keine Excel-Dateien (.xls) oder (.xlsx) Dateien lesen. Wir empfehlen, diese in.csv zu konvertieren und stattdessen die Dateien zu verwenden.
  • Wenn Sie einen neuen Entitätstyp in einer Spalte anlegen, darf der Name dieses Entitätstyps nur Buchstaben und Zahlen enthalten und muss mit einem Buchstaben beginnen. Andere Zeichen sind nicht erlaubt.
  • Wenn einige Ihrer Zellen leer sind, dann können die Ergebnisse unvorhersehbar sein. Meistens glauben wir, dass sie einfach übersprungen werden und es wird “richtig” funktionieren, aber um den Erfolg sicherzustellen, versuchen Sie, Inhalte für alle Zellen zu haben.
  • Wenn möglich, versuchen Sie, die Dokument-ID und die Attribute für den Dokumenttext anzugeben. Auch wenn Sie eine einfache Textspalte als Dokumenttext wählen, ist dies hilfreich. Sie können sogar eine neue Spalte in Ihrer Kalkulationstabelle erstellen, die die Vereinigung einer Vielzahl von anderen Spalten darstellt.
  • Wenn WebJigsaw doppelte Dokument-IDs in einem zu lesenden Blatt findet, wird die letzte verwendet, die vorherigen werden ignoriert.

Jigsaw-Datenblätter

Wir haben ein proprietäres Dateiformat für die Speicherung von Sammlungen von Dokumenten entwickelt, die Xml verwenden. Zusätzlich zum Textinhalt eines Dokuments kann dieses Format Metainformationen über das Dokument enthalten, wie z.B. eine ID und ein Datum, und es kann eine Liste der identifizierten Objekte für jedes Dokument enthalten. Wir nennen diese proprietären Dateien’Jigsaw Datafiles’ (.jig). Wir haben dort auf der Website eine Reihe von Beispielen für Sie zur Ansicht bereitgestellt.

Wenn Sie Ihre eigenen Daten vielleicht in einem xml-Format, in einer Datenbank oder in einem anderen Format haben, ist es für Sie nicht allzu schwierig, diese in das Datafile-Format von WebJigsaw zu übersetzen. Lesen Sie den Anhang dieses Tutorials, um weitere Informationen darüber und Anweisungen zum Umgang mit Ihren eigenen Daten zu erhalten. Vertrau uns — Es ist wirklich nicht so schlimm. Wir haben dies getan, um andere Xml-Dateien in das Format von WebJigsaw zu konvertieren und Webseiten zu kratzen und daraus’Jigsaw Datafiles’ zu erstellen. Denken Sie daran, dass dies jedoch xml ist, so dass Sie keine Zeichen wie &, %, <, oder > in Ihrem Text haben dürfen. Im Anhang finden Sie auch weitere Informationen dazu.

Die erste Zeile einer Puzzle-Daten-Datei kann eine Dateityp-Spezifikation sein (z.B. Unicode UTF-8). WebJigsaw wird diese Spezifikation lesen und die Datei korrekt interpretieren.

Beachten Sie, dass, wenn Sie Ihre eigene Jigsaw-Daten-Datei erstellen und versuchen, sie zu importieren und der Prozess fehlschlägt oder hängt, Sie wahrscheinlich einen Syntaxfehler in der Datei haben, wie z.B. ein illegales Zeichen, eine fehlende Klammer, ein nicht übereinstimmendes Open/Close-Tag, etc.

Als weitere Option, wenn Sie Ihr eigenes spezifisches Dateiformat haben und nicht sicher sind, wie Sie dies in WebJigsaw einfügen können, setzen Sie sich bitte mit uns in Verbindung und wir können möglicherweise einen Importeur für dieses Dateiformat oder einen Übersetzer daraus in das Datafile-Format von WebJigsaw schreiben.

Hinweis

Wenn Sie Dokumente aus Textdateien, Tabellenkalkulationen usw. importiert haben und diese im Jigsaw Datafile-Format sehen möchten, können Sie mit dem Befehl Export das aktuelle Projekt als Jigsaw Datafile ausgeben.

3.2 Web-Jigsaw-Projekte und Arbeitsbereiche

Wenn ein Satz von Dokumenten erfolgreich eingelesen wurde und die Entitätsidentifikation potenziell durchgeführt wurde, wird dieser Satz von Informationen als Projekt bezeichnet. Ein WebJigsaw-Projekt kapselt eine Reihe von Dokumenten, die in WebJigsaw gelesen wurden, zusammen mit allen Entitätskennzeichnungen, die an ihnen vorgenommen wurden. Sie können diese speichern und bei späteren Durchläufen des WebJigsaw-Systems wieder öffnen, indem Sie sie als Jig-Dateien speichern.

Wenn WebJigsaw eine Reihe von Dokumenten importiert, baut es eine Analysedatenbank für diese Dokumente auf dem Server auf. Dies geschieht, damit WebJigsaw auf größere Dokumentsammlungen skalieren kann. Beachten Sie jedoch, dass der Aufbau dieser Datenbank beim ersten Import einer Reihe von Dokumenten zeitaufwändig sein kann, was möglicherweise einige Minuten in Anspruch nimmt. Nachfolgende Analysesitzungen werden jedoch viel schneller beginnen, da dieses Web-Jigsaw-Projekt/Datenbank einfach eingelesen wird. Diese Datenbanken werden in einer Datenbank auf unserem Server gespeichert und werden für maximal einen Tag seit der letzten Aktivität gespeichert.

4. Identifizieren und Arbeiten mit Entitäten

Die Preprcessing-Seite enthält eine Registerkarte Entity Analysis, die Operationen für die verschiedenen nachfolgend beschriebenen Entity-Prozesse enthält.

4.1 Entitäten Erkennung

Beim Import von Textdateien oder Tabellenkalkulationen können Sie wählen, ob das System Entitäten automatisch identifizieren soll. Derzeit bietet WebJigsaw drei Hauptmechanismen zur Identifizierung von Entitäten in Dokumenten. Erstens beinhaltet es Softwarebibliotheken von Drittanbietern, um eine automatisierte (statistische) Entitätserkennung durchzuführen. Zweitens beinhaltet es die Möglichkeit, einige grundlegende Musterabgleiche von Text durchzuführen, um Entitätstypen wie Daten, Telefonnummern, Postleitzahlen, E-Mail-Adressen, URLs und IP-Adressen zu identifizieren. Drittens können Sie einen Entitätstyp (Name) und eine Liste der Werte dieses Entitätstyps angeben. Im Folgenden beschreiben wir jede dieser Möglichkeiten etwas detaillierter.

Entity Identification Dialog
Dialog zur Identifizierung von Unternehmen

Für die automatisierte Entitätserkennung kann WebJigsaw eines von drei möglichen Paketen verwenden. Polygot, Stanford NER und Spacy sind in der Distribution enthalten, so dass in diesen Fällen der Prozess der Entitätsidentifikation auf dem Server durchgeführt wird. Alle Pakete haben Stärken und Schwächen, daher empfehlen wir Ihnen, jedes einzelne auszuprobieren, um zu sehen, welche für Ihre Dokumente am besten geeignet ist. Wir verwenden im Allgemeinen das Polygot- oder Spacy-NER-System und haben festgestellt, dass es im Allgemeinen recht schnell ist.

WebJigsaw enthält auch Funktionen, die Ihnen helfen können, bestimmte Arten von Zeichenketten wie Daten, Telefonnummern, Postleitzahlen, E-Mail-Adressen, URLs und IP-Adressen im Text von Dokumenten zu identifizieren. Dieser Code führt einige grundlegende Übereinstimmungen mit regulären Ausdrücken durch, so dass er nicht perfekt ist. Beispielsweise wird eine 5-stellige Nummer als Postleitzahl identifiziert; wir validieren diese nicht mit allen aktuellen Postleitzahlen in den USA.

Schließlich können Sie mit WebJigsaw einen neuen Entitätstyp erstellen und alle gültigen Zeichenketten angeben, die die Instanzen dieser Entität sind. Sie können beispielsweise einen neuen Entitätstyp “Auto” anlegen und eine Reihe möglicher Werte wie “Ford”, “Chevrolet”, “Honda”, “Hyundai” usw. angeben. Dazu müssen Sie eine Textdatei (.txt) erstellen, die jeden möglichen Entitätswert in einer anderen Zeile der Datei enthält. (Beachten Sie, dass ein Entitätswert nicht nur ein Wort sein muss, sondern mehrere Wörter haben kann.)

Um diesen neuen Entitätstyp dann zu WebJigsaw hinzuzufügen, verwenden Sie den unteren Bereich der Registerkarte Entity Identification. Geben Sie einfach den Namen des Entitätstyps auf der linken Seite ein und suchen Sie dann nach der Textdatei, die die Liste der Entitätswerte enthält. Beachten Sie, dass Entitätstypennamen (wie z.B. “Auto” im obigen Beispiel) zwischen Groß- und Kleinschreibung unterscheiden, nur Buchstaben und Zahlen enthalten dürfen und mit einem Buchstaben beginnen müssen.

Die Entitätsidentifikation kann zu Beginn einer Untersuchung nach dem ersten Import der Dokumente durchgeführt werden.

4.2 Korrektur fehlerhafter Entitätskennzeichnung

Der Prozess der automatisierten Entitätserkennung ist nicht perfekt. Viele False Positives (Identifizierung von Entitäten, die wirklich keine Entitäten sind) und Negatives (vollständiges Fehlen einiger gültiger Entitäten) können insbesondere in Dokumenten mit vielen Rechtschreibfehlern aus Prozessen wie der OCR auftreten.

WebJigsaw bietet die Möglichkeit, falsche Entitätskennzeichnungen zu korrigieren, wenn Sie sich auf der Registerkarte Visualisierung befinden. In der Dokumentenansicht können Sie auf eine Entität doppelklicken, und Sie haben das Menü oben, um deren Typ zu ändern. Außerdem können Sie mit der Maus über Wörter in einem Dokument ziehen, um sie auszuwählen, und über das Menü können Sie dann die Wörter als Einheit hinzufügen. Sie können einen der vorhandenen Entitätstypen auswählen oder einen neuen Entitätstyp anlegen.

Die Listenansicht enthält auch den Rechtsklick-Menübefehl Delete, mit dem Sie fehlerhafte Entitätskennzeichnungen korrigieren und eine Entität oder Entitäten entfernen können. Sie können mehrere Objekte mit Shift- oder Control-Klick auswählen, um mehrere Objekte auf einmal zu entfernen.

Neue Entitätstypen (Namen) sind case-sensitive und dürfen keine Leerzeichen oder andere Sonderzeichen enthalten. Der Entitätstyp darf nur Buchstaben und Zahlen enthalten und muss mit einem Buchstaben beginnen.

4.3 Aliasing von Entitäten

WebJigsaw ermöglicht es Ihnen auch, Aliase für Entitäten zu erstellen. Angenommen, der Name einer Person wird in einer Dokumentensammlung auf drei verschiedene Arten geschrieben, aber Sie wissen, dass sie alle die gleiche Person sind. Alternativ können Sie annehmen, dass eine Person einen Alias verwendet, d.h. es gibt einen anderen Namen, nach dem sie geht. WebJigsaw ermöglicht es, Objekte zu aliasieren, um eine dieser Situationen zu bewältigen. Entity-Aliase können entweder interaktiv über die Listenansichten definiert werden.

Um einen Alias interaktiv zu erstellen, wählen Sie zwei oder mehr Objekte in der Listenansicht aus und rufen Sie dann mit einem Rechtsklick ein Menü auf, in dem der Befehl Make Aliases enthalten ist. Wählen Sie das aus, und das System fragt, welcher der Entitätsnamen der Hauptname sein soll, der für diesen Alias verwendet werden soll. Sobald Sie das getan haben, werden alle anderen untergeordneten Objekte aus den Ansichten entfernt und nur noch dieser Hauptname wird verwendet. Dieser “gewinnende” Entitätsname wird unterstrichen dargestellt, um anzuzeigen, dass er Aliase hat. Wenn Sie den Mauszeiger über ein solches Objekt bewegen, erscheint eine Popup-Ansicht mit den anderen Aliases.

Define Entity Alias
Entitäts-Alias definieren

5. Erkundung und Analyse der Dokumentsammlung

Sobald Sie eine Dokumentsammlung importiert haben, sind Sie bereit, die Dokumente und ihre Einheiten zu untersuchen, zu untersuchen und zu analysieren. In aller Regel möchten Sie eine Reihe von verschiedenen Ansichten erstellen, um die Dokumente und Entitäten anzuzeigen. Beachten Sie, dass Sie beliebig viele Sichten auf einen der vorhandenen Sichttypen haben können.

5.1 Allgemeine Hinweise

  • Ansichten zeigen Verbindungen zwischen Entität und Dokument und Entität. Ein Dokument und eine Entität sind verbunden, wenn die Entität im Dokument erscheint. Zwei Einheiten gelten als verbunden, wenn sie in mindestens einem Dokument zusammen vorkommen. Mit zunehmender Anzahl der Dokumente, in denen sie zusammen vorkommen, steigt auch die quantitative Verbindungsstärke.
  • Ein einfacher Mausklick auf ein Element (Dokument oder Entität) selektiert dieses Element. Alle anderen sichtbaren Elemente aktualisieren dann ihr Aussehen, um anzuzeigen, wie sie sich auf das ausgewählte Element beziehen. Benutzermausaktionen wie Selektionen und Erweiterungen werden auch an andere aktive Ansichten übertragen, die ihre Darstellung ebenfalls entsprechend aktualisieren.
  • Sie können das Hören von Ereignissen in jeder Ansicht ein- und ausschalten, indem Sie auf die kleine Satellitenschüssel oben rechts klicken. Das Ausschalten des Hörens friert die Ansicht im Wesentlichen ein, d.h. Benutzeraktionen wie Klicks und Doppelklicks in anderen Ansichten haben keinen Einfluss auf diese Ansicht. Diese Funktion ist sehr nützlich, um eine Ansicht in einem interessanten Zustand zu sperren. Beachten Sie, dass eingefrorene Ansichten auch nicht von dem Befehl Clear All Views im Menü Views betroffen sind.
  • Um ein Dokument oder den Satz von Dokumenten, die eine Entität enthalten, in einer leeren neuen Dokumentenansicht zu untersuchen, klicken Sie mit der rechten Maustaste auf das Element und verwenden Sie den Befehl In neuer Dokumentenansicht anzeigen.

5.2 Suchtipps

Im Dokumentenmodus, der durch Aktivieren des Kontrollkästchens Dokumente aufgerufen wird, ruft WebJigsaw einfach Dokumente ab, die Wörter aus der Suchanfrage irgendwo im Dokumententext enthalten.

5.3 Ansichtsspezifische Anwendungstipps

Die folgenden Abschnitte beschreiben kurz einige der Dienstprogramme, Befehle und Funktionen der verschiedenen Ansichten in WebJigsaw.

Beachten Sie, dass jede Ansicht oben ihre eigenen Menüs hat, die nützliche Funktionen für diese Ansicht bieten. Einige der Ansichten verfügen beispielsweise über Filterfunktionen, mit denen Sie die Anzeige einschränken können. Alle Ansichten haben Change Title, Minimize / Maximize, Open in new Tab und die Möglichkeit zu hören.

Dokumentenansicht

Die Dokumentenansicht ist die Kernansicht in WebJigsaw zum Lesen von Dokumenteninhalten. Die Liste unten links enthält eine Reihe von Dokumenten, die in diese Ansicht geladen wurden. Alle Dokumente werden dort standardmäßig platziert. Eine Dokumentenansicht kann auch als Reaktion auf Suchanfragen im Bedienfeld, durch Show-Befehle aus anderen Ansichten oder durch Expand-Befehle aus anderen Ansichten gefüllt werden. Zusätzlich bringt die Schaltfläche Add All unten links alle Dokumente in der Sammlung in die Ansicht. Seien Sie vorsichtig bei der Verwendung dieses Befehls bei extrem großen Dokumentsammlungen.

Klicken Sie auf einen beliebigen Dokumentnamen, um ihn auszuwählen und seinen Text im Fokusbereich rechts anzuzeigen. Die Nummer durch die Dokument-ID gibt an, wie oft ein Dokument angesehen wurde. Alle in dieser Ansicht aufgeführten Dokumente nehmen an der Wortwolke oben teil, die die Schlüsselwörter anzeigt, die in diesem Satz von Dokumenten verwendet werden.

In der Region über dem eigentlichen Dokumentinhalt befindet sich die “Dokumentenzusammenfassung”, der eine Satz aus dem Dokument, den WebJigsaw ausgewählt hat, um zu veranschaulichen, worum es bei dem Dokument geht. Dies kann für die schnelle Auswertung mehrerer langer Dokumente nützlich sein.

Innerhalb des Dokumentfokusbereichs wird oben der Text des Dokuments angezeigt, darunter sind alle verbundenen Einheiten aufgelistet, die nicht im Dokumenttext vorkommen. Die Elemente sind in einem Pastellton ihrer Standardfarbe eingefärbt. Wenn Sie auf eine Entität klicken, wird sie ausgewählt. Sie können die manuelle Entitätsidentifikation durchführen, indem Sie die Auswahl eines Wortes oder von Wörtern, die es auswählen, mit der Maus ziehen und diese dann über das Menü als neue Entität hinzufügen. Ebenso können Sie mit der rechten Maustaste auf eine bereits vorhandene Entität klicken, um auf Befehle zum Entfernen als Entität, zum Ändern des Entitätstyps über das Menü oder zum Öffnen einer neuen Dokumentenansicht zuzugreifen, in der nur Dokumente enthalten sind, die die Entität enthalten.

Hinweis

Wenn Dokumente immer größer werden, laden sie in der Dokumentenansicht viel langsamer.

Listenansicht

Wir finden, dass die Listenansicht die mächtigste und nützlichste Ansicht in WebJigsaw ist. Es bietet eine sehr einfache Suche, Auswahl, Filterung und Untersuchung aller Entitäten und Dokumente in der zu analysierenden Sammlung.

Die Ansicht beginnt mit der Darstellung von drei Spalten, aber Sie können Listen (Spalten) über Befehle aus dem Menü Listen in der Ansicht hinzufügen/entfernen, so dass Sie eine Großansicht mit beliebig vielen Listen ausfüllen können. Die Ansicht wird horizontal verschoben, wenn nicht genügend Platz vorhanden ist.

Jede Spalte enthält Elemente eines bestimmten Typs – der Typ kann über das Menü am oberen Rand jeder Liste geändert werden. Der gleiche Entitätstyp kann auch in verschiedene Spalten eingefügt werden. Seien Sie vorsichtig bei sehr großen Dokumentensammlungen mit vielen, vielen Einheiten eines bestimmten Typs, jedoch. Dies kann zu einer sehr langen Scroll-Liste führen.

Der Balken links von einer Entität ist ein Frequenzzähler über die gesamte Dokumentsammlung. Wenn Sie den Mauszeiger über diese kleine Leiste bewegen, finden Sie die genaue Anzahl der Dokumente in der Sammlung, in der diese Entität erscheint.

Die Schaltflächen und Menüs über einer Spalte steuern, wie diese bestimmte Liste angezeigt wird. Die ersten drei Schaltflächen sortieren die Liste auf unterschiedliche Weise:

1) alphabetisch,

2) nach Häufigkeit des Auftretens in der gesamten Sammlung oder

3) nach Verbindungsstärke zu den ausgewählten Elementen.

Andere Schaltflächen steuern die Ausrichtung von Elementen und ermöglichen es Ihnen, eine Liste zu löschen.

Wenn Sie auf eine Entität klicken, wird sie ausgewählt; Shift-Klick und Control-Klick ermöglichen die Auswahl mehrerer Entitäten. Ausgewählte Objekte werden gelb dargestellt. Die mit den ausgewählten Elementen verbundenen Elemente werden orange mit dunkleren Schattierungen dargestellt, die auf stärkere Verbindungen hinweisen. Nicht verbundene Objekte werden mit einem weißen Hintergrund dargestellt. Wenn mehrere Entitäten ausgewählt sind, steuern die 4 Schaltflächen in der Utopie, ob Entitätsverbindungen über oder’ing die ausgewählten Entitäten und’ing die ausgewählten Entitäten angezeigt werden. Im “Und”-Modus müssen beispielsweise verbundene Objekte (die orangefarbenen) in einigen Dokumenten mit allen ausgewählten Objekten zusammen auftreten.

Ein Rechtsklick auf eine oder mehrere ausgewählte Entitäten bietet ein Menü mit einer Reihe nützlicher Funktionen wie Anzeigen, Alias und Löschen.

Wörterbaum Ansicht

Diese Ansicht ist eine Version der WordTree Visualisierung, die von IBM über die Many Eyes Visualisierungsseite und deren IEEE InfoVis Paper 2008 eingeführt wurde. Hier gilt der WordTree für alle Dokumente in der Sammlung. Diese Ansicht hilft Ihnen, den Kontext verschiedener Wörter in der Sammlung zu verstehen.

Wenn Sie einen Begriff im oberen Texteingabebereich eingeben, zeigt das System alle nachfolgenden Wörter/Kontexte an, die ihm in einem Dokument folgen. Sie können die Ansicht einschränken, um die gesamte Zeichenkette zu komprimieren.

Dokumenten Rasteransicht

Diese Ansicht ist nützlich, um eine sortierte und schattierte Liste aller Dokumente in der Sammlung anzuzeigen, in der die Reihenfolge und Schattierung verschiedene Metriken über die Dokumente kommunizieren kann. Die Ansicht beginnt leer, aber Dokumente können über Show-Operationen in anderen Ansichten, Suchanfragen oder über die Schaltfläche Add All in dieser Ansicht hinzugefügt werden. Jedes Dokument wird als kleines Rechteck innerhalb der Ansicht dargestellt. Die Dokumente werden zeilenweise von oben links nach unten rechts sortiert. Sie können verschiedene Metriken anwenden, um diese Reihenfolge und die Schattierung des Rechtecks jedes Dokuments zu steuern. Wenn Sie mit der Maus über ein Dokumentenrechteck fahren, werden dessen Dokument-ID und der Wert für die Metrik zur Steuerung der sortierten Reihenfolge angezeigt. Derzeit stehen nur eine Reihe von verschiedenen Metriken zur Verfügung: die Größe eines Dokuments, die Anzahl der Entitäten in einem Dokument, das Dokumentdatum, das Sentiment des Dokuments und die Ähnlichkeit der Dokumente mit einem ausgewählten Dokument. Wenn Sie das Kontrollkästchen oben links aktivieren, können Sie die Dokumente nach Clustern organisieren (falls dies berechnet wurde) und dann innerhalb dieser Cluster entsprechend sortieren und sortieren.

Die Dokumentgitteransicht verfügt oben über einen Menübefehl zum Ausdrucken aller verschiedenen Dokumente in der Ansicht in der Reihenfolge, in der sie erscheinen, und mit einer Metrik für jedes Dokument in eine Datei.

Dokumenten-Gruppen-Ansicht

Diese Ansicht kann über die Registerkarte in der Rasteransicht aufgerufen werden. Es bietet einen schnellen Überblick über die gesamte Dokumentsammlung, indem es jedes Dokument in der Sammlung als kleine rechteckige Symbole im Fenster darstellt. Wenn Sie eine Dokumenten-Clustering-Berechnung durchgeführt haben, werden die Dokumente in Clustern angeordnet.

5.4 Automatisierte rechnerische Analyse

WebJigsaw bietet eine Reihe von verschiedenen automatisierten Berechnungsanalysen, die Ihnen helfen können, die Dokumentenerfassung zu erforschen. Es bietet vier wichtige Funktionen: Dokumentenzusammenfassung, Dokumentenähnlichkeit, Dokumentenclustering und Sentimentanalyse.

Dazu können Sie in der Vorverarbeitungsphase unter der Registerkarte “Computational Analysis” die entsprechenden Befehle auswählen. Wenn Sie diese Analysen verwenden möchten, empfehlen wir Ihnen dringend, sie nach der Entitätsidentifikation zu berechnen. Standardmäßig werden Cluster mit einer Größe verwendet, die von der Anzahl der Dokumente abhängt. Beachten Sie, dass bei der Durchführung der Berechnungsanalysen WebJigsaw-Blöcke blockiert werden und Sie keine anderen Operationen durchführen können. Die Analysen können auch einen erheblichen Zeitaufwand erfordern. Bei einer Dokumentsammlung von fünftausend Dokumenten oder bei größeren Dokumenten können die Analysen Stunden dauern. In einer solchen Situation empfehlen wir Ihnen, die Analysen zu starten und dann in der Zwischenzeit etwas anderes zu tun, vielleicht sogar die Analysen über Nacht durchzuführen und am nächsten Tag zur Untersuchung zurückzukehren. Im Folgenden beschreiben wir jede der Analysen und wie WebJigsaw sie präsentiert.

Dokumentzusammenfassung

Die Dokumentenverdichtung ist in WebJigsaw auf unterschiedliche Weise integriert. Die Dokumentenansicht zeigt eine Wortwolke (oben) von ausgewählten Dokumenten, die in der Ansicht geladen wurden. Die Wortwolke hilft Ihnen, Themen und Konzepte innerhalb der Dokumente schnell zu verstehen, indem sie die häufigsten Wörter in den ausgewählten Dokumenten präsentiert. WebJigsaw entfernt häufige, einfache Wörter, kombiniert aber nicht Wörter wie “make”, “makes” und “making” (stemming), um identifizierte Entitäten in der Wortwolke hervorheben zu können. Die Anzahl der angezeigten Wörter kann interaktiv mit dem Schieberegler über der Cloud eingestellt werden. Zusätzlich bietet die Dokumentenansicht eine Zusammenfassung des angezeigten Dokuments mit einem Satz (dem wichtigsten Satz). Diese Zusammenfassung eines Dokuments in einem Satz ist auch in allen anderen WebJigsaw-Ansichten verfügbar. Es kann über eine QuickInfo überall dort angezeigt werden, wo ein Dokument als Symbol oder Name dargestellt wird. Die Document Cluster View bietet auch Keyword Summaries für die Cluster.

Dokumentähnlichkeiten

In WebJigsaw kann die Dokumentenähnlichkeit in Bezug auf den gesamten Dokumententext oder nur auf die mit einem Dokument verbundenen Objekte gemessen werden. Diese verschiedenen Ähnlichkeitsmaße sind besonders interessant für semi-strukturierte Dokumentensammlungen, wie z.B. Publikationen, in denen metadatenbezogene Einheiten (z.B. Autoren oder Konferenzen) im eigentlichen Dokumententext nicht erwähnt werden. Die Document Grid View kann einen Überblick über die Ähnlichkeit aller Dokumente (im Vergleich zu einem ausgewählten Dokument) über die Reihenfolge und Farbe der Dokumente in der Gitterdarstellung geben. Klicken Sie dazu auf ein Dokument, um es auszuwählen, rufen Sie dann das rechte Menü auf und wählen Sie den Befehl, um es als Grundlage für die Ähnlichkeit zu verwenden. Gehen Sie dann nach oben rechts und stellen Sie sicher, dass die Reihenfolge und/oder die Schattierung von Dokumenten im Raster auf Ähnlichkeit basiert. In allen anderen Ansichten können die fünf ähnlichsten Dokumente mit einem Rechtsklickbefehl auf eine Dokumentdarstellung abgerufen werden. Beachten Sie, dass wir festgestellt haben, dass die Entitätsbasierte Ähnlichkeitsberechnung manchmal abstürzt, wenn einige der Dokumente eine geringe Anzahl von (oder keine) Entitäten aufweisen.

Dokumentgruppierung nach Themenbereichen

WebJigsaw kann auch ähnliche Dokumente zusammenfassen. Wie die Berechnung der Dokumentenähnlichkeit kann auch das Dokumenten-Clustering entweder auf dem Dokumententext oder auf den mit einem Dokument verbundenen Elementen basieren. Berechnete Cluster werden in der Document Cluster View oder der Document Grid View angezeigt. Innerhalb der Cluster-Ansicht gibt es eine Auswahlmöglichkeit, welche Clusterung in der Ansicht angezeigt werden soll. Jeder Cluster ist durch drei Wörter/Begriffe gekennzeichnet, die einige der wichtigsten Konzepte innerhalb des Clusters beschreiben. Wählen Sie in der Rasteransicht die Option oben links, um Dokumente innerhalb des Gitters nach Gruppen zu organisieren.

Dokument Inhaltscharakter / Subjektivitätsanalyse

Der Inhaltscharakter eines Dokuments ist sein allgemeiner Ton oder seine Stimmung – ist es positiv und optimistisch oder ist es negativ und wütend? Subjektivität ist die einfache Klassifizierung eines Satzes oder einer Klausel des Satzes als subjektiv oder objektiv. Metriken über die Stimmung, Subjektivität und Polarität eines Dokuments können in der Dokumentenrasteransicht angezeigt werden. Wählen Sie die entsprechende Metrik aus den Auswahlmenüs oben rechts. Eine Metrik kann durch die Reihenfolge der Dokumente dargestellt werden, und eine zweite Metrik (oder die erste Metrik wieder) kann durch die Dokumentenfarbe kodiert werden. Um die Stimmung eines Dokuments zu berechnen, verwenden wir Listen mit “positiven” und “negativen” Wörtern und zählen die Anzahl der Vorkommen in jedem Dokument. Puzzle stellt positive Dokumente in blau (positiver wird durch dunkleres Blau angezeigt) und negative Dokumente in rot dar.

6. Hilfe/Kommentare

Wenn Sie Hilfe bei der Verwendung von WebJigsaw wünschen, senden Sie bitte eine E-Mail an office@lpm.academy.

Wir würden uns auf jeden Fall über Kommentare und Gedanken zum System freuen. Wir sind besonders daran interessiert, zu erfahren, wie Sie das System nutzen und ob es für Sie von Vorteil ist. Bitte lassen Sie es uns wissen.

7. Zukünftige Arbeit

Für die neue Release sind folgende Erweiterungen geplant:

Rückgängig machen/wiederherstellen
Wikipedia-Import
BibTeX-Import
PubMed-Import
Erfassung und Überprüfung der Untersuchungshistorie
Geo-Raum-Ansicht

8. Anhang

WebJigsaw Datafile-Format
Jigsaw Datafiles (mit Suffix.jig) sind Xml-Dateien, die einen Satz von einem oder mehreren Dokumenten kapseln. Derzeit enthält die Datei für jedes Dokument die Dokument-ID, ihr Datum, alle anderen Dokumente, auf die sie verweist, die Quelle des Dokuments und den tatsächlichen Textinhalt des Dokuments sowie alle Entitäten, die im Dokument identifiziert wurden.

Eine Puzzle-Daten-Datei enthält ein äußerstes <documents> tag, das mehrere Elemente <document> umschließt. Jedes <document> sollte eine <docId> enthalten und hat ein optionales <docDate> und andere Referenzfelder. Die Klartextquelle/Inhalt des Dokuments sollte sich im Feld <docText>  befinden und die identifizierten Entitätswerte wie <date><time><money><place><person> und <organization> als Pfad. Beachten Sie, dass Sie in diesem Abschnitt auch andere Entitätstypen hinzufügen können.

Es gibt einige Regeln für Entitätstypen, Werte und anderen Text in Projektdateien. Entitätstypen dürfen keine Leerzeichen enthalten. Entitätswerte und der Berichtsbeschreibungstext dürfen die Zeichen &, <, > und % nicht enthalten, da sie in Xml-Inhalten illegal sind. Um diese Zeichen in Textbereiche einzufügen, verwenden Sie die folgenden Abkürzungen: 

  • & – &
  • > – >
  • < – <
  • % – %

Ein Beispiel für eine Puzzle-Daten-Datei mit einem Dokument darin ist unten dargestellt.

<documents>
<document>
<docID>20040216-2_30</docID>
<docDate>Feb 18 2004</docDate>
<docSource/>
<docText>
In the first action of its kind this winter, 18 bison were captured outside Yellowstone National Park on Tuesday and were being tested for brucellosis. Those that have signs of the disease will be sent to slaughter and the rest will be marked and set free, according to Karen Cooper, a spokeswoman for the Montana Department of Livestock.  The bison, a mix of calves, yearlings and adults, were hazed into a pen just before noon Tuesday near Horse Butte, west of Yellowstone. The bison were then loaded onto trailers and trucked to another holding pen to be tested for brucellosis.  Cooper said some of the bison had been hazed back into the park on Jan. 28, Feb. 5 and Feb. 13. "These were some of the same animals. We could not get them back in the park so today it was a capture operation," Cooper said.  Several agencies participated in the capture, including the Department of Livestock, Montana Fish, Wildlife and Parks, National Park Service and the U.S. Forest Service. Through a state and federal bison management plan, government agents haze and sometimes capture bison that leave Yellowstone. The plan is intended to reduce the risk that bison will transmit brucellosis to cattle in the area.
</docText>
<date>Feb. 13</date>
<date>Feb. 5</date>
<date>Jan. 28</date>
<date>Tuesday</date>
<date>this winter</date>
<date>today</date>
<time>noon</time>
<place>Yellowstone</place>
<place>Yellowstone National Park</place>
<person>Karen Cooper</person>
<organization>Department of Livestock</organization>
<organization>Montana Department of Livestock</organization>
<organization>National Park Service</organization>
<organization>U.S. Forest Service</organization>
<place>Montana</place>
<person>Cooper</person>
</document>
</documents>