Glossar

Annotation

Annotation beschreibt die manuelle oder automatische Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle Annotation wird händisch durchgeführt, während die (teil-)automatisierte Annotation durch Machine-Learning-Verfahren durchgeführt wird. Ein klassisches Beispiel ist das automatisierte PoS-Tagging (Part-of-Speech-Tagging), welches oftmals als Grundlage (Preprocessing) für weitere Analysen wie Named Entity Recognition (NER) nötig ist. Annotationen können zudem deskriptiv oder analytisch sein.

Annotationsguidelines

Annotationsguidelines sind verschriftlichte, projektspezifische Anweisungen, die bei der Annotation beachtet werden sollen und bei kollaborativen Projekten als gemeinsame Grundlage für alle Annotierenden dienen. Taxonomiebasierte Annotationsprojekte enthalten klassischerweise Definitionen der zu verwendenden Annotationskategorien (Tags).

API

API steht für Application Programming Interface und bezeichnet eine Programmierschnittstelle, die Soft- und Hardwarekomponenten wie Anwendungen, Festplatten oder Benutzeroberflächen verbindet. Sie vereinheitlicht die Datenübergabe zwischen Programmteilen, etwa Modulen, und Programmen.

Browser

Mit Browser ist in der Regel ein Webbrowser gemeint, also ein Computerprogramm, mit dem das Anschauen, Navigieren auf, und Interagieren mit Webseiten möglich wird. Am häufigsten genutzt werden dafür Chrome, Firefox, Safari oder der Internet Explorer.

Browsersuchfunktion

Um eine Browser-Suchfunktion durchzuführen, und beispielsweise eine Webseite auf bestimmte Suchbegriffe zu filtern, klicken Sie auf Ihrem Mac „cmd” + „F” und auf Ihrem Windows PC „Strg” + „F”. In das sich öffnende Suchfenster tragen Sie Ihren Suchbegriff ein und die jeweils geöffnete Seite wird darauf hin durchsucht.

Case Insensitivity

Als Gegenbegriff zu Case Sensitivity bezeichnet der Begriff „Case Insensitivity” die Nicht-Berücksichtigung von Groß- und Kleinschreibung bei der elektronischen Datenverarbeitung. Versalien und Minuskeln werden nicht als unterschiedlich angesehen.

Case Sensitivity

Unter Case Sensitivity versteht man in der Regel die Berücksichtigung von Groß- und Kleinschreibung von Textelementen bei der Datenverarbeitung. Diese ist unter anderem für die Einstellung von Such- und Analysekriterien bei Tools für die digitale Textanalyse von Bedeutung.

Close Reading

Close Reading bezeichnet die sorgfältige Lektüre und Interpretation eines einzelnen oder weniger Texte. Close Reading ist in der digitalen Literaturwissenschaft außerdem mit der manuellen Annotation textueller Phänomene verbunden (vgl. auch Distant Reading als Gegenbegriff).

Cloudbasiert

Werden Ihnen Dienste, Speicherplatz oder Rechenleistung „cloudbasiert” angeboten, handelt es sich um die Bereitstellung dieser Ressource über das Internet. Eine Software, die nicht auf dem eigenen Server installiert ist, sondern auf den Servern des Herstellers, nennt man gehostete Software. Nutzt der/die Hersteller*in für die Bereitstellung selbst eine Cloud, so ist von cloudbasierter Software die Rede.

Code

Der Code, oder auch Programmcode/ Maschinencode, bezieht sich auf eine Sammlung von Anweisungen, die durch verschiedene Programmiersprachen wie Java, Python oder C realisiert werden können. Für die Ausführung der Anweisungen wird der Code durch einen Compiler oder einen Interpreter in die Maschinensprache, einen Binärcode, des Computers übersetzt.

Commandline

Die Commandline (engl. command line interface (CLI)), auch Kommandozeile, Konsole, Terminal oder Eingabeaufforderung genannt, ist die direkteste Methode zur Interaktion eines Menschen mit einem Computer. Programme ohne eine grafische Benutzeroberfläche (GUI) werden i. d. R. durch Texteingabe in die Commandline gesteuert. Um die Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd” + „space”, geben „Terminal” ein und doppelklicken auf das Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R”, geben „cmd.exe” ein und klicken Enter.

CRF-Modell

CRFs (Conditional Random Fields) sind eine Klasse statistischer Modellierungsmethoden, die häufig in der Mustererkennung und im maschinellen Lernen eingesetzt werden. CRF-Algorithmen sind der Kern kontextsensitiver Programme. Ein CRF-Modell ist daher das Ergebnis eines Trainingsprozesses, bei dem ein Modell auf Grundlage manuell anmontierter Beispiele trainiert wird, welches dabei lernt bestimmte Muster zu erkennen, um diese dann auf neue, unbekannte Texte anzuwenden. In diesen unbekannten Texten werden die erlernten Phänomene dann automatisch erkannt.

CSV

CSV ist die englische Abkürzung für Comma Separated Values. Es handelt sich um ein Dateiformat zur einheitlichen Darstellung und Speicherung von einfach strukturierten Daten mit dem Kürzel .csv, sodass diese problemlos zwischen IT-Systemen ausgetauscht werden können. Dabei sind alle Daten zeilenweise angeordnet. Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt, welche durch Trennzeichen wie Semikola oder Kommata getrennt werden können. In Programmen wie Excel können solche Textdateien als Tabelle angezeigt werden.

Data Mining

Data Mining gehört zum Fachbereich Information Retrieval und bezieht sich auf die systematische Anwendung computergestützter Methoden, die darauf abzielt, in vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu erkennen. Textbasierte Formen des Data Minings sind u. a. Text Mining, Web Mining und Opinion Mining.

Default

Das/der Default (engl. für Voreinstellung oder Standardwert) bezeichnet den Wert einer Softwareeinstellung oder einer Eingabevariable, der verwendet wird, falls Nutzer*innen selbst keinen Wert oder keine Einstellungen vornehmen. Es handelt sich also um die standardmäßig festgelegten Einstellungen eines Tools oder Programms. Per Default festgelegte Parameter lassen sich i. d. R. manuell umstellen.

Distant Reading

Distant Reading ist ein Ansatz aus den digitalen Literaturwissenschaften, bei dem computationelle Verfahren auf häufig große Mengen an Textdaten angewandt werden, ohne dass die Texte selber gelesen werden. Meist stehen hier quantitative Analysen im Vordergrund, es lassen sich jedoch auch qualitative Metadaten quantitativ vergleichen. Als Gegenbegriff zu Close Reading wurde der Begriff insbesondere von Franco Moretti (2000) geprägt.

Domänenadaption

Domäneadaption beschreibt die Anpassung einer in einem Fachgebiet entwickelten digitalen Methode an ein anderes Fachgebiet.

Double-Keying

Double-Keying ist eine Variante des Keying, bei der zwei Personen den Inhalt eines Dokumentes abtippen. Anschließend sucht ein Computerprogramm nach Differenzen zwischen den beiden Versionen. Gefundene Tippfehler werden dann von einer dritten Person korrigiert. So entstehen nahezu fehlerfreie Textdigitalisate.

F-Score

Der F-Score steht für ein statistisches Maß, welches das Verhältnis von Genauigkeit (Precision) und Trefferquote (Recall) als gewichtetes harmonisches Mittel angibt, und deshalb als gerichtetes, harmonisches Mittel gilt.

False Positives/ True Positives

Die Begriffe „True Positives” und „False Positives” werden genutzt, um zu bewerten, ob eine Klassifikation korrekt oder falsch ausgeführt wurde. Wird eine E-Mail beispielsweise zu Recht als Spam identifiziert, handelt es sich um einen „True Positive”-Fall. Wird eine E-Mail aber fälschlicherweise als Spam klassifiziert, handelt es sich um einen „False Positive”-Fall. Analog dazu werden die Begriffe „True Negative” und „False Negative” genutzt. Wird eine Email korrekter Weise nicht als Spam klassifiziert, handelt es sich um einen Fall von „True Negative”. Wird eine Email nicht als Spam erkannt, bei der es sich aber um solchen handelt, so ist dies ein „False Negative”. Diese Werte dienen als Grundlage um mittels Precision und Recall den F-Score zu ermitteln.

Feature

Unter Features können Einzelfunktionen eines Tools verstanden werden, die beispielsweise komplexe Funktionen wie die Visualisierung eines Textes als Wordcloud ermöglichen, oder auch kleinere Funktionseinheiten wie den Abgleich einzelner Spracheigenschaften (Properties) mit annotierten Beispieltexten darstellen.

Goldstandard

Im Kontext von NLP bezieht sich der Goldstandard auf einen manuell überprüften oder annotierten Datensatz, der als Maßstab zur Evaluation von automatisierten Annotationssystemen wie PoS-Taggern oder NER-Tools verwendet wird, die auf Machine-Learning-Algorithmen basieren. Häufig werden zwei oder mehr unabhängig voneinander manuell erstellte Annotationen abgeglichen, um einen überindividuellen Gold Standard zu erstellen.

Ground Truth

Beim überwachten, maschinellen Lernen bezieht sich der Begriff Ground Truth auf die Genauigkeit der Klassifizierung des Trainingssatzes und wird durch direkte Beobachtung der Daten erhoben. Ein Datensatz, der als Ground Truth bezeichnet wird, ist meist eine manuelle Annotation, die individuell sein darf und Fehler enthalten kann. Der Goldstandard, im Vergleich, versucht die “Ground Truth” so genau wie möglich, das heißt ohne Fehler und mit überindividueller Gültigkeit, darzustellen. Ground Truth und Gold Standard werden oft als Synonyme verwendet.

GUI

GUI steht für Graphical User Interface und bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um somit beispielsweise den Umgang mit der Commandline zu umgehen.

HTML

HTML steht für Hypertext Markup Language und ist eine textbasierte Auszeichnungssprache zur Strukturierung elektronischer Dokumente. HTML-Dokumente werden von Webbrowsern dargestellt und geben die Struktur und Online-Darstellung eines Textes vor. HTML-Dateien können außerdem zusätzliche Metainformationen enthalten, die auf einer Webseite selbst nicht ersichtlich sind.

HTR

HTR steht für Handwritten Text Recognition und ist eine Form der Mustererkennung, wie auch die OCR. HTR bezeichnet die automatische Erkennung von Handschriften und die Umformung dieser in einen elektronischen Text. Die Automatisierung beruht auf einem Machine-Learning-Verfahren.

Hyperparameter

Hyperparameter beziehen sich auf externe, anpassbare Einstellungen, die genutzt werden um den Lernprozess zu kontrollieren und zu beeinflussen (zu modellinternen Parametern siehe Parameter). Sie sind unabhängig vom Datensatz und beziehen sich beispielsweise auf Einstellungen wie Anzahl der Iterationen, Größe der Datensätze oder Kontextfenster.

Information Retrieval

Die Teildisziplin der Informatik, das Information Retrieval, beschäftigt sich mit der computergestützten Suche und Erschließung komplexer Informationen in meist unstrukturierten Datensammlungen.

Inter Annotator Agreement (IAA)

Das Inter Annotator Agreement, auch IAA genannt, wird verwendet, um im Kontext eines kollaborativen Annotationsprojektes herauszufinden, wie hoch die Übereinstimmung der Annotator*innen miteinander ist. Das IAA wird auch als Maß der Objektivität definiert, da es ermöglicht zu ermitteln, inwieweit die Annotationsergebnisse unabhängig von den Annotierenden sind. Es kann auf unterschiedliche Weisen wie beispielsweise durch Scott's pi, Cohen's kappa, Krippendorf's alpha oder das Gamma-Agreement berechnet werden.

IP-Adresse

Die Vernetzung von Computern wird in einem Internetprotokoll (IP) festgehalten, woraufhin jedes angebundene Gerät in diesem Computernetz eine IP-Adresse erhält. So werden die Geräte adressierbar und erreichbar gemacht. Die IP gehört zu den personenbezogenen Daten, da über sie auf Ihre Identität geschlossen werden kann.

JSON

JSON ist die englische Abkürzung für JavaScript Object Notation. Dabei handelt es sich um ein kompaktes Textformat, das insbesondere zum Datenaustausch entworfen wurde. Es ist für Menschen einfach zu lesen und zu schreiben und für Maschinen einfach zu analysieren und zu generieren. JSON ist ein Format, das unabhängig von Programmiersprachen ist.

Keying

In den Bibliotheks- und Textwissenschaften beschreibt Keying das manuelle Erfassen, also das Abtippen, eines Textes im Zuge seiner Digitalisierung (siehe auch Double-Keying).

Kollokation

Als Kollokation bezeichnet man das häufige, gemeinsame Auftreten von Wörtern oder Wortpaaren in einem vordefinierten Textabschnitt.

Kommentar

Textkommentare dienen meist der Erläuterung oder Interpretation literarischer Texte. Sie können entweder selbst Textform annehmen oder den Charakter von Anmerkungen haben. Treten sie in Form von Marginalien oder Glossen „in den Texten” geschrieben auf, lassen sich auch Kommentare als Annotationen bezeichnen.

Korpus

Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural für „das Korpus”) sind typischerweise nach Textsorte, Epoche, Sprache oder Autor*in zusammengestellt.

KWIC

KWIC steht für Keyword in Context. Dabei handelt es sich um eine Darstellungsform, bei welcher die Treffer eines bestimmten Suchbegriffs in ihrem Kontext zeilenweise aufgelistet werden. Die Größe der Kontexte, also die Anzahl der angezeigten Umgebungswörter, kann meist individuell festgelegt werden.

LDA

LDA steht für Latent Dirichlet Allocation und ist ein generatives, statistisches Wahrscheinlichkeitsmodell, welches zum Topic Modeling angewendet werden kann. Bei der LDA werden auf Grundlage eines Wahrscheinlichkeitsmodells Wortgruppen aus Textdokumenten erstellt. Dabei wird jedes Dokument als eine Mischung von verborgenen Themen betrachtet und jedes Wort einem Thema zugeordnet. Wortreihenfolgen und Satzzusammenhänge spielen dabei keine Rolle.

Lemmatisieren

Die Lemmatisierung von Textdaten gehört zu den wichtigen Preprocessing-Schritten in der Textverarbeitung. Dabei werden alle Wörter (Token) eines Textes auf ihre Grundform zurückgeführt. So werden beispielsweise Flexionsformen wie „schneller” und „schnelle” dem Lemma „schnell” zugeordnet.

Machine Learning

Machine Learning, bzw. maschinelles Lernen im Deutschen, ist ein Teilbereich der künstlichen Intelligenz. Auf Grundlage möglichst vieler (Text-)Daten erkennt und erlernt ein Computer die häufig sehr komplexen Muster und Gesetzmäßigkeiten bestimmter Phänomene. Daraufhin können die aus den Daten gewonnen Erkenntnisse verallgemeinert werden und für neue Problemlösungen oder für die Analyse von bisher unbekannten Daten verwendet werden.

Markup (Textauszeichnung)

Die Textauszeichnung fällt in den Bereich der Daten- bzw. Textverarbeitung, genauer in das Gebiet der Textformatierung, welche durch Auszeichnungssprachen wie XML implementiert wird. Dabei geht es um die Beschreibung, wie einzelne Elemente eines Textes beispielsweise auf Webseiten grafisch dargestellt werden sollen.

Markup Language

Markup Language bezeichnet eine maschinenlesbare Auszeichnungssprache, wie z.B. HTML, zur Formatierung und Gliederung von Texten und anderen Daten. So werden beispielsweise auch Annotationen durch ihre Digitalisierung oder ihre digitale Erstellung zu Markup, indem sie den Inhalt eines Dokumentes strukturieren.

Metadaten

Metadaten oder Metainformationen sind strukturierte Daten, die andere Daten beschreiben. Dabei kann zwischen administrativen (z. B. Zugriffsrechte, Lizenzierung), deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze oder Kapitel eines Textes) und technischen (z. B. digitale Auflösung, Material) Metadaten unterschieden werden. Auch Annotationen bzw. Markup sind Metadaten, da sie Daten/Informationen sind, die den eigentlichen Textdaten hinzugefügt werden und Informationen über die Merkmale der beschriebenen Daten liefern.

N-Gramm

Unter N-Gramm versteht man in der Linguistik eine Sequenz von N aufeinanderfolgenden Fragmenten/ Einheiten in einem Text. So gibt es beispielsweise Bigramme, Trigramme etc. Diese Fragmente können Buchstaben oder Phoneme sein. Der Satz „Marie erforscht Literatur digital” kann zum Beispiel folgendermaßen in Bigramme, drei wortbasierte N-gramme mit je zwei Wörtern, aufgeteilt werden: „Marie erforscht”, „erforscht Literatur” und „Literatur digital”.

Named Entities

Eine Named Entity (NE) ist eine Entität, oft ein Eigenname, die meist in Form einer Nominalphrase zu identifizieren ist. Named Entities können beispielsweise Personen wie „Nils Holgerson”, Organisationen wie „WHO” oder Orte wie „New York” sein. Named Entities können durch das Verfahren der Named Entity Recognition (NER) automatisiert ermittelt werden.

NLP

Natural Language Processing (NLP), maschinelle Sprachverarbeitung zu Deutsch, ist ein Teilgebiet der Linguistik, der Informatik und der künstlichen Intelligenz, welches sich damit beschäftigt, wie Computer so programmiert werden, dass sie große Mengen an natürlichsprachlichen Daten verarbeiten und analysieren können.

OCR

OCR steht für Optical Character Recognition und bezeichnet die automatische Texterkennung von gedruckten Texten, d. h. ein Computer „liest” ein eingescanntes Dokument, erkennt und erfasst den Text darin und generiert daraufhin eine elektronische Version.

OPAC

OPAC steht für Online Public Access Catalogue und bezeichnet online zugängliche Bibliothekskataloge.

Open Access

Open Access bezeichnet den freien Zugang zu wissenschaftlicher Literatur und anderen Materialien im Internet.

Opinion Mining

Unter Opinion Mining, oder Sentiment Analysis, versteht man die Analyse von Stimmungen oder Haltungen gegenüber einem Thema, durch die Analyse natürlicher Sprache. Das Opinion Mining gehört zu den Verfahren des Text Minings.

Parameter

Im Kontext von Machine-Learning-Modellen handelt es sich bei (Modell-)Parametern um modellinterne Konfigurationsvariablen, die anhand des Trainingssatzes bestimmt werden (zu modellexternen Parametern siehe Hyperparameter). Als Parameter werden einerseits Aspekte benannt, die den Lernprozess bestimmen und andererseits solche, die dabei erlernt werden. Die Werte der Parameter ergeben sich aus dem Datensatz selbst. Werte solcher Parameter können beispielsweise die Gewichtungen in neuronalen Netzwerken sein, also welche Aspekte im Trainingsprozess besonders einflussreich sind (z.B. können Wörter im direkten Umfeld eines Zielwortes als wichtiger bewertet werden also solche, die weit von diesem entfernt stehen) oder etwa wie die Gewichtung (also die Reihenfolge) der einzelnen Wörter innerhalb der Topics beim Topic Modeling (siehe Methodenbeitrag → Topic Modeling).

PCA

PCA steht für Principal Component Analysis. Die Hauptkomponentenanalyse ist ein komplexes, statistisches Verfahren zur Reduktion und Veranschaulichung umfangreicher Datensätze.

PDF

PDF steht für Portable Document Format. Es handelt sich um ein plattformunabhängiges Dateiformat, dessen Inhalt auf jedem Gerät und in jedem Programm originalgetreu wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans von Texten) oder computerlesbarer Text sein. Ein lesbares PDF ist entweder ein OCRter Scan oder ein am Computer erstellter Text.

POS

PoS steht für Part of Speech, oder „Wortart” auf Deutsch. Das PoS-Tagging beschreibt die (automatische) Erfassung und Kennzeichnung von Wortarten in einem Text und ist of ein wichtiger Preprocessing-Schritt, beispielsweise für die Analyse von Named Entities.

Preprocessing

Für viele digitale Methoden müssen die zu analysierenden Texte vorab „bereinigt” oder „vorbereitet” werden. Für statistische Zwecke werden Texte bspw. häufig in gleich große Segmente unterteilt (chunking), Großbuchstaben werden in Kleinbuchstaben verwandelt oder Wörter werden lemmatisiert.

Property

Property steht für „Eigenschaft”, „Komponente” oder „Attribut”. In der automatischen Annotation dienen konkrete Worteigenschaften wie Groß- und Kleinschreibung zur Klassifizierung von Wörtern oder Phrasen. Durch die Berücksichtigung solcher Eigenschaften in den Features eines Tools kann maschinelles Lernen bestimmter Phänomene umgesetzt werden. In der manuellen Annotation können als Properties auch Eigenschaften von Annotationen benannt werden.

Query

Query bedeutet „Abfrage” oder „Frage” und bezeichnet eine computergestützte Abfrage zur Analyse eines Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen eingesetzt, die Queries (Anfragen) an den Datenbestand senden. So bilden alle möglichen Queries zusammen die Query Language eines Tools.

Reguläre Ausdrücke

Reguläre Ausdrücke, auch Regular Expressions oder RegEx genannt, sind standardisierte Zeichenketten zur Beschreibung von Mengen von Zeichenketten mit Hilfe bestimmter syntaktischer Regeln, die in Abfrage- und Programmiersprachen (z.B. in Wort, → CATMA, Python, R usw.) für unterschiedliche Problemlösungen verwendet werden. Sie können beispielsweise als Filterkriterien in der Textsuche oder in Texteditoren (z.B. in Word oder OpenOffice) zum „Suchen und Ersetzen” von bestimmten Begriffen genutzt werden.

Reintext-Version

Die Reintext-Version ist die Version eines digitalen Textes oder einer Tabelle, in der keinerlei Formatierungen (Kursivierung, Metadatenauszeichnung etc.) enthalten sind. Reintext-Formate sind beispielsweise TXT, RTF und CSV.

SBW

SBW steht für Sentiment Bearing Word (Sentimentwort) und bezeichnet ein Lexem, das eine Stimmung, eine Bewertung, ein Gefühl, eine Einstellung oder auch eine Emotion zum Ausdruck bringt. Für SBWs werden „semantische Orientierung” und „Stärke” in Form des Sentimentwerts festgelegt. SBWs werden in Sentimentlexika gesammelt und als Grundlage für lexikonbasierte → Sentimentanalysen verwendet.

Scalable Reading

Die Kombination aus Distant Reading- und Close Reading-Methoden, angewandt auf einen Untersuchungsgegenstand, wird als Scalable Reading bezeichnet.

Sentimentwert

Der Sentimentwert oder Sentimentgehalt eines Wortes beschreibt, meistens auf einer Skala von –1 (maximal negativ; bspw. „schädlich”: –0,9269) bis +1 (maximal positiv, bspw. „Freude”: 0,6502) die Polarität von Sentimentwörtern (siehe auch SBWs). Der Wert wird bei der Generierung von Sentimentlexika für jedes enthaltene Wort errechnet.

Sentimentwörterbuch

Ein Wörterbuch, das ausschließlich Lexeme enthält, die Träger von Sentiments sind, wird als Sentimentwörterbuch definiert. Sentimentlexika fungieren als wichtige Ressource für lexikonbasierte → Sentimentanalysen, bei denen die Wörter des Wörterbuchs und die Wörter eines Primärtextes miteinander abgeglichen werden.

Server

Ein Server kann sowohl hard- als auch softwarebasiert sein. Ein hardwarebasierter Server ist ein Computer, der in ein Rechnernetz eingebunden ist und der so Ressourcen über ein Netzwerk zur Verfügung stellt. Ein softwarebasierter Server hingegen ist ein Programm, das einen spezifischen Service bietet, welcher von anderen Programmen (Clients) lokal oder über ein Netzwerk in Anspruch genommen wird.

Small Multiples

Small Multiples kann wörtlich als „kleines Vielfaches” übersetzt werden und beschreibt eine Reihe gleicher Visualisierungen mit dem selben Maßstab, die gemeinsam präsentiert werden. So können bestimmte Phänomene wie z.B. die Verteilung von Figurennennungen im Textverlauf in mehreren Texten visualisiert und auf Grundlage dessen dann vergleichend analysiert werden.

Stoppwortliste

Stoppwörter sind hochfrequente Wörter, meist Funktionswörter, die, aufgrund ihrer grammatisch bedingten Häufigkeit, beispielsweise die Ergebnisse von inhaltlichen oder thematischen Analysen verzerren können (siehe Topic Modeling). Deshalb werden diese Wörter, gesammelt in einer Stoppwortliste, bei digitalen Textanalysen meist nicht berücksichtigt.

SVG

SVG steht für Scalable Vector Graphics und ist ein freies, standardisiertes Dateiformat, das Bilddateien bezeichnet, die als 2D-Vektorgrafiken größenunabhängig reproduziert werden können. Bei SVG-Dateien wird im Gegensatz zu anderen Bildgrafiken somit die Auflösung der Abbildung beim Vergrößern nicht schlechter. Es basiert auf den Strukturen von XML und wird dazu verwendet, Bilddaten zu repräsentieren.

Tagset

Ein Tagset definiert die Taxonomie, anhand derer Annotationen in einem Projekt erstellt werden. Ein Tagset beinhaltet immer mehrere Tags und ggf. auch Subtags. Ähnlich der Type/Token-Differenz in der Linguistik sind Tags deskriptive Kategorien, wohingegen Annotationen die einzelnen Vorkommnisse dieser Kategorien im Text sind.

TEI

Die Text Encoding Initiative (TEI) ist ein Konsortium, das gemeinsam einen Standard für die Darstellung von Texten in digitaler Form entwickelt. Die TEI bietet beispielsweise Standards zur Kodierung von gedruckten Werken und zur Auszeichnung von sprachlichen Informationen in maschinenlesbaren Texten (siehe auch XML und Markup).

Text Mining

Das Text Mining ist eine textbasierte Form des Data Minings. Prozesse & Methoden, computergestützt und automatisch Informationen bzw. Wissen aus unstrukturierten Textdaten zu extrahieren, werden als Text Mining zusammengefasst.

Topic Modeling

Das Topic Modeling ist ein statistisches, auf Wahrscheinlichkeitsrechnung basierendes, Verfahren zur thematischen Exploration größerer Textsammlungen. Das Verfahren erzeugt „Topics“ zur Abbildung häufig gemeinsam vorkommender Wörter in einem Text. Für die Durchführung können verschiedene Algorithmen und Modelle wie das LDA verwendet werden (siehe auch → Topic Modeling).

TSV

TSV ist die englische Abkürzung für Tab Separated Values. Es handelt sich um ein Dateiformat zur einheitlichen Darstellung und Speicherung von einfach strukturierten Daten mit dem Kürzel .tsv, sodass diese problemlos zwischen IT-Systemen ausgetauscht werden können. Dabei sind alle Daten zeilenweise angeordnet. Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt, welche durch den Tabulatoren als Trennzeichen geordnet werden. In Programmen wie Excel können solche Dateien als Tabelle angezeigt werden.

Type/Token

Das Begriffspaar „Type/Token” wird grundsätzlich zur Unterscheidung von einzelnen Vorkommnissen (Token) und Typen (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token ist also ein konkretes Exemplar eines bestimmten Typs, während ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token) umfasst. Es gibt allerdings etwas divergierende Definitionen zur Type-Token-Unterscheidung. Eine präzise Definition ist daher immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.” beinhaltet beispielsweise fünf Worttoken („Ein”, „Bär”, „ist”, „ein”, „Bär”) und drei Types, nämlich: „ein”, „Bär”, „ist”. Allerdings könnten auch vier Types, „Ein”, „ein”, „Bär” und „ist”, als solche identifiziert werden, wenn Großbuchstaben beachtet werden.

Unicode/UTF-8

Unicode ist ein internationaler Standard, der für jedes Schriftzeichen oder Textelement einen digitalen Code festlegt. Dabei ist UTF-8 die am weitesten verbreitete Kodierung für Unicode-Zeichen. UTF-8 ist die international standardisierte Kodierungsform elektronischer Zeichen und kann von den meisten Digital-Humanities-Tools verarbeitet werden.

Upload-Wizard

Der Upload-Wizard ist ein Assistent zum Hochladen von Dateien in eine Webanwendung, der Nutzer*innen Schritt für Schritt durch den Prozess begleitet.

URI

Uniform Resource Identifier (URI) ist ein Identifikator zur eindeutigen Erkennung von Online-Ressourcen wie Webseiten. Im „Raum” des Internets können so alle Inhalte eindeutig identifiziert werden, unabhängig davon, ob es sich dabei beispielsweise um eine Seite mit Text oder Video handelt. Die am häufigsten verwendete Form eines URI ist die Webseitenadresse, die URL.

Web Mining

Unter Web Mining versteht man die Anwendung von Techniken des Data Mining zur Extraktion von Informationen aus dem World Wide Web. Das Web Mining ist ein Teilbereich des Data Minings und zählt zu einem der wichtigsten Anwendungsgebiete für das Text Mining.

Webanwendung

Eine webbasierte Anwendung ist ein Anwendungsprogramm, welches eine Webseite als Schnittstelle oder Front-End verwendet. Im Gegensatz zu klassischen Desktopanwendungen werden diese nicht lokal auf dem Rechner der Nutzer*innen installiert, sondern können von jedem Computer über einen Webbrowser „online” genutzt werden. Webanwendungen erfordern daher kein spezielles Betriebssystem.

Wiki

Ein Wiki ist eine Webseite mit einer Sammlung von Informationen zu ausgewählten Themen, die i. d. R. von mehreren Nutzer*innen zusammengestellt werden. Zu jedem Eintrag in einem Wiki gibt es eine Diskussionsseite, die auch frühere Versionen des Eintrags anzeigt.

Wildcard

Als Wildcard bezeichnet man in der Informatik Platzhalter für beliebige Zeichen oder Zeichenketten.

Wordcloud

Eine Wordcloud, oder auch Schlagwortwolke, ist eine Form der Informationsvisualisierung, beispielsweise von Worthäufigkeiten in einem Text oder einer Textsammlung. Dabei werden unterschiedlich gewichtete Wörter, wie die häufigsten Wörter, i.d.R. größer oder auf andere Weise hervorgehoben dargestellt. Die horizontale/vertikale Ausrichtung und die Farbe der dargestellten Wörter hat meistens allerdings keinen semantischen Mehrwert.

XML

XML steht für Extensible Markup Language und ist eine Form von Markup Language, die sowohl computer- als auch menschenlesbar und hochgradig anpassbar ist. Dabei werden Textdateien hierarchisch strukturiert dargestellt und Zusatzinformationen i. d. R. in einer anderen Farbe als der eigentliche (schwarz gedruckte) Text dargestellt. Eine standardisierte Form von XML ist das TEI-XML.

ZIP

ZIP steht für ein Dateiformat (zip = engl. Reißverschluss), in welchem mehrere Einzeldateien verlustfrei, komprimiert zusammengefasst werden. ZIP-Dateien werden beim Öffnen entweder automatisch entpackt oder lassen sich per Rechtsklick extrahieren.