kristallpirat
banner
kristallpirat.bsky.social
kristallpirat
@kristallpirat.bsky.social
Raumstationsavatar
Nischenprodukt
#SchrifttumsLinguistik

Datenförster
Regelschleifer
Dieser Satz ist schwer zu parsen. Nun hab ich eine Lösung, die auch hält, wenn es subtile Unterschiede gibt ("," statt "-" & verschiedene Sorten "). Koref zickt noch etwas.

Was mir aber auch wieder bewußt wird: ich brauche Normalisierung von Quellen.

#SchrifttumsLinguistik
October 23, 2025 at 7:42 AM
Weitere komplexe Aufzählungen, die tricky sind, allerdings hilft die Paragraphenkette bei dieser Lösung der einen.

Es fehlt noch die Koref zwischen "sie" und "Person", aber das ist in Arbeit.

#SchrifttumsLinguistik
October 16, 2025 at 7:41 AM
Da kann ich noch eine Visualisierung nachreichen:

#SchrifttumsLinguistik
October 15, 2025 at 11:55 PM
Jetzt dann auch hier mit Koreferenz:
September 22, 2025 at 9:34 PM
Ich habe endlich angefangen Koreferenz zu implementieren. Das letzte größere Problem vor der Abbildung der Rechtssprache in ein Graph Neural Network (GNN).
September 22, 2025 at 1:41 PM
So sieht das dann in der Analyse aus: Der Token mit der Num 18 macht eine Klammer auf, die nicht geschlossen wird.
September 1, 2025 at 8:06 PM
Ich weiß, ich bin pedantisch, aber vom BVerfG sollte ich bessere Rechtschreibung erwarten können, find ich.

Konsistentes Klammern sieht anders aus. Ich sehe, ja ein, dass nicht (bb)) geschrieben wird, aber nach aa) fehlt klar ein ).

#SchrifttumsLinguistik
September 1, 2025 at 3:09 PM
Auf Zeitungstext trainierte ML-Modelle haben immer wieder Probleme mit juristischen Texten. Außerdem fehlt mir bei Universal Dependencies eine einfache Phrasenbildung (li).

In meinem regelbasierte Modell sind Phrasen von Anfang mitgedacht und vereinfachen einiges (re).

#SchrifttumsLinguistik
August 15, 2025 at 5:31 AM
Der Tokenizer frisst es halt noch nicht, 4. wird zu 2 Token und daher wird fälschlich ein Satzende erkannt.
July 30, 2025 at 5:03 AM
Warum ist da ein Komma nach der 355 ("BFHE 203, 355,")?

Klar ich kann d als zur Quelle gehörig markieren, damit d VP weiterläuft und das "ein" zum "fügt" erkannt wird, aber wenn da wirklich mal ein K. sein soll, dann würde d verschluckt. D macht es der Analyse nur schwerer.

#SchrifttumsLinguistik
July 10, 2025 at 2:47 PM
Einer der großen Vorteile von einem Tokenizer der Multiworttokens erlaubt: Man kann "nicht nur" einfach als einen KONN Token täggen. Und schwupps erkennt die Software auch die Adjektivprädikation (mit Kopulaverb).

(Die anderen Probleme des Satzes ignorieren wir mal noch).

#SchrifttumsLinguistik
July 7, 2025 at 8:49 PM
Sagte ich "ein" breitenloser Bindehemmer (dt. für ZWNJ)?

Ich finde insgesamt 22 (allein in den Gründen der Entscheidungen).

Irgendwo in einer weiteren Entscheidung versteckt sich auch mindestens ein '\u200b' (ein breitenloses Leerzeichen).

#SchrifttumsLinguistik
June 24, 2025 at 4:38 AM
#SchrifttumsLinguistik

Der Fehler ist richtig fies im Absatz 297 von rs20190730_2bvr168514.html versteckt sich ein "zero-width non-joiner (ZWNJ)" (unicode-explorer.com/c/200C)

Man kann ihn aber selbst im Source der Seite nicht wirklich sehen (vor dem 'M' von Müller).
June 18, 2025 at 11:46 PM
Verben sind Funktionen, hier also die neusten Zahlen dazu welche Funktionen am häufigsten im BVerfG-Korpus vorkommen.

Natürlich führen Hilfs- und Modalverben die Liste an (Modalverben sind Funktionen auf Funktionen).

#SchrifttumsLinguistik
May 28, 2025 at 10:35 PM
If you could see any movie for the first time again, which movie would you pick?

(I'd pick the english version).
May 26, 2025 at 12:55 PM
Das Erstellen einer Webseite zur #SchrifttumsLinguistik ist aufwändig und zieht sich. Hier mal wieder ein Teaser.

Vor der Webseite oder relativ zeitgleich werde ich auch das Tool für die Graphiken als open Source bereitstellen.
April 17, 2025 at 5:26 AM
In meinem Kopf sieht das ungefähr so aus:
March 24, 2025 at 12:01 AM
t-t-timmy?
March 7, 2025 at 12:02 PM
#SchrifttumsLinguistik

Heute der Satz:

Eine Verletzung von Art. 14 I GG ist nicht feststellbar.

2 Modelle, verschiedene Darstellungen.

Wer als Jurist spaCy nutzt, sollte das Transformermodell nutzten wenn möglich.
January 26, 2025 at 3:25 PM
#SchrifttumsLinguistik

Sprachmodelle sind ein wenig wie Juristen, fragt man verschiedene, bekommt grundsätzlich ähnliche, aber im Detail von einander abweichende Antworten.

1 und 2 ML-Modelle, 3 regelbasiertes Modell.
January 16, 2025 at 11:42 AM
#SchrifttumsLinguistik

Ein Satz aus BGH, Urteil vom 26.06.2003 - I ZR 176/01 mal etwas anders dargestellt. 🙃

Schön das der Transformer erkennt, dass "müssen" sich auf "treten" bezieht.
January 13, 2025 at 11:59 PM
#SchrifttumsLinguistik
#workInProgress

Das Tool für die Visualisierungen kommt voran.

Ist aber (noch) nicht meine Toolchain, sondern
@spacy_io (von bsky.app/profile/expl...) + brat.

Also openSource (wird das Tool auch).
December 29, 2024 at 9:57 PM
"Eine hieraus resultierende mögliche Gefährdung für das Wohl der dort behandelten Patienten ist nicht erkennbar." hat es in die Subtests geschafft. Ist auch ein 'schöner' Test, denn das "für" kann grundsätzlich sowohl an die "Gefährdung" als auch ans "erkennbar" binden.

#SchrifttumsLinguistik
November 25, 2024 at 7:03 AM
chatGPT und der zwingende logische Schluss: Wenn eine Versuchsstrafbarkeit explizit im StGB angeordnet wird, muss es sich um ein Vergehen handeln (mehrfach im Kontext durchgekaut). Kriegt die Maschine aber nicht fehlerfrei hin.

Fazit: Unnützes Spielzeug!
September 5, 2024 at 3:22 AM
Straße zur Sonne
February 3, 2024 at 4:44 PM