kristallpirat
banner
kristallpirat.bsky.social
kristallpirat
@kristallpirat.bsky.social
Raumstationsavatar
Nischenprodukt
#SchrifttumsLinguistik

Datenförster
Regelschleifer
Dieser Satz ist schwer zu parsen. Nun hab ich eine Lösung, die auch hält, wenn es subtile Unterschiede gibt ("," statt "-" & verschiedene Sorten "). Koref zickt noch etwas.

Was mir aber auch wieder bewußt wird: ich brauche Normalisierung von Quellen.

#SchrifttumsLinguistik
October 23, 2025 at 7:42 AM
Da kann ich noch eine Visualisierung nachreichen:

#SchrifttumsLinguistik
October 15, 2025 at 11:55 PM
Und da sollte natürlich #SchrifttumsLinguistik dran stehen.
Ich habe endlich angefangen Koreferenz zu implementieren. Das letzte größere Problem vor der Abbildung der Rechtssprache in ein Graph Neural Network (GNN).
September 22, 2025 at 2:45 PM
Ich habe endlich angefangen Koreferenz zu implementieren. Das letzte größere Problem vor der Abbildung der Rechtssprache in ein Graph Neural Network (GNN).
September 22, 2025 at 1:41 PM
Reposted by kristallpirat
Today has been a vibe-coding intense day:

First, my The Lawfare Institute article on vibe coding was released, read here: www.lawfaremedia.org/article/when-the-vibe-are-off--the-security-risks-of-ai-generated-code

Second, I gave a quick talk on vibe coding at the Gikii conference in Amsterdam.
September 11, 2025 at 12:20 PM
Ich weiß, ich bin pedantisch, aber vom BVerfG sollte ich bessere Rechtschreibung erwarten können, find ich.

Konsistentes Klammern sieht anders aus. Ich sehe, ja ein, dass nicht (bb)) geschrieben wird, aber nach aa) fehlt klar ein ).

#SchrifttumsLinguistik
September 1, 2025 at 3:09 PM
Auf Zeitungstext trainierte ML-Modelle haben immer wieder Probleme mit juristischen Texten. Außerdem fehlt mir bei Universal Dependencies eine einfache Phrasenbildung (li).

In meinem regelbasierte Modell sind Phrasen von Anfang mitgedacht und vereinfachen einiges (re).

#SchrifttumsLinguistik
August 15, 2025 at 5:31 AM
"v. Münch/Kunig, Grundgesetz-Kommentar, 4./5. Aufl. 2003"

Na was denn nun? 4. oder 5. Auflage?

Also selbst wenn in dem Jahr verschiedene Bände in unterschiedlicher Aufl. erschienen sind, so sollte doch klar sein aus welchem Band zitiert wurde?

Bundesgerichte ...

#SchrifttumsLinguistik
July 30, 2025 at 4:52 AM
Warum ist da ein Komma nach der 355 ("BFHE 203, 355,")?

Klar ich kann d als zur Quelle gehörig markieren, damit d VP weiterläuft und das "ein" zum "fügt" erkannt wird, aber wenn da wirklich mal ein K. sein soll, dann würde d verschluckt. D macht es der Analyse nur schwerer.

#SchrifttumsLinguistik
July 10, 2025 at 2:47 PM
Einer der großen Vorteile von einem Tokenizer der Multiworttokens erlaubt: Man kann "nicht nur" einfach als einen KONN Token täggen. Und schwupps erkennt die Software auch die Adjektivprädikation (mit Kopulaverb).

(Die anderen Probleme des Satzes ignorieren wir mal noch).

#SchrifttumsLinguistik
July 7, 2025 at 8:49 PM
Sagte ich "ein" breitenloser Bindehemmer (dt. für ZWNJ)?

Ich finde insgesamt 22 (allein in den Gründen der Entscheidungen).

Irgendwo in einer weiteren Entscheidung versteckt sich auch mindestens ein '\u200b' (ein breitenloses Leerzeichen).

#SchrifttumsLinguistik
June 24, 2025 at 4:38 AM
#SchrifttumsLinguistik

Der Fehler ist richtig fies im Absatz 297 von rs20190730_2bvr168514.html versteckt sich ein "zero-width non-joiner (ZWNJ)" (unicode-explorer.com/c/200C)

Man kann ihn aber selbst im Source der Seite nicht wirklich sehen (vor dem 'M' von Müller).
June 18, 2025 at 11:46 PM
#SchrifttumsLinguistik

Die kleinen Fehler sind oft die ärgerlichsten:

Sannwald, in: Schmidt/Bleibtreu/Hofmann/Hopfauf, GG, 11. Aufl. 2008,

in fs20101012_2bvf000107.html Rn. 128 liebes BverfG

sollte Schmidt-Bleibtreu/Hofmann/Hopfauf sein.
June 18, 2025 at 4:07 AM
Verben sind Funktionen, hier also die neusten Zahlen dazu welche Funktionen am häufigsten im BVerfG-Korpus vorkommen.

Natürlich führen Hilfs- und Modalverben die Liste an (Modalverben sind Funktionen auf Funktionen).

#SchrifttumsLinguistik
May 28, 2025 at 10:35 PM
If you could see any movie for the first time again, which movie would you pick?

(I'd pick the english version).
May 26, 2025 at 12:55 PM
Ich habe mal wieder einen Tag an Versionsnummer verloren. So sehr ich Fortschritt schätze, er nervt.
May 21, 2025 at 11:46 PM
Das Erstellen einer Webseite zur #SchrifttumsLinguistik ist aufwändig und zieht sich. Hier mal wieder ein Teaser.

Vor der Webseite oder relativ zeitgleich werde ich auch das Tool für die Graphiken als open Source bereitstellen.
April 17, 2025 at 5:26 AM
Reposted by kristallpirat
I don't normally write advice columns but this question I got deserved its own post: With all the hype around Generative AI, how can you, as a developer, communicate the nuances and advocate for new and modular solutions that are better, easier and cheaper?

explosion.ai/blog/modular...
March 31, 2025 at 11:48 AM
Reposted by kristallpirat
#SchrifttumsLinguistik

Heute der Satz:

Eine Verletzung von Art. 14 I GG ist nicht feststellbar.

2 Modelle, verschiedene Darstellungen.

Wer als Jurist spaCy nutzt, sollte das Transformermodell nutzten wenn möglich.
January 26, 2025 at 3:25 PM
#SchrifttumsLinguistik

Heute der Satz:

Eine Verletzung von Art. 14 I GG ist nicht feststellbar.

2 Modelle, verschiedene Darstellungen.

Wer als Jurist spaCy nutzt, sollte das Transformermodell nutzten wenn möglich.
January 26, 2025 at 3:25 PM
#SchrifttumsLinguistik

Sprachmodelle sind ein wenig wie Juristen, fragt man verschiedene, bekommt grundsätzlich ähnliche, aber im Detail von einander abweichende Antworten.

1 und 2 ML-Modelle, 3 regelbasiertes Modell.
January 16, 2025 at 11:42 AM
#SchrifttumsLinguistik

Ein Satz aus BGH, Urteil vom 26.06.2003 - I ZR 176/01 mal etwas anders dargestellt. 🙃

Schön das der Transformer erkennt, dass "müssen" sich auf "treten" bezieht.
January 13, 2025 at 11:59 PM
#SchrifttumsLinguistik
#workInProgress

Das Tool für die Visualisierungen kommt voran.

Ist aber (noch) nicht meine Toolchain, sondern
@spacy_io (von bsky.app/profile/expl...) + brat.

Also openSource (wird das Tool auch).
December 29, 2024 at 9:57 PM
#SchrifttumsLinguistik

KI Werkzeuge sind schon auch zu was nutze.

Bisher die visuelle Darbietung bestimmter Zusammenhänge eher mau. Unter Anwendung eines KI Werkzeuges wurde diese Demo gebaut.

Die wird natürlich noch verbessert, aber man sieht wohin die Reise geht.
demo
kristall.crew.c-base.org
December 21, 2024 at 6:09 AM