Johann-Mattis List
banner
lingulist.hcommons.social.ap.brid.gy
Johann-Mattis List
@lingulist.hcommons.social.ap.brid.gy
I lead the chair of Multilingual Computational Linguistics at the University of Passau. In my research, I try to find computational solutions for various […]

[bridged from https://hcommons.social/@lingulist on the fediverse by https://fed.brid.gy/ ]
First contribution in this year to our blog / journal on Computer-Assisted Language Comparison in Practice.

"Transparent Application of Text Generation Tools in Scientific Research"

https://calc.hypotheses.org/9138
Transparent Application of Text Generation Tools in Scientific Research
In this opinion piece, I share my view on the application of language models and text generation services in scientific research. In my opinion, scientific research that lives up to the promises of open science must provide full documentation of all prompts and exchanges that were used to create a given study. A mere mention that AI tools have been used in study design, writing, or coding is not enough. ## 1 Introduction There is a divide in scholars between those who embrace language models and specifically chatbots in their own research, arguing that they help them in wording their texts and the like, and those who are strictly against their use in scientific work. I would count myself to the latter camp, as I also do not use language models to write any of my texts, and I switch off all AI features in search engines, where I can. But independently of my own opinion on this matter, I was asking myself if there was any form of a transparent way to use language models. In the end of last year, I have argued that I see _no_ way to justify the use of chatbots and language models as long as they are not constructed by open principles (see Liesenfeld, Lopez, and Dingemanse 2023) and as long as they do not allow for the direct retrieval of existing sources that serve as anchor points to ground their contents (List 2025). Given the practice that I observe from many colleagues, not many scientists share my opinion. Similar to the increased use of generated texts in editing Wikipedia articles (Brooks, Eggert, and Peskoff 2024), I observe more and more collagues reporting of intensive chat discussions that they have with ChatGPT or other chatbots, or using chatbots to code or create figures for their studies. Since I have always been enjoying to produce my scientific work without the help of others, I never felt the need to turn to chatbots to ask for help, neither with wordings in a text, nor with code or figures. Given that I also may spent hours in the internet in the search for particular kinds of information that a seemingly all-knowing person might answer within seconds, I can, however, see why people feel the desire to speed up certain aspects of their individual investigation workflows, even if I do not see a concrete use to turn to chatbots in my own work so far. When recently even the German Research Foundation officially confirmed that its main committee had approved the use of chatbots, provided certain major rules are followed (DFG 2025), I thought it might be time to review these rules more closely, contrasting them with my own requirements with respect to transparency and openness in scientific research. ## 2 Lax Guidelines on Generated Text Use The German Research Foundation emphasizes that the use of text generation machines in review writing must be in concordance with four major principles, _confidentiality_ , _transparency_ , _critical quality assessment_ , and _responsibility_. Confidentiality refers to the content of the proposals that reviewers are asked to review. Here, the rules do not allow to share these proposals with chatbot services that store the information permanently, ruling out naive usage of chatbots like Grok or ChatGPT via their web interfaces. Transparency refers to the obligation to disclose chatbot usage by scientists acting as reviewers. Critical quality assessment means that reviewers are required to thoroughly check all generated contents in their reviews. Responsibility emphasizes that the reviewers remain responsible for their reviews and that they cannot blame the bots they used to write their assessments. As far as I understand these guidelines, it is clear that they basically rule out the most popular text generation services offered by big tech companies such as Google or OpenAI, since they store the questions that users have been asked and use them also as feedback in the further development of their services. Given the push of companies like Microsoft to include chatbots in all their services, one may also ask oneself to which degree the creation of word documents with the help of Microsoft’s Office program can be done in a way conform with the confidentiality requirement of the German Research Foundation. In any case, the guidelines – if honestly followed by scientists – drastically restrict the application of chatbots in review generation, probably close enough to make their application impossible for those who follow the rules. If scientists follow those rules is a different question, of course, but that people stick to good scientific practice is anyway largely outside of the control of research agencies. ## 3 Conflicts with Good Scientific Practice and Open Science Despite the fact that the guidelines are – in principle – much stricter than their wording might suggest, they bear two major shortcomings that may have an unwanted effect on good scientific practice. On one hand, the apparently lax wording of the guidelines invites misunderstandings and abuse. On the other hand, the guidelines fall short of providing concrete and transparent proposals for the use of language generation services that would _not_ contradict or undermine good scientific practice. That the guidelines are ill-worded, forcing many people to believe that the DFG now allows its reviewers to delegate reviews to ChatGPT or other irresponsible language generation services, can be easily seen from the huge negative reaction that the publication of the guidelines received among scientists (see Bahr 2026, as a representative example). It seems obvious that clear examples for use cases that contradict or are in line with the guidelines are missing. For me, however, it is even more annoying that no attempts are undertaken to clarify how text generation machines could be employed in a transparent way that would not contradict the current notion of _good scientific practice_ as they are published by the German Research Foundation itself (DFG Team Wissenschaftliche Integrität 2024). From the perspective of _open science_ principles, it seems clear to me that good scientific practice in the use of text generation machines requires very clear guidelines with very high bars regarding transparent documentation. More concretely, in my opinion, the only transparent way of using text generation machines that are trained on public data would consist in submitting all _prompts_ along with the texts produced by scientists. This would mean that scientists who have used chatbots excessively to create research papers would have to disclose in a transparent and clear manner, what labor has been delegated to text generation services, and how the output was later included in the results. I do not have fixed ideas of how I would expect prompts to be shared right now. With students, I typically ask for screenshots of the prompt discussions, but an even better format might consist in screenshots along with versions in plain text, where question and answer are being transparently shared. ## 4 Transparent Use of Generated Texts While I have not been able to come up with a perfect solution in this regard, it seems very clear to me that it is _not_ enough, if scientists add a statement in a footnote that says that they used ChatGPT to clean up their references or fixed some wordings. There are two main reasons why I think that it is important to share the actual prompts in order to make text generation usage transparent. On one hand, text generation is more _intrusive_ than information retrieval via classical search engines. Since the sources of generated texts are typically entirely unclear, more rigor is required to allow scholars to understand what parts were written by the authors of a study and what parts were generated. On the other hand, transparency in science has an _educational aspect_. Scientists learn from their colleagues how to carry out their own research. Transparency on prompts here helps scholars to learn from the prompts of their colleagues and from the tools they use to support them in writing, to enhance their own work. As researchers who subscribe to publicly funded _open science_ , we are cooks who prepare their meals in the open, sharing all ingredients and recipes to make sure that all people out there in the world who want to prepare their own meals can prepare them at home without having to buy them in our store. Since we are publicly funded and large parts of the world still seem to believe that scientific progress is an enterprise that should be pursued in a collaborative, open competition for the best ideas, we should not be selective about the ingredients we use to create our dishes. In hiding parts of our ingredients, we contribute to the growing mistrust in science that can be observed more and more frequently these days. If the promise in the openness of science that many scientists subscribe to is taken seriously, everybody who uses chatbots to write their texts should live up to it. How chat conversations should be stored concretely, however, is a question I cannot answer at this point. For the time being, I think any way would be okay, be it screenshots or questions and answers pasted in text files. Since generated texts constitute a completely new problem of transparency that has no precedence that I would know of in the past, it seems that practitioners of science must come up with their own solutions in the future. With more people seeking transparency in the use of text generation services, I would hope that new conventions can emerge quickly over the next years, leading to new conventions and standards that complete basic rules of citation, data sharing, and replicable code in the future. ## 5 Conclusion It is absolutely clear to me that my perspective on the usage of text generation tools in scientific research may be different from that of many colleagues. As somebody who can be seen as the opposite of an _early adopter_ with respect to text generation services, my opinion may seem much stricter than it should be to those who enjoy their daily chats with chatbots. However, as somebody who has been fighting hard for _transparency_ in science, at least as far as my own discipline is involved, I see no other way than making strict demands. If we want preserve the major rules of good research practice that the scientific community has been trying hard to establish in the past decades, we have to share the sources of our insights in a transparent manner. These sources include the prompts that we used to trigger text generation by large language models. ## References Bahr, Amrei. 2026. “Begutachtung mittels KI: Zur fragwürdigen Entscheidung der DFG.” _Arbeit in Der Wissenschaft_ , January. https://steady.page/de/arbeit-in-der-wissenschaft/posts/9ce6550f-973e-4d16-9d09-c5556fa10373. Brooks, Creston, Samuel Eggert, and Denis Peskoff. 2024. “The rise of AI-generated content in Wikipedia.” In _Proceedings of the First Workshop on Advancing Natural Language Processing for Wikipedia_ , edited by Lucie Lucie-Aimée, Angela Fan, Tajuddeen Gwadabe, Isaac Johnson, Fabio Petroni, and Daniel van Strien, 67–79. Miami, Florida, USA: Association for Computational Linguistics. https://doi.org/10.18653/v1/2024.wikinlp-1.12. DFG, Deutsche Forschungsgemeinschaft. 2025. “Künstliche Intelligenz in Der Begutachtung.” _Informationen Für Die Wissenschaft_ 2025 (102). https://www.dfg.de/de/aktuelles/neuigkeiten-themen/info-wissenschaft/2025/ifw-25-102. DFG Team Wissenschaftliche Integrität. 2024. “Leitlinien zur guten wissenschaftlichen Praxis [Report, Version 2].” Leitlinien. Bonn: Deutsche Forschungsgemeinschaft. https://doi.org/https://doi.org/10.5281/zenodo.14281892. Liesenfeld, Andreas, Alianda Lopez, and Mark Dingemanse. 2023. “Opening up ChatGPT: Tracking openness, transparency, and accountability in instruction-tuned text generators.” In _Proceedings of the 5th International Conference on Conversational User Interfaces_ , 1–6. CUI ’23. Eindhoven: Association for Computing Machinery. https://doi.org/10.1145/3571884.3604316. List, Johann-Mattis. 2025. “Kann man verantwortungsvolle Wissenschaft mit KI betreiben?” _Von Wörtern Und Bäumen_ 9 (12). https://doi.org/https://doi.org/10.58079/15cdq. * * * The text only may be used may be used under licence Creative Commons Attribution 4.0 International. All other elements (illustrations, imported files) are “All rights reserved”, unless otherwise stated. * * * OpenEdition suggests that you cite this post as follows: Johann-Mattis List (January 26, 2026). Transparent Application of Text Generation Tools in Scientific Research. _Computer-Assisted Language Comparison in Practice_. Retrieved January 26, 2026 from https://calc.hypotheses.org/9138 * * * * * * * *
calc.hypotheses.org
January 26, 2026 at 8:39 AM
Mein Blogbeitrag im Januar via @dehypotheses beschäftigt sich mit dem Begriff der "Halluzinationen" von Sprachmodellen, einen Ausdruck, den ich kritisch sehe.

https://wub.hypotheses.org/3313
Vom Fabulieren und Halluzinieren
In der letzten Zeit wird sehr oft vom _Halluzinieren_ gesprochen. Allerdings nicht in Bezug auf Menschen, die ja auch selten von Halluzinationen heimgesucht werden, als vielmehr in Bezug auf Sprachmodelle, die komische Antworten liefern, die keinen Sinn ergeben oder sich angebliche Fakten zusammenfabulieren, für die es keine Belege gibt. Dass es problematisch ist, dieses nicht gewünschte Verhalten von Sprachmodellen als “Halluzination” zu bezeichnen, wird in einigen Arbeiten betont. So weisen Bender und Hanna (2025) darauf hin, dass der Begriff “Halluzination” den Sprachmodellen menschliche Charakteristika unterstelle, die diese jedoch nicht aufweisen. Da Sprachmodelle aber keine Wahrnehmung haben, können sie auch nicht halluzinieren. > It matters what words we use when we talk about these technologies. For instance, in our writing, we don’t use the term “hallucination” to discuss the errors of LLMs, for two reasons. First, if it’s used tongue-in-cheek, it is making light of what can be symptoms of serious mental illness. Second, “hallucination” refers to the experience of perceiving things that aren’t there. But LLMs actually don’t have perceptions, and suggesting that they do is yet more unhelpful anthropomorphization. That means we also avoid assigning thought processes to these systems, or saying that they can “think”. (Bender und Hanna 2025: 167) Zweig (2025) argumentiert, dass der Begriff “Halluzination” nicht präzise genug ist, da Menschen, die halluzinieren, nicht zwangsläufig komische Sätze äußern, sondern Dinge wahrnehmen, die nicht der Realität entsprechen. Daher schlägt Zweig, basierend auf einem Vorschlag von McGowan et al. (2023) vor, stattdessen von _Konfabulation_ zu sprechen. > Tatsächlich hat es sich eingebürgert, bei solchen Fehlern von Sprachmodellen von Halluzinationen zu sprechen, obwohl es sich dabei um einen ungeeigneten Begriff handelt. Die Psychologin Alessia McGowan und ihre Co-Autoren weisen darauf hin, dass es bei Halluzinationen um eine Wahrnehmungsstörung geht: Halluzinationen sind als real wahrgenommene Sinneseindrücke, für die es keinen erkennbaren äußeren Reiz gibt. Die Psychologen schlagen daher den Begriff der _Konfabulation_ vor, dem Erfinden von Inhalten, die ein Patient in diesem Moment für wahr hält. (Zweig 2025: § 2) Während ich prinzipiell beiden Argumenten zustimme, scheint mir, dass beide das Problem des Konzepts der Halluzination nicht korrekt erfassen. Denn egal ob man nun von _Halluzionationen_ , _Irrtümern_ (Bender und Hanna 2025) oder _Konfabulationen_ (Zweig 2025 und McGowan et al. 2023) spricht, in allen Fällen ignoriert man das ursprüngliche Problem, welches darin besteht, dass Sprachmodelle fälschlicherweise als eine Art von “Wahrheitsmaschinen” im Sinne von Simanowski (2025) angesehen werden, die sie aber streng genommen gar nicht sein können. > Die Sprachmaschine lässt sich als “Wahrheitsmaschine” freilich nur unter verschiedenen Voraussetzungen denken, die alle nicht erfüllt sind. Denn es ist eben nur idealtypisch so, dass diese Maschine alle Daten der Welt mathematisch miteinander ins Verhältnis setzt. In der Praxis sind es bloß bestimmte Daten mit unklaren Gewichtungen. (Simanowski 2025: 92) Trotz der riesigen Datenmenge, an denen große Sprachmodelle trainiert worden sind, beruhen sie auf einem begrenzten Datensatz, in dem, was “wahr” ist oder “wahr” sein kann, nur _mittelbar_ , durch die versprachlichten Ansichten von Menschen digital verfügbar gemacht worden ist. Menschen selbst können ja in Bezug auf das, was sie für wahr und das, was sie für falsch halten, maximal unterschiedlicher Meinung sein. Auch die Wissenschaft selbst verwehrt sich ja zumindest in ihren theoretischen Grundlagen dagegen, einen Anspruch auf absolute Wahrheit oder zweifelsfreie Fakten zu erheben (Popper 1935). Es sollte daher klar sein, dass auch Chatbots – die ja nicht mehr erreichen, als menschliches Sprechverhalten geschickt zu simulieren – in Bezug auf die Inhalte, die sie produzieren, mit ziemlich schmutzigem Wasser kochen. Genauso, wie man sich die Textblasen, die einem die eigene Wohlfühlbubble in die Timeline spült, nicht ohne kritische Prüfung als vollwertige Inhalte mit plausiblen Fakten zu eigen machen sollte, sollte man auch nicht erwarten, dass ein Chatprogramm, nur weil es von einer angeblichen künstlichen Intelligenz angetrieben wird, stets unwiderlegbare Fakten produziert. Wenn wir die prinzipielle Subjektivität von Fakten, oder die prinzipielle Unmöglichkeit, das _Wahre_ vollkommen zuverlässig vom _Falschen_ zu unterscheiden, jedoch grundsätzlich anerkennen, dann hat das Konzept der Halluzination oder Konfabulation in Bezug auf die Bewertung von Chatprogrammen wenig praktischen Nutzen. Je nachdem, welche Perspektive man bei der Bewertung von generierten Texten einnimmt, könnte man nämlich entweder nahezu alles, was diese produzieren, als Halluzination bezeichnen, oder gar nichts. Man könnte das Konzept der Halluzination in Bezug auf Sprachmodelle natürlich weiter verengen, und betonen, dass es sich lediglich auf diejenigen Fälle beziehen sollte, in denen bestimmte Daten fabrizieren, wie Personen oder literarische Werke die es nachweislich nicht gibt. Dies steht jedoch nicht nur im Widerspruch zum allgemeinen Gebrauch des Wortes in vielen Sprachen, es steht auch im Widerspruch zur Technik, mit der Sprachsimulatoren betrieben werden. Denn diese Technik ist nicht auf Wahrheit und Unwahrheit oder belegbare und unbelegbare Daten ausgerichtet, sie zielt lediglich darauf ab, Sprache überzeugend zu simulieren. Aus dieser _ontologischen_ Perspektive, die sich an der Technik orientiert, mit der Chatbots betrieben werden, weist die Sprache, die diese produzieren, weder Halluzinationen, noch Konfabulationen, noch Fehler auf, da ihre Architektur Texte nicht mit der Intention produziert, dass deren Inhalte in irgendwelchen unabhängigen Daten verankert sein müssten. Sprachmodelle – zumindest diejenigen, die den populärsten Chatbots zugrunde liegen – simulieren einfach menschliche Sprache. Irgendeine Form der _Alinierung_ der generierten Sprache mit irgendwelchen wie auch immer definierten Fakten ist zumindest in der derzeit am weitesten verbreiteten Architektur nicht vorgesehen. Es scheint mir daher wenig sinnvoll, bei Sprachmodellen, die Text generieren, der mit Wahrheit oder mit Fakten, wie immer man diese definieren mag, erst mal gar nichts zu tun hat, plötzlich von “Halluzinationen” zu reden, oder diesen zu unterstellen, dass sie “konfabulieren”, wenn sie Text produzieren, der sich in den Trainingsdaten so nicht finden lässt. Immerhin ist das _Generieren_ von Text ja das Argument, das die Techkonzerne nutzen, um wahllos geistiges Eigentum von verschiedensten Urheberinnen und Urhebern stehlen zu können, ohne direkt dafür belangt zu werden. Es ist klar, dass die Konzerne, die sich an fremdem geistigen Eigentum mit ihren Chatbots bereichern wollen, ein Interesse daran haben, ihre “Sprachmaschinen” (wie Simanowski 2025 LLM-basierte Chatbots nennt) als nichtmenschliche Intelligenzen darzustellen, die ihr Wissen in digitalen Daten verankert haben. Dies ist jedoch tatsächlich nichts weiter als eine Marketinglüge. Chatprogramme fabulieren _immer_ , in vielen Fällen scheint das, was sie zusammenfabulieren, den menschlichen Kommunikationspartnern als Informationsquelle oder Quelle, die ihnen eigene Fabulierungsarbeit erspart, zu genügen. Wenn es aber einmal _nicht_ genügt, dann scheint es mir komplett falsch zu sein, von einer Halluzination oder einem Irren aufseiten der artifiziellen Antilligenz zu sprechen. Das Framing spielt eigentlich nur wieder der Marketinglüge von der rationalen, denkenden Maschine in die Hände. Ich lehne es also generell ab, bei LLM-basierten Chatprogrammen und anderen KI-Tools, wie Bildgeneratoren von Halluzinationen oder Irrtümern auf Seiten der Modelle zu sprechen. Halluzinieren zu können setzt voraus, die Welt ohne Halluzinationen wahrzunehmen. Sich in seinen Äußerungen irren zu können setzt voraus, dass man die Absicht hat, sich korrekt zu äußern. Beides trifft auf große Sprachmodelle in ihrer klassischen Architektur nicht zu. Das heißt jedoch nicht, dass ich die Möglichkeit prinzipiell ausschließe, dass man Chatbots erschaffen könnte, die halluzinieren, konfabulieren und sich irren können. Wenn es gelingen sollte, Computermodelle auf ähnliche Art in der Welt zu verankern, wie Menschen das mit ihren Sinnen tun, und wenn es gelingen sollte, Modelle zu schaffen, die tatsächliche kommunikative Absichten verfolgen, dann müsste man die Situation eventuell neu überdenken. In so einem Fall kann ich es mir aber schwer vorstellen, dass man bei Modellen, die Irrtümer begehen, überhaupt auf die Idee kommen würde, von Halluzinationen zu sprechen. Man würde vielleicht einfach sagen, dass sie nicht so gut funktionieren, wie erwartet. ## Literatur Bender, Emily M., and Alex Hanna. 2025. _The AI Con. How to Fight Big Tech’s Hype and Create the Future We Want_. New York: Harper-Collins. McGowan, Alessia, Yunlai Gui, Matthew Dobbs, Sophia Shuster, Matthew Cotter, Alexandria Selloni, Marianne Goodman, Agrima Srivastava, Guillermo A. Cecchi, and Cheryl M. Corcoran. 2023. “ChatGPT and Bard Exhibit Spontaneous Citation Fabrication During Psychiatry Literature Search.” _Psychiatry Research_ 326: 1–6. https://doi.org/10.1016/j.psychres.2023.115334. Popper, Karl. 1935. _Logik Der Forschung. Zur Erkenntnistheorie der modernen Naturwissenschaft_. Wien: Springer. Simanowski, Roberto. 2025. _Sprachmaschinen. Eine Philosophie der künstlichen Intelligenz_. München: C. H. Beck. Zweig, Katharina. 2025. _Weiß die KI, dass Sie nichts weiß? Wofür wir Chatbots und KI-Agenten nutzen sollten, wo sie sich irren und wo wir aufpassen müssen_. München: Heyne. * * * Nur der Text ist unter der Lizenz Creative Commons Namensnennung-Nicht kommerziell-Share Alike 4.0 International nutzbar. Alle anderen Elemente (Abbildungen, importierte Anhänge) sind „Alle Rechte vorbehalten“, sofern nicht anders angegeben. * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (11. Januar 2026). Vom Fabulieren und Halluzinieren. _Von Wörtern und Bäumen_. Abgerufen am 11. Januar 2026 von https://wub.hypotheses.org/3313 * * * * * * * *
wub.hypotheses.org
January 12, 2026 at 11:28 AM
Final preprint in this year (I guess), by our doctoral student David Snee, Luca Ciucci, and myself:

Variation in Language Phylogenies May Result From Variation in Concept Translation

https://doi.org/10.17613/dpaf1-egm52
December 18, 2025 at 9:07 PM
Final blog post in our CALC-Journal in this year.

"Towards a Unified ConversionTable for Semitic Transcriptionsand Transliterations"

With our new project member Carlo Meloni.

https://calc.hypotheses.org/9109
Towards a Unified Conversion Table for Semitic Transcriptions and Transliterations
In this study we present a preliminary conversion table that can be used for transcriptions and transliterations across different Semitic languages. We introduce the basic idea behind the table, show how it can be used, and explain how we hope to expand it in the future. ## 1 Introduction Transcription and transliteration practices vary drastically across languages, language groups, and language families (Anderson et al. 2018). As a result, it is often difficult for scholars who are new to a given linguistic area or subgroup to understand how symbols are used to represent sounds. In the following, we will give a very short overview on the transcription practices that emerged for the Semitic language family and propose a conversion table that can be used along with a dedicated software package to convert from individual transcription systems employed to document most Semitic languages to phonetic transcriptions in the International Phonetic Alphabet. ## 2 Background Semitic transcription and transliteration practices developed in nineteenth-century European scholarship, particularly within German-speaking Semitic philology. What is known as the Semitological transcription system did not emerge as a single fixed standard, but as a shared framework for representing Semitic languages such as Hebrew, Aramaic, Arabic, Akkadian, and Ethiopic in the Latin alphabet. Its primary purpose was to support comparative and historical analysis rather than to provide fine-grained phonetic detail (Weninger et al. 2011). Early Semiticists such as Wilhelm Gesenius, Heinrich Ewald, and later Theodor Nöldeke developed a set of conventions that adapted the Latin alphabet through the systematic use of diacritics and modified letters. Dots below, macrons, carons, and other special characters made it possible to represent consonantal distinctions lacking direct equivalents in European languages, most notably emphatic consonants (pharyngealized or ejective) and pharyngeals / laryngeals segments.. From the outset, these conventions were intended to encode phonological categories and historical identities rather than narrow phonetic detail. A symbol such as <ṭ>, for example, was meant to designate an emphatic /t/ as a structural category, without committing the scholar to a specific articulatory analysis such as pharyngealization or ejection (/tˤ/, /tʼ/). By the late nineteenth and early twentieth centuries, the system had become widely established in grammars, dictionaries, and epigraphic editions, with a largely shared core despite minor national variations. Within this general Semitological framework, language-specific transliteration systems were developed for individual languages and subgroups (cf. for example, Brockelmann and Ronkel 1935). Arabic studies produced influential conventions such as the DMG system and DIN 31635, while Hebrew, Ethiopic, Ethio-Semitic, and Modern South Arabian traditions adapted the same principles to their own linguistic features (vowel length and quality contrasts for Hebrew, labialized and palatalized consonants for Ethio-Semitic). In all cases, the emphasis remained on structural and historical comparability rather than phonetic precision. The strength of the Semitological system lies in this abstraction, which has ensured its long-term stability and cross-linguistic applicability and has allowed it to adapt smoothly to digital typography and Unicode. At the same time, the system has clear limitations. Its deliberate avoidance of phonetic specificity can obscure real differences in pronunciation between languages and dialects, and its categories reflect the priorities and assumptions of nineteenth-century European scholarship, which are not always aligned with modern descriptive or community-based approaches to language documentation. For phonetic analysis and fieldwork, IPA-based transcription is therefore indispensable, and the two systems are best seen as complementary rather than competing (Huehnergard and Pat-El 2019). ## 3 Materials and Methods The general idea that we have in mind is to come up with an initial orthography profile that could serve as a general basis to turn transcriptions and transliterations used in particular contexts to transcribe lexical data in Semitic languages into standardized transcriptions of the International Phonetic Alphabet, or – more specifically – the particular version of the IPA underlying the Cross-Linguistic Transcription Systems initiative Anderson et al. (2018). To achieve this conversion and to run the tests, we make use of the possibility to convert original strings written in individual transcription traditions typical for the handling of individual Semitic languages, with the help of conversion tables as introduced in the _LinSe_ software package (Forkel and List 2024, https://pypi.org/project/linse). Conversion tables in _LinSe_ build on the idea of _Orthography Profiles_ presented originally by Moran and Cysouw (2018). The differences between orthography profiles are conversion tables are mostly conceptually. Although orthography profiles _predate_ conversion tables, conversion tables can be thought of as the more abstract concept, in so far as they serve for the conversion of strings drawn from one alphabet into strings represented by different alphabets with the help of rudimentary replacement rules that are applied in a greedy fashion. Conversion tables in _LinSe_ have a very flexible format. All that one needs to create a conversion table are data in tabular form represented in CSV format. In the conversion table, one column reflects the alphabet in which the original strings are represented, and additional columns can be used to provide replacement values. When employing a conversion table, one can either simply _parse_ the original string or the original set of strings into chunks defined as graphemes in the column representing the original alphabet, or one can convert the values directly to the desired replacement values. Our initial conversion table for Semitic transliteration and transcription consists of roughly 150 graphemes, i.e., strings consisting of one or more characters, along with their most general counterpart in the B(road)IPA system of the CLTS standard for phonetic transcription based on the International Phonetic Alphabet (IPA 1999) along with the _name_ of the respective sound in the CLTS system (see https://clts.clld.org for details). In three cases, one sequence corresponds to two sounds. In these cases, the corresponding IPA sounds are separated by a white space (following the basic conventions used in software tools, such as LingPy, see List et al. 2018) and the names of the sounds are separated by a `+` symbol. The conversion table itself can be found on Codeberg (https://codeberg.org/digling/semitic-transliterations), from where it can be freely downloaded and used along with the _LinSe_ package or with other software solutions. ## 4 Examples ### 4.1 Introducing the SegmentGrouper Object in _LinSe_ A conversion table in _LinSe_ can be initiated in two major ways. One can load it from file, or one can pass it as a two-dimensional list. The following conversion table identifies `a`, `b`, `ab`, and `abab` as valid segments of a sequence and will group them together in a greedy fashion, if it identifies them in a string. By calling the function with a string as an argument, the instantiated SegmentGrouper will split the input string into chunks recognized from the alphabet. >>> from linse.convert import SegmentGrouper >>> sg = SegmentGrouper.from_table([["Sequence"], ["a"], ["b"], ["ab"], ["abab"]]) >>> sg("aba") ["ab", "a"] When instantiating the SegmentGrouper with an additional column, this column can serve as the replacement table. To convert a sequence into another sequence, one must pass the name of the column as argument when calling the function. >>> sg = SegmentGrouper.from_table([["Sequence", "Out"], ["a", "A"], ["b", "B"], ["ab", "C"], ["abab", "D"]]) >>> sg("aab", column="Out") ["A", "C"] ### 4.2 Employing the SegmentGrouper on Semitic Data The initial conversion table is supplemented with this study in the form of a CSV file that can be downloaded from Codeberg (https://codeberg.org/digling/semitic-transliterations). From there, one can either directly download the file `semct.csv` or clone the repository. In the following, we show how it can be used to retrieve IPA transcriptions from the transliteration of Arabic numerals from one to five. We assume that the terminal is opened in the same folder in which the file resides. from linse.convert import SegmentGrouper from tabulate import tabulate sg = SegmentGrouper.from_file('semct.csv', delimiter=",") # words are taken from # https://en.wiktionary.org/wiki/Appendix:Arabic_Swadesh_list words = ["wāḥid", "ʾiṯnān", "ṯalāṯa", "ʾarbaʿa", "ḵamsa"] for word in words: table += [[" ".join(sg(w)), " ".join(sg(w, column="IPA"))]] print(tabulate(table, tablefmt="pipe", headers=["Original", "IPA"])) This code produces the results shown in Table 1. While it is clear that there are quite a few different ways how these could have been achieved, we think that conversion tables offer a particular simple way to get started with sequence manipulation, especially also because they can be easily tested and expanded. **Table 1:** Result of the sequence conversion routine of Arabic numerals from one to five. Original | IPA ---|--- w ā ḥ i d | w aː ħ i d ʾ i ṯ n ā n | ʔ i θ n aː n ṯ a l ā ṯ a | θ a l aː θ a ʾ a r b a ʿ a | ʔ a r b a ʕ a ḵ a m s a | x a m s a ## 5 Conclusion We do not think that this initial conversion table is correct in all cases, nor do expect it to serve as a competitor for targeted conversion tools for individual languages, such as PanPhon (Mortensen et al. 2016). However, we take the table as a hopefully useful starting point from which we intent to see if we can start to populate a larger collection of etymologies in Semitic languages that we want to investigate in more detail along with their phonetic representations. ## References Anderson, Cormac, Tiago Tresoldi, Thiago Costa Chacon, Anne-Maria Fehn, Mary Walworth, Robert Forkel, and Johann-Mattis List. 2018. “A Cross-Linguistic Database of Phonetic Transcription Systems.” _Yearbook of the Poznań Linguistic Meeting_ 4 (1): 21–53. https://doi.org/10.2478/yplm-2018-0002. Brockelmann, Carl, and Philippus Samuel van Ronkel. 1935. _Die Transliteration Der Arabischen Schrift in Ihrer Anwendung Auf Die Hauptliteratursprachen Der Islamischen Welt: Denkschrift Dem 19. Internationalen Orientalistenkongreß in Rom_. Leipzig: Deutsche Morgenländische Gesellschaft. Forkel, Robert, and Johann-Mattis List. 2024. “A New Python Library for the Manipulation and Annotation of Linguistic Sequences.” _Computer-Assisted Language Comparison in Practice_ 7 (1): 17–23. https://doi.org/10.15475/calcip.2024.1.3. Huehnergard, John, and Na‘ama Pat-El, eds. 2019. The Semitic Languages. 2nd ed. Abingdon and New York: Routledge. IPA, ed. 1999. _Handbook of the International Phonetic Association: A Guide to the Use of the International Phonetic Alphabet_. Cambridge: Cambridge University Press. List, Johann-Mattis, Cormac Anderson, Tiago Tresoldi, and Robert Forkel. 2021. _Cross-Linguistic Transcription Systems. Version 2.1.0_. Jena: Max Planck Institute for the Science of Human History. https://doi.org/10.5281/zenodo.3515744. List, Johann-Mattis, Mary Walworth, Simon J. Greenhill, Tiago Tresoldi, and Robert Forkel. 2018. “Sequence Comparison in Computational Historical Linguistics.” _Journal of Language Evolution_ 3 (2): 130–44. https://doi.org/10.1093/jole/lzy006. Moran, Steven, and Michael Cysouw. 2018. _The Unicode Cookbook for Linguists: Managing Writing Systems Using Orthography Profiles_. Berlin: Language Science Press. https://langsci-press.org/catalog/book/176. Mortensen, David R., Patrick Littell, Akash Bharadwaj, Kartik Goyal, Chris Dyer, and Lori S. Levin. 2016. “PanPhon: A Resource for Mapping IPA Segments to Articulatory Feature Vectors.” In _Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers_ , 3475–84. ACL. Weninger, Stefan, ed. 2011. The Semitic Languages: An International Handbook. With Geoffrey Khan, Michael P. Streck, and Janet C. E. Watson. Berlin/Boston: Walter de Gruyter. **Cite this article as:** Meloni, Carlo and List, Johann-Mattis (2025): “Towards a unified conversion table for semitic transcriptions and transliterations” in _Computer-Assisted Language Comparison in Practice_ , 8.2: 107-112 [first published on 17/12/2025], URL: https://calc.hypotheses.org/9109, DOI: 10.15475/calcip.2025.2.6. **Download the article as PDF:** calcip-08-2-6.pdf **Copyright information** : This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. **Funding Information** : This project has received funding from the European Research Council (ERC) under the European Union’s Horizon Europe research and innovation programme (Grant agreement No. 101044282). The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript. **Supplementary Materials:** Data and code can be found at https://codeberg.org/digling/semitic-transliterations. * * * OpenEdition suggests that you cite this post as follows: Carlo Meloni, Johann-Mattis List (December 17, 2025). Towards a Unified Conversion Table for Semitic Transcriptions and Transliterations. _Computer-Assisted Language Comparison in Practice_. Retrieved December 17, 2025 from https://calc.hypotheses.org/9109 * * * * * * * *
calc.hypotheses.org
December 17, 2025 at 8:38 AM
Mein Blogbeitrag für November, via @dehypotheses diesmal zum Aussterben von Standardpasswörtern:

Von bedrohten Spielarten der Kultur

https://wub.hypotheses.org/3086
Von bedrohten Spielarten der Kultur
Die Evolution ist faszinierend, bringt sie doch die schillerndsten Formen und Strukturen in Leben und Kultur hervor. Dabei gibt es jedoch auch immer wieder Aspekte von Vielfalt, die kaum einen zu interessieren scheinen. Zu diesen gehören auch die _Passwörter_ , die wir verwenden, um unsere Zugänge zu den sozialen Medien oder diversen anderen Konten, die vom Onlinebanking bis zum Emailprovider reichen, davor zu schützen, von Hackern gehackt und missbraucht zu werden. Während man diese vereinfachend als ein lästiges Nebenprodukt der menschlichen Existenz ansehen könnte, verbirgt sich in der Vielfalt und den Formen, in denen sie sich äußern, doch eine ganz spezifische, schillernde und auch unheimlich faszinierende Dynamik geistigen Schaffens, die bisher viel zu wenig wissenschaftliche Beachtung erhalten hat. Denn während sich die Wissenschaft in kleinkarierten Diskussionen über die Bedeutung von Impfungen für die menschliche Gesundheit oder die Möglichkeit und Unmöglichkeit von Laborursprüngen weltweiter Pandemien verliert, können wir genau während ich diese Zeilen hier schreibe, beobachten, wie mehr und mehr altgediente Passwörter in ihrer Existenz bedroht und von gemeinen Netzadministratoren zum Abschuss freigegeben werden. Dabei geht es nicht nur um konkrete Vertreter leicht memorisierbarer Standardpasswörter wie _12345_ , _password_ , oder _admin_ , die uns lange immens wichtige Dienste erwiesen haben. Auch _strukturelle Methoden_ zur Passwortgeneration, wie die Verwendung des Namens von Ehepartnern, Geburtsorten, Jugendlieben, oder Lieblingstieren, werden mehr und mehr von der Flut bedeutungsloser Passworthülsen verdrängt. Man kann sagen, dass bedeutungstragende Passwörter _an sich_ gefährdet sind. Die Passwörter von morgen sollen mit uns selbst nur noch so wenig wie möglich zu tun haben (Rentrop 2021). Wir sollen ihre Verwaltung kalten Passwortmanagern überlassen, denen es einzig und allein um _Sicherheit_ geht, während alles kulturell Erhabene, was unsere Passwortwahl als Ausdruck menschlichen Menschseins in aller Fehlbarkeit bisher bestimmt hat, dem schnöden Algorithmus untergeordnet oder gleich von sogenannten _alternativen_ Authentifizierungsmethoden ersetzt werden soll. Dazu kommt, dass wir Gefahr laufen, von bösartigen Hackern und Sicherheitsexperten öffentlich beschämt zu werden, wenn wir uns dem allgemeinen Diversitätstrend widersetzen, der von uns verlangt, ein einziges, leicht merkbares und leicht tippbares Passwort für mehrere Accounts zu verwenden (Reddig 2025). Hätte ich nicht kürzlich einen Aufwärtstrend bei der Bahn festgestellt, die auf dem Hinweg noch 2 Stunden Verspätung hatte, auf dem Rückweg aber bereits fast pünktlich war, wäre ich wohl schon komplett an unserer Gesellschaft verzweifelt. Die einzige Hoffnung, die ich jetzt noch habe, ist, dass die amerikanische Regierung uns aus der Patsche hilft und die bewusste Auschlöschung des verborgenen Kulturgutes, welches unsere Passwörter für eine Vielzahl von Menschen noch immer darstellen, verhindert. Genauso, wie sie uns helfen möchte, unsere Digitalregeln in Europa _ausgewogen_ zu gestalten (Ernst 2025), sollte sie uns auch helfen, dem schrecklichen Diversitätszwang bei Passwörtern zu entgehen. Unsere Freiheitsrechte dürfen auch hier nicht weiter von den Eliten aus Bürokratie und Wissenschaft beschnitten werden! ## Literatur Ernst, Nico. 2025. “US-Handelsminister: Zolldeal Für ,,Ausgewogene” Digitalregeln.” _Heise Online_ 2025 (11-24). https://www.heise.de/-11090223. Reddig, Sophia. 2025. “Hälfte Der Internetnutzer Verwendet Passwörter Mehrfach.” _ZEIT Online_ 2025 (04-25). https://www.zeit.de/digital/2025-04/login-passwoerter-login-umfrage-risiko. Rentrop, Christian. 2021. “Passwort-Manager: Tipps Und Tools Für Die Passwortverwaltung.” _Heise Online_ 2021 (05-06). https://www.heise.de/download/specials/Passwort-Manager-Tipps-Tools-fuer-die-Passwort-Verwaltung-6033009. * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (25. November 2025). Von bedrohten Spielarten der Kultur. _Von Wörtern und Bäumen_. Abgerufen am 25. November 2025 von https://wub.hypotheses.org/3086 * * * * * * * *
wub.hypotheses.org
November 25, 2025 at 8:09 AM
New blog post in our #calc in Practice Blog / Journal, via @hypothesesorg
"Manipulating Lexical Forms with the PyLexibank FormSpec"

https://calc.hypotheses.org/8877

https://doi.org/10.15475/calcip.2025.2.3
Manipulating Lexical Forms with the PyLexibank FormSpec
Multilingual lexical data is typically stored in a wide variety of forms, based on many idiosyncratic decisions that vary from dataset to dataset. Here, a simple but efficient solution for the manipulation of lexical data in multilingual wordlists will be introduced. This solution, the PyLexibank FormSpec, was originall developed for the conversion of various kinds of lexical data to Cross-Linguistic Data Formats, but it can also be used as a standalone. This study offers a basic tutorial that illustrates how the FormSpec can be put to concrete use. ## 1 Introduction When working with lexical data in multilingual settings, one encounters a huge variety of ways in which similar kinds of information about lexical forms are encoded. While handling such cases may often require targeted solutions that may in the worst case consist in manual corrections of individual data points, our work with the Lexibank repository (List et al. 2022) has also allowed us to detect certain recurring idiosyncracies in lexical data that can be handled with unified approaches. These approaches have been integrated into the PyLexibank software package (Forkel et al. 2021) and provide important help in converting various kinds of cross-linguistic data with lexical forms to Cross-Linguistic Data Formats (Forkel et al. 2018). In this small study, I will introduce one particular solution that deals with lexical forms before their conversion to phonetic transcriptions. This solutions, as simple as it may seem, has helped us a lot in constructing the Lexibank repository that by now aggregates standardized data from more than 120 different datasets (Blum et al. 2025). ## 2 Background While the basic information that scholars want to provide in a dictionary or a wordlist can be described in pretty simple and straightforward terms, the techniques that scholars use in order to _mark_ this kind of information in concrete datasets vary greatly. While the major information that we need to provide when listing word forms in a given language consists in a triple of _language_ , _form_ , and _meaning_ (List 2014; Gévaudan 2007), linguistic practice adds various forms of complexity and inconsistency to this triple structure. Language names are rarely used in a standardized form, making it at times difficult to identify the varieties in question. Short glosses used to represent meanings are often highly idiosyncratic and can at times only be understood from the larger context of the concept list in which they are assembled (List, Cysouw, and Forkel 2016). Forms are given in a mix of transcriptions, orthographic information, often expanded by additional information that can often only be understood when taking detailed contextual information into account. As an example, consider cases where data are given in tabular form, where columns represent languages and rows represent meanings, and word forms are placed into the respective cells. This format can be found in numerous publications and is considered some kind of a standard among many linguists. The problem of the format is, that it invites inconsistencies regarding the representation of the lexical forms. These inconsistencies surface in numerous occasions. Thus, if more than one word is found to express a given meaning in a given language, scholars use various ways to code for this, using characters like comman, semicolon, or slash as a delimiter when listing multipel word forms, with many datasets using different delimiters without any clear semantics attached to them. Another problem consists in the use of brackets, which are also used in multiple variants, ranging from square brackets over normal brackets to curly braces. Here again, semantics of bracket use are rarely consistent, ranging from reading variants over pronunciation differences to metainformation that relates to the language or the concept in question rather than to the word form itself. An additional problem consists in the explicit marking of missing data, which varies also greatly, ranging from empty cells over dashes invarious forms to explicit entries, such as “no data” or “missing entry”. While inconsistencies may seem to be unproblematic when inspecting data directly by eyeballing them, they may cause huge problems when trying to digest data with the computer. If missing data is marked by an entry “no entry”, for example, it can easily occur that this entry will make its way into the final database, leading to the false impression that the word for “apple” in some language variety is “no entry” instead of being simply missing from the record. The problems arising from variation in lexical entries in cross-linguistic datasets may not only sound funny but also evitable. One would expect computationally versed people to be able to spot or predict such problems when trying to convert a dataset to some standardized format. When dealing with idiosyncrasies of individual data, however, it is helpful to make use of some standardized routines that help to solve problems that often recur across different datasets in a unified way. ## 3 Getting Started with the PyLexibank FormSpec When developing the framework that would later be used to feed the Lexibank repository with data (Blum et al. 2025; List et al. 2022), we started out with individual solutions to deal with inconsistencies in lexical entries. Lexical entries were thus dealt with on a case-to-case basis, using standard routines for text manipulation offered by Python. When adding more data, however, we began to realize that certain problems with lexical forms would recur with a certain regularity. Entries for missing data would be marked idiosyncratically, multiple forms within the same cell would be separated with different separation symbols, and brackets would force us to apply at times quite complex regular expressions. In order to address these problems, a new functionality to handle lexical forms flexibly in a unified way was added to PyLexibank (Forkel et al. 2021), the library that we used to convert data that we would obtain in raw form from published resources into Cross-Linguistic Data Formats (Forkel et al. 2018). This _FormSpec_ , as it is called in PyLexibank, addresses the three major problems summarized above. It deals with brackets (preferably removing everything that is inside a bracket, given that both additional morphemes and metainformation can both not be reliably interpreted when standardizing a form entry). It deals with separators used to describe several variants within the same cell of a data entry. Finally, it also deals with missing data, allowing users to provide a list of the symbol combinations used to indicate that a cell contains _no_ data. Additionally, the FormSpec provides some basic _cleaning operations_ of lexical forms, stripping certain characters from the form and applying standard Unicode normalization (Moran and Cysouw 2018: 17). While the _FormSpec_ is automatically applied whenever you use CLDFBench (Forkel and List 2020) and PyLexibank to create a CLDF dataset, you can also test its functionality directly in an interactive Python session. In order to get started, all you need is a fresh installation of the PyLexibank package, which you can easily obtain with the help of the Python package index `pip`. $ pip install pylexibank Equipped in this form, all you need to load the _FormSpec_ is to import it from your interactive Python session or from within a Python script. from pylexibank import FormSpec In order to _use_ the _FormSpec_ , you must _initialize_ it first. This means, you predefine its behavior in cleaning a given lexical form. The call signature of the class is as shown below. class FormSpec(builtins.object) | FormSpec( | brackets={'(': ')'}, | separators=(';', '/', ','), | missing_data=('?', '-'), | strip_inside_brackets=True, | replacements=NOTHING, | first_form_only=False, | normalize_whitespace=True, | normalize_unicode=None | ) -> None We define pairs of brackets by means of a dictionary in which the key is the opening bracket and the value is the closing bracket. This would not work with cases where a bracket is defined by the same start and end symbol, but our experience shows that most datasets would use traditional brackets for which start and end symbols are defined. The separators handle multiple forms for the same concept. Missing data are passed as a list (or more strictly speaking, a tuple, according to the call, but a list will also be accepted). If the option `strip_inside_brackets` is set to `True`, this means that the algorithm deletes content inside brackets. With respect to the order of execution, note that in cases where a separator, used as a separator of multiple word forms, is also passed inside a bracket, the algorithm would not split the text at this point, but first identify the brackets in the text and then apply the segmentation operation. The option `first_form_only` will yield only the first form of multiple potential forms, when set to `True`. Normalization can be done with respect to whitespace (deleting and unifying whitespace) and Unicode (where one would have to choose between `NFD` and `NFC`). The option `replacements` allows to define a list consisting of tuples of source-target strings, where the source string is what will be replaced and the target string is the replacement. Having initialized the _FormSpec_ by calling the class with particular parameters, one can use it by calling its `split`-method with two arguments, the first argument being always `None` when using it outside the context of CLDFBench, while the second argument is the string one wants to manipulate. This is illustrated in the following example. >>> fs = FormSpec() >>> for form in fs.split(None, "this, is; a (form)"): ... print(form) this is a ## 4 Usage Examples When dealing with the _FormSpec_ , it is important to be aware about the order by which actions are carried out when using the functionality. In the following, we will go through some examples that illustrate basic use-cases. We start with the handling of brackets, which are – as I mentioned before – defined as a dictionary (opening bracket as a key, closing bracket as the value). This allows us to define all kinds of potentially strange brackets that could occur in one’s data. >>> fs = FormSpec(brackets={"<": ">", "{": "}"}) >>> fs.split(None, "this <really?>, is, an {example}") ['this', 'is', 'an'] The `missing_data` argument allows you to specify any string that could occur as missing data. The _FormSpec_ generally assumes that whitespace to the left or the right of the string will be stripped. >>> fs = FormSpec(missing_data=("???", "?")) >>> fs.split(None, "???, really,?, ") ['really'] For separators, there is a particular restriction that only single-character strings can be used as a separator. Thus, passing a string of more than one character will throw an error. Depending on the data, however, one can find workarounds that would nevertheless allow us to separate even strings where multiple characters have been used as a separator. As an example, consider the following output, where three slashes have been used as a separator. >>> fs = FormSpec(separators=(',', ';', '/')) >>> fs.split(None, "hallo /// welt / hier / bin //// ich") ['hallo', 'welt', 'hier', 'bin', 'ich'] According to the way in which _FormSpec_ works, the internal splitting process will only return those forms that consist of at least one character that is not a whitespace character. The _FormSpec_ splits the string in the example into 10 different forms, but only five are returned, since they are note empty. If you want to use the option to replace strings by other strings during the form conversion with the _FormSpec_ , it is important to keep in mind that the replacement is carried out _after_ all splitting operations have been carried out. This limits the possibilities of application, on the one hand, but it also reduces complexity, since the replacements are quite restricted and they do not interfere with the process of splitting a string into several forms. As an example, consider the following lines, where the replacement of the string `/x/` to the string `/` is not carried out, given that `/` is also defined as a character that triggers the string to be split into parts. >>> fs = FormSpec(separators=(',', ';', '/'), replacements=[('/x/', '/')]) >>> fs.split(None, "hallo /// welt / hier / bin /x/ ich") ['hallo', 'welt', 'hier', 'bin', 'x', 'ich'] ## 5 Outlook Although the _FormSpec_ is based on a limited number of options, the functionality has proven very useful in practice, especially when populating the Lexibank repository (Blum et al. 2025). It seems that the decision to limit the scope of the method to a very dedicated range of options, deciding, among others, against the possibility to apply regular expressions, was helpful, given that the results triggered by the current _FormSpec_ can still be easily understood when considering input and output strings. With more complex operations, we would quickly loose the possibility to trace individual decisions made in the code we used to convert raw data into standardized CLDF data points. ## References Blum, Frederic, Carlos Barrientos, Johannes Englisch, Robert Forkel, Simon J. Greenhill, Christoph Rzymski, and Johann-Mattis List. 2025. “Lexibank 2: Pre-Computed Features for Large-Scale Lexical Data [version 2; peer review: 3 approved].” _Open Research Europe_ 5 (126): 1–24. https://doi.org/https://doi.org/10.12688/openreseurope.20216.2. Forkel, Robert, Simon J Greenhill, Hans-Jörg Bibiko, Christoph Rzymski, Tiago Tresoldi, and Johann-Mattis List. 2021. _PyLexibank. The Python Curation Library for Lexibank [Software Library, Version 2.8.2]_. Geneva: Zenodo. https://doi.org/10.5281/zenodo.2630582. Forkel, Robert, and Johann-Mattis List. 2020. “CLDFBench. Give Your Cross-Linguistic Data a Lift.” In _Proceedings of the Twelfth International Conference on Language Resources and Evaluation_ , 6997–7004. Luxembourg: European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.864.pdf. Forkel, Robert, Johann-Mattis List, Simon J. Greenhill, Christoph Rzymski, Sebastian Bank, Michael Cysouw, Harald Hammarström, Martin Haspelmath, Gereon A. Kaiping, and Russell D. Gray. 2018. “Cross-Linguistic Data Formats, Advancing Data Sharing and Re-Use in Comparative Linguistics.” _Scientific Data_ 5 (180205): 1–10. https://doi.org/10.1038/sdata.2018.205. Gévaudan, Paul. 2007. _Typologie Des Lexikalischen Wandels: Bedeutungswandel, Wortbildung Und Entlehnung Am Beispiel Der Romanischen Sprachen_. Tübingen: Stauffenburg. List, Johann-Mattis. 2014. _Sequence Comparison in Historical Linguistics_. Düsseldorf: Düsseldorf University Press. https://doi.org/10.1515/9783110720082. List, Johann-Mattis, Michael Cysouw, and Robert Forkel. 2016. “Concepticon. A Resource for the Linking of Concept Lists.” In _Proceedings of the Tenth International Conference on Language Resources and Evaluation_ , edited by Nicoletta Calzolari (Conference Chair), Khalid Choukri, Thierry Declerck, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, 2393–2400. Luxembourg: European Language Resources Association (ELRA). https://aclanthology.org/L16-1379/. List, Johann-Mattis, Robert Forkel, Simon J. Greenhill, Christoph Rzymski, Johannes Englisch, and Russell D. Gray. 2022. “Lexibank, a Public Repository of Standardized Wordlists with Computed Phonological and Lexical Features.” _Scientific Data_ 9 (316): 1–31. https://doi.org/10.1038/s41597-022-01432-0. Moran, Steven, and Michael Cysouw. 2018. _The Unicode Cookbook for Linguists: Managing Writing Systems Using Orthography Profiles_. Berlin: Language Science Press. https://langsci-press.org/catalog/book/176. **Cite this article as:** List, Johann-Mattis (2025): “Manipulating Lexical Forms with the PyLexibank FormSpec” in _Computer-Assisted Language Comparison in Practice_ , 8.2: 87-93 [first published on 28/10/2025], URL: https://calc.hypotheses.org/8877, DOI: 10.15475/calcip.2025.2.4. **Download the article as PDF:** calcip-08-2-4.pdf **Copyright information** : This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. **Funding Information** : This project has received funding from the European Research Council (ERC) under the European Union’s Horizon Europe research and innovation programme (Grant agreement No. 101044282). The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript. * * * OpenEdition suggests that you cite this post as follows: Johann-Mattis List (October 27, 2025). Manipulating Lexical Forms with the PyLexibank FormSpec. _Computer-Assisted Language Comparison in Practice_. Retrieved October 27, 2025 from https://calc.hypotheses.org/8877 * * * * * * * *
calc.hypotheses.org
October 27, 2025 at 2:15 PM
New preprint with Barbara Meisterernst, on a database of qù-tone alternations in Ancient Chinese, now out with Open-Research-Europe, awaiting open peer review.

https://doi.org/10.12688/openreseurope.21142.1

The database can be accessed at https://qualternations.digling.org
None -
qualternations.digling.org
October 22, 2025 at 12:33 PM
Mein Blogbeitrag via @dehypotheses für Oktober beschäftigt sich mit wissenschaftlichen Konstrukten und wie man sie kommuniziert.

Von gefühlten Tatsachen

https://wub.hypotheses.org/3049
Von gefühlten Tatsachen
In einem Touché-Comic, den die TAZ auf Bluesky vor ein paar Tagen teilte, wird ein älterer Herr im Schlafanzug von zwei älteren Damen, die an seiner Tür klingeln, zu früher Uhrzeit geweckt. Als er sich beschwert und fragt, ob die beiden denn wüssten, wie spät es eigentlich sei, antwortet die eine “Empfundene Uhrzeit: 4 Uhr und 15 Minuten”. Unabhängig davon, wie witzig ich den Comic fand, fühlte ich mich sofort an eine Diskussion erinnert, auf die ich in den letzten Wochen gestoßen bin. Es geht dabei um das Thema “gefühlte Inflation”, von dem ich in einigen Zeitungsartikeln lesen konnte. Bei der gefühlten Inflation geht es darum, dass viele Menschen aufgrund ihrer persönlichen Erfahrung, die – wenn ich meine eigene Erfahrung zugrunde lege – vorwiegend in Supermärkten stattfindet, davon ausgehen, dass wir immer noch sehr hohe Inflationsraten in Deutschland haben. Dem widersprechen aber die offiziell vom Statistischen Bundesamt erhobenen Daten, welche eine relativ geringe Inflation von 2,4 % im September ausweisen. Um die Diskrepanz zwischen den Ansichten vieler Verbraucher und den gemessenen Zahlen zu erklären, greifen Ökonomen nun auf das Konzept der _gefühlten Inflation_ zurück. Die Grundidee ist ähnlich der gefühlten Temperatur oder der empfundenen Uhrzeit. Was ein Individuum empfindet kann nach oben oder unten abweichen, von dem, was man offiziell messen kann. Das gilt dann entsprechend auch für die Inflation. Während diese Idee auf den ersten Blick plausibel klingen mag, hat sie mir bereits beim ersten Mal, als ich von ihr las (Zydra 2025a), einen komischen Nachgeschmack hinterlassen. Das Problem besteht für mich in der Annahme dass man die Diskrepanz zwischen der offiziell gemessenen Inflation und der Inflation, die Verbraucher wahrnehmen, wenn sie bestimmte Produkte kaufen, als eine Diskrepanz zwischen einer _echten_ Messung der Inflation und einer _falschen_ durch individuelle Verbraucher darstellen kann. Diese Haltung, die vor allem auch durch den Terminus “gefühlte Inflation” und seine Gleichsetzung mit anderen “gefühlten” Messwerten, suggeriert, dass es sich bei der Inflation um etwas handelt, was sich – ähnlich wie die Temperatur – weitestgehend objektiv messen lässt. Dies ist jedoch definitiv nicht der Fall, denn bei der Inflation handelt es sich – im Gegensatz zur Temperatur, bei der die Menschheit über sehr konsistente und stabile Messverfahren verfügt – um ein wissenschaftliches _Konstrukt_ , also ein Narrativ, das wir aufbauen, um auf Phänomene zu verweisen, die sich unserer unmittelbaren Beobachtung entziehen. Ein Konstrukt ist also die “fiction or story put forward by a theorist to make sense of a phenomenon” (Statt 1998[1981]: 67). Wie bei allen Konstrukten sind wir Menschen uns weitestgehend einig, dass es bei den Preisen in Volkswirtschaften allgemeine Tendenzen nach oben oder nach unten geben kann, die dann beim Anstieg von Preisen normalerweise _Inflation_ genannt werden und beim Fallen von Preisen _Deflation_. Wie _genau_ wir das Steigen und Fallen von Preisen aber von uns _gemessen_ werden kann, ist eine ganz andere Frage, die unter Wissenschaftlern durchaus kontrovers diskutiert wird. Das Statistische Bundesamt setzt nun ein spezifisches Verfahren an, mit dessen Hilfe das spezifische Konstrukt der Inflation, welches für das Statistische Bundesamt von Interesse ist, zu messen. Dieses Verfahren ähnelt den Verfahren, die auch zur Messung der Inflation in anderen Ländern verwendet werden. Es handelt sich aber dabei nicht um ein normiertes Vorgehen, welches international von allen Staaten als solches verwendet wird. Dies wäre auch sehr umständlich, da sich die Produkte, die wir konsumieren, ja in unterschiedlichen Ländern zwangsläufig voneinander unterscheiden. Da man nicht alle Preise zu jedem Zeitpunkt messen kann, wird also bei der Bestimmung der Inflation in Deutschland von diesem fiktiven Warenkorb ausgegangen, der verschiedenste Produkte in verschiedensten Kategorieren enthält. Von diesem Warenkorb habe ich selbst das erste Mal in der Schule gehört, ohne groß zu verstehen, worum es sich dabei handelt. Ich hatte mir immer einen richtigen Korb vorgestellt, in den man Äpfel und Birnen hineinlegt. Es ist aber viel besser – das hatten mir meine Lehrer damals verschwiegen – wenn man sich diesen Warenkorb als einfache Tabelle vorstellt, die verschiedenste Produkte enthält, die wiederum unterschiedlichen Kategorien zugeordnet sind. Das Resultat dieses Versuchs, die komplexe Realität von 80 Millionen Menschen zu beschreiben, ist die Unterschiedung von 650 verschiedenen _Güterarten_ , die weiter differenziert werden in unterschiedliche konkrete Produkte, und die darüber hinaus _gewichtet_ werden, was dadurch begründet wird, dass Haushalte ja unterschiedlich viel Geld für unterschiedliche Produkte ausgeben, die sie zum Leben brauchen (Böhl 2022). Da wir heute andere Dinge kaufen, als noch vor 50 Jahren, muss der Warenkorb beständig angepasst werden, was auch die Anpassung der Gewichte betrifft. So werden die Produkte regelmäßig angepasst und die Gewichtungen alle fünf Jahre (Böhl 2022). Was mich an dem Verfahren allerdings erstaunt ist, dass es ohne direkte Evaluierung der Messung abläuft. Während wir beim Messen der Temperatur eine mechanische Komponente haben, die Temperatur in den Thermometern, die wir im Alltag nutzen, aus der Ausdehnung von Materie ableitet, hängt die Messung der Inflation von den Entscheidungen ab, die wir treffen, um den Warenkorb zu erstellen und seine Gewichtung festzulegen. Das macht es grundsätzlich schwierig, die _Qualität_ oder _Messgenauigkeit_ des Verfahrens festzulegen. Denn die Frage, die man sich dabei stellen muss, ist ja, _was_ man eigentlich messen will, und _was_ genauer gemessen wird, wenn man Dinge an der Messung ändert. Die Messung der Inflation dient ja – wenn ich das richtig verstehe – vor allem dazu, die fiskalische Politik der Zentralbanken zu unterstützen. Die wollen ja eine zu hohe Inflation verhindern, aber eben auch dafür sorgen, dass es nicht am Ende zu einer Deflation kommt, welche genauso wie eine hohe Inflation problematische Auswirkungen auf das Wohlbefinden der Menschen haben kann. Wenn es aber – wie wir das im Moment wohl beobachten können – zu einer Situation kommt, in der Preise in bestimmten Güterklassen auf einem hohen Niveau weiterwachsen (wofür ich direkte Evidenz gesammelt habe, da ich mir über lange Zeit angewöhnt habe, die Preise von Produkten, die ich regelmäßig konsumiere und einkaufe, einzuprägen), während andere Preise relativ stabil bleiben, dann kommen wir zu einer Situation, in der unser wissenschaftliches Konstrukt von einer _einheitlichen_ Inflation an seine Grenzen gerät. Genau wie bei allen wissenschaftlichen Modellen, reduziert auch das Modell, welches wir von der Inflation haben, die Komplexität der Realität. Dies ist an sich kein Problem, solange das Modell _nützlich_ bleibt, um die Phänomene zu beschreiben, die uns interessieren (vgl. Roller 2024 zur Rolle, die Pragmatik bei Modellen in der Wissenschaft spielt). Wenn wir sagen, dass uns nur der Durschnitt der Preisanstige interessiert, kann man ohne Probleme weiter mit den Zahlen des Statistischen Bundesamtes arbeiten. Wenn man sich aber dafür interessiert, warum die Lebensmittelpreise rasant weitersteigen, während die restlichen Preise nur moderat ansteigen, dann muss man auf ein anderes Modell zurückgreifen, mit dem man das Konstrukt der Inflation genauer messen kann. Man könnte zum Beispiel sagen, dass die Messung der Inflation im Einklang mit der gefühlten Inflation möglichst vieler Menschen sein sollte. Um dies zu erreichen, müsste man Umfragen durchführen, unter unterschiedlichen Vertretern der Bevölkerung, und überprüfen, wofür die ihr Geld jeweils ausgeben. Dies würde auch zeigen, dass ein einheitlicher Gewichtungsfaktor in einer Situation wo eine Güterklasse einen starken Preisanstieg verzeichnet, während die Preise anderer Güterklassen sich nicht so stark verändern, vielleicht gar nicht so sinnvoll ist. Stattdessen könnte man, basierend auf Einkommensklassen, welche Teile der Bevölkerung von partiellen Preisanstiegen besonders betroffen sind. Ich bin kein Ökonom und auch kein Wirtschaftspolitiker. Daher werde ich mich nicht weiter in eine mögliche Debatte über die beste Methode, die Inflation zu messen, vertiefen. Als Wissenschaftler, der sich leidenschaftlich mit wissenschaftlichen Methoden beschäftigt, denke ich aber, dass es problematisch ist, die gefühlte Inflation als eine Fiktion abzutun und gleichzeitig das Konstrukt der Inflation, welches von dem Statistischen Bundesamt gemessen wird, mit der Realität gleichzusetzen (vgl. die Aussagen von Matthias Diermeier im Interview mit der SZ, Zydra 2025b). Denn ganz egal wie feingliedrig die Methoden sind, die vom Statistischen Bundesamt zur Messung der Inflation herangezogen werden: solange sich die Inflation nicht direkt beobachten lässt (und das wird so schnell nicht geschehen), wird man immer nur das Konstrukt messen können, und dieses ist ein hilfreiches Modell der Realität, es ist aber nicht mit der Realität gleichzusetzen. Man kann meine Kritik als sehr spitzfindig abtun, ich denke jedoch, dass die Wissenschaft in der Pflicht ist, nicht nur ihre Erkenntnisse zu kommunizieren, sondern auch die Grenzen dessen, was sich ohne Zweifel wissenschaftlich nachweisen lässt. Dass nicht nur die offiziell gemessene Inflation wissenschaftlich oder volkswirtschaftliche interessant ist, sondern auch welche Auswirkungen Preisveränderungen von bestimmten Produktklassen auf bestimmte Haushalte haben, wird von der Wissenschaft nicht umsonst als solches anerkannt und untersucht (Jungermann et al. 2007). Die starke Vereinfachung, welche das Gleichsetzen von gefühlter Inflation mit einer realitätsfernen Fiktion von Individuen mit sich bringt, ist eine Form der Reduktion, die sich die Wissenschaft nicht erlauben kann. Auch wenn es uns manchmal umständlich zu sein scheinen mag, sollten wir uns als Wissenschaftler immer die Zeit nehmen, sauber zwischen Realität und Modell zu unterscheiden. ## Literatur Böhl, Lukas (2022): Warenkorb zur Berechnung der Inflation._Stuttgarter Nachrichten_ 76 (4.19). https://www.stuttgarter-nachrichten.de/inhalt.warenkorb-inflation-mhsd.b706e3ec-56a5-4bab-9305-ed5cbd68cb02.html. Jungermann, Helmut, Hans Wolfgang Brachinger, Julia Belting, Katarzyna Grinberg, und Elisabeth Zacharias (2007): The Euro changeover and the factors influencing perceived inflation._Journal of Consumer Policy_ 30 (4): 405–419. https://doi.org/10.1007/s10603-007-9051-4. Roller, Ramona (2024): Modell [Version 2.0]. In: _Begriffe der Digital Humanities. Ein diskursives Glossar_ , edited by AG Digital Humanities Theorie des Verbandes Digital Humanities im deutschsprachigen Raum e. V., 1–12. Wolfenbüttel: Zeitschrift für digitale Geisteswissenschaften. https://doi.org/10.17175/WP_2023_009_v2. Statt, David A, ed. (1998[1981]): _Consise Dictionary of Psychology_. 3rd ed. London; New York: Routledge. Zydra, Markus (2025a): Niedrige Inflation, hohe Preise._Süddeutsche Zeitung_ 80 (3317692). https://www.sz.de/li.3317692. Zydra, Markus (2025b): “Bei der AfD stimmen neun von zehn Leuten der Aussage zu, dass die Inflation höher ist als die offiziell gemessene”._Süddeutsche Zeitung_ 80 (3297807). https://www.sz.de/li.3297807. * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (19. Oktober 2025). Von gefühlten Tatsachen. _Von Wörtern und Bäumen_. Abgerufen am 19. Oktober 2025 von https://wub.hypotheses.org/3049 * * * * * * * *
wub.hypotheses.org
October 20, 2025 at 8:14 AM
New preprint by Katja Bocklage (PhD in our ERC project) and many others from our chair just published online with Humanities Commons.

Testing the Potential of Automatically Inferred Affix Colexifications for Linguistic Typology

https://works.hcommons.org/records/adjya-rzp79
October 2, 2025 at 12:00 PM
New post by our doctoral student Arne Rubehn in our CALCiP journal / blog.

"Integrating Semantic Embeddings into NoRaRe"

https://calc.hypotheses.org/8783
Integrating Semantic Embeddings into NoRaRe
This study illustrates how semantic embeddings can be added to and retrieved from NoRaRe. By that, it provides a template for handling vector data and makes popular methodology in semantic modeling available for cross-linguistic comparison. # 1 Introduction The success of word embedding techniques has lead to a complete shift to a distributional framework in computational semantics, which is underlined by the fact that word embeddings build the backbone of modern Large Language Models. Following the distributional hypothesis, vector representations for words (i.e., embeddings) are learned from surrounding words. Words with similar meanings and/or functions will therefore appear in similar contexts, leading to similiar representations, while words that are found in different contexts are considered dissimilar and thus appear distant from each other in the embedded vector space. Since they are demonstrably powerful, yet readily interpretable, static word embeddings (meaning that one word maps to one vector representation, in contrast to contextual word embeddings) trained with models like Word2Vec (Mikolov et al. 2013), GloVe (Pennington et al. 2014), and FastText (Bojanowski et al. 2017) remain a popular choice for the computational investigation of semantic similarity and relations between word forms. While certainly powerful and highly expressive, word embeddings cannot be directly plugged into models for computer-assisted language comparison. Research in comparative linguistics relies on the presence of comparative concepts — items under the same gloss in different languages should refer to the same sense or concept (even if the gloss in the metalanguage is potentially ambiguous). For example, the English word _bark_ can refer to the exterior part of a tree or the vocalization of a dog. The word embedding for _bark_ captures both meanings — simply using that embedding for a wordlist where _bark_ only refers to the part of the tree would thus lead to an imprecise representation of the expressed concept due to the homonymy in the English gloss. To address this problem, we recently presented a new technique for training language-agnostic _concept embeddings_ from cross-lingual colexification networks (Rubehn and List 2025). In this post, I will describe how those concept embeddings were integrated into the Database of Norms, Ratings, and Relations (NoRaRe, Tjuka et al. 2022, https://norare.clld.org/) alongside multilingual FastText word embeddings (Grave et al. 2018). By that, I will provide a general tutorial on how to integrate and retrieve vector data with NoRaRe. # 2 Integrating Concept Embeddings into NoRaRe Following last month’s tutorial by List (2025), we start by expanding the `norare.tsv` and `datasets.tsv` files that contain basic information about all datasets collected in NoRaRe, as well as adding new references to `references/references.bib`. In `datasets.tsv`, I simply append one new line where I provide meta-information concerning the new dataset under the name `Rubehn-2025-ConceptEmbeddings`. This name is used as unique identifier for the dataset throughout the entire integration process. Similarly, I extend `norare.tsv` by describing the type of data I am contributing. Since for each concept I am contributing several vector representations (3 types of concept embeddings based on different types of colexification + FastText embeddings in 9 different languages), each of them has to be described separately in a new line. Finally, I add BibTeX entries for the sources of the data I am contributing (in this case Grave et al. 2018; Rubehn and List 2025) to `references/references.bib`. Having dealt with the basic files, it is time to contribute the actual dataset. For this, the first step is to create a new directory `datasets/Rubehn-2025-ConceptEmbeddings` where all relevant information is stored. This directory itself will contain three files: `Rubehn-2025-ConceptEmbeddings.tsv`, `Rubehn-2025-ConceptEmbeddings.tsv-metadata.json`, and `norare.py`. Note how the dataset identifier is recurring in the namespace. `Rubehn-2025-ConceptEmbeddings.tsv-metadata.json` is a metadata file conforming to CSVW standards (Gower 2021). Simply speaking, it allows (and requires) me to define which columns the corresponding TSV file (where all data is written to) contain, and which data type is expected in each column. This ensures data consistency and allows for smooth data retrieval later on. Concretely, I use this file to define that each entry consists of a Concepticon ID, the corresponding Concepticon gloss (the concept inventory that NoRaRe operates on is defined by Concepticon; List et al. 2025, https://concepticon.clld.org/), and then all different types of embedding vectors described above. For all columns containing embeddings, I define `"json"` as data type: embeddings are therefore directly represented as lists of floats. Finally, we get to the core of the dataset: the `norare.py` script that produces the file `Rubehn-2025-ConceptEmbeddings.tsv`, which contains all the actual data in the end. In `norare.py`, I have to define two functions that correspond to shell commands defined by `pynorare` (List and Forkel 2024): `download` and `map`. As the names suggest, these two functions define the behavior for 1. downloading the raw data and 2. mapping them to NoRaRe. For the concept embeddings, it is straightforward to define the downloading and mapping behavior, since the embeddings already represent Concepticon concepts directly. The only trick I had to employ here was to round all numbers to 4 decimals to prevent the file from becoming too large. This is a simple quantization technique that is commonly done to compress data (Gray and Neuhoff 1998) without losing relevant information. # 3 Integrating Multilingual Word Embeddings into NoRaRe Mapping multilingual FastText embeddings (Grave et al. 2018) requires some more handling of data, which is essentially due to the fact that embedded words have to be mapped to the concepts defined by Concepticon, and this mapping is usually not a 1-to-1 relation. As a first step, again, we download the data from https://fasttext.cc/docs/en/crawl-vectors.html. Now that we have obtained the embeddings for _words_ in different languages, we have to map them to the relevant _concepts._ This can be done via the MultiSimLex database (Vulić et al. 2020) that provides parallel translations for 1,888 cues in various different languages. Since the elicited cues have already been linked to Concepticon (List 2021) and the translations are parallel, MultiSimLex offers a good resource for systematically linking words from different languages to Concepticon concepts. Now that we have a principal method for mapping words to concepts, we encounter another problem that we need to deal with: sometimes, there are multiple translations for the same concept. For example, the concept CAR can be expressed by the Russian words _avtomobil’_ and _mashina,_ and both translations are actually found in the MultiSimLex data. In those cases, we define the vector representing a concept in a language as the weighted average of the corresponding word vectors. As a simplified example, assume that we find 1 occurrence of _avtomobil’_ with the vector `[2, 3]` and two occurrences of _mashina_ with the vector `[1, 6]`: the resulting vector would be `[(1*2 + 2*1) / 3, (1*3 + 2*6) / 3] = [1.3333, 5]`. With solutions to these practical issues, we now have a robust and consistent way of handling and mapping word embedding data to Concepticon; so we can simply implement the described behavior in the `map` function. Having implemented both the downloading and mapping routine for both, the concept embeddings and the word embeddings, pynorare offers convenient shell commands to create the desired TSV file, in which all information is finally represented. $ norare download Rubehn-2025-ConceptEmbeddings # download data $ norare map Rubehn-2025-ConceptEmbeddings # map data # 4 Retrieving Embeddings from NoRaRe Thanks to the pynorare API and the CSVW specifications, it is now straightforward to retrieve the different embeddings. Start by creating a fresh virtual environment, install pynorare via pip and clone the latest version of the Concepticon and NoRaRe datasets: $ python -m venv venv $ source venv/bin/activate # for *NIX-based systems; if you use Windows, you need to run the 'Activate.ps1' script instead $ git clone --depth=1 https://github.com/concepticon/concepticon-data $ git clone --depth=1 https://github.com/concepticon/norare-data Now that you’re set up, you can easily retrieve the described embeddings, as illustrated in the code snippet below. Thanks to the CSVW specifications, all data are already represented as objects of the correct type — the embedding vectors are already lists of floats, and the Concepticon ID’s are already integers. from pynorare import NoRaRe from pyconcepticon import Concepticon # set up Concepticon and NoRaRe API c = Concepticon("concepticon-data") norare = NoRaRe("norare-data", concepticon=c) # retrieve data embedding_data = norare.datasets["Rubehn-2025-ConceptEmbeddings"] concept_embeddings = {concepticon_id: entry["embeddings_full_affix"] for concepticon_id, entry in embedding_data.items()} ft_embeddings_es = {concepticon_id: entry["fasttext_es"] for concepticon_id, entry in embedding_data.items()} # 5 Conclusion and Outlook In this study, I have briefly illustrated how vector data can be added to and retrieved from NoRaRe by the concrete example of concept embeddings (Rubehn and List 2025) and multilingual word embeddings (Grave et al. 2018). I am optimistic that this addition will be useful for future research representing semantics on a conceptual level, since distributional semantic representations have proven themselves as powerful tools already. Furthermore, the inclusion of embeddings serves as yet another template for how complex data types can be handled by NoRaRe (Ahmedović 2025). # References Ahmedović, Mira (2025): Handling Non-Standard Datasets in NoRaRe: A Practical Guide. _Computer-Assisted Language Comparison in Practice_ 8.1. 17–23. https://doi.org/10.15475/calcip.2025.1.3 Bojanowski, Piotr and Edouard Grave and Armand Joulin and Tomas Mikolov (2017). Enriching word vectors with subword information. _Transactions of the Association for Computational Linguistics_ 5. 135-146. https://doi.org/10.1162/tacl_a_00051 Forkel, Robert and Johann-Mattis List (2024). _PyNoRaRe [Python package, version 1.1.0]._https://pypi.org/project/pynorare/ Gower, Robin (2021): CSV on the Web. Stirling: Swirrl. https://csvw.org Grave, Edouard and Piotr Bojanowski and Prakhar Gupta and Armand Joulin and Tomas Mikolov (2018). Learning word vectors for 157 languages. In _Proceedings of the Eleventh International Conference on Language Resources and Evolution (LREC 2018)._https://aclanthology.org/L18-1550/ Gray, Robert M. and David L. Neuhoff (1998). Quantization. _IEEE Transactions on Information Theory_ , 44.6. 2325-2383. https://doi.org/10.1109/18.720541 List, Johann-Mattis (2021). Mapping Multi-SimLex to Concepticon. _Computer-Assisted Language Comparison in Practice_ 4.3. 1-8. List, Johann-Mattis (2025). Illustrating Data Curation in NoRaRe with the Help of Templates. _Computer-Assisted Language Comparison in Practice_ 8.2. List, Johann Mattis and Annika Tjuka and Frederic Blum and Alžběta Kučerová and Carlos Barrientos Ugarte and Christoph Rzymski and Simon Greenhill and Robert Forkel (eds.) (2025). _CLLD Concepticon 3.4.0 [Data set]_. Zenodo. https://doi.org/10.5281/zenodo.14923561 Mikolov, Tomas and Kai Chen and Greg Corrado and Jeffrey Dean (2013). Efficient estimation of word representations in vector space. _arXiv preprint arXiv:1301.3781._https://doi.org/10.48550/arXiv.1301.3781 Pennington, Jeffrey and Richard Socher and Christopher D. Manning (2014). GloVe: Global vectors for word representation. In _Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)._ 1532-1543. https://doi.org/10.3115/v1/D14-1162 Rubehn, Arne and Johann-Mattis List (2025). Partial colexifications improve concept embeddings. In _Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)._ 20571-20586. https://aclanthology.org/2025.acl-long.1004 Tjuka, Annika and Robert Forkel and Johann-Mattis List (2022). Linking Norms, Ratings, and Relations of Words and Concepts Across Multiple Language Varieties. _Behavior Research Methods_ 54. 864–884. https://doi.org/10.3758/s13428-021-01650-1 Vulić, Ivan and Simon Baker and Edoardo Maria Ponti and Ulla Petti and Ira Leviant and Kelly Wing and Olga Majewska and Eden Bar and Matt Malone and Thierry Poibeau and Roi Reichart and Anna Korhonen (2020): Multi-SimLex: A large-scale evaluation of multilingual and cross-lingual lexical semantic similarity. _Computational Linguistics_ 46.4. 847-897. https://doi.org/10.1162/coli_a_00391 **Cite this article as:** Rubehn, Arne (2025): “Integrating Semantic Embeddings with NoRaRe” in _Computer-Assisted Language Comparison in Practice_ , 8.2: 81-86 [first published on 17/09/2025], URL: https://calc.hypotheses.org/8783, DOI: 10.15475/calcip.2025.2.3. **Download the article as PDF:** calcip-08-2-3.pdf **Copyright information** : This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. **Supplementary Materials** : The data described here is available as part of the NoRaRe database, which is currently curated on GitHub (https://github.com/concepticon/norare-data) and regularly archived with Zenodo (all versions available at https://doi.org/10.5281/zenodo.3957680). The data created here will be part of the next release Version 1.2. For details, the contribution can be inspected via the pull-request on GitHub at https://github.com/concepticon/norare-data/pull/282. **Funding Information** : This project has received funding from the European Research Council (ERC) under the European Union’s Horizon Europe research and innovation programme (Grant agreement No. 101044282). The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript. * * * OpenEdition suggests that you cite this post as follows: Arne Rubehn (September 17, 2025). Integrating Semantic Embeddings into NoRaRe. _Computer-Assisted Language Comparison in Practice_. Retrieved September 17, 2025 from https://calc.hypotheses.org/8783 * * * * * * * *
calc.hypotheses.org
September 17, 2025 at 9:21 AM
Mein neuer Blogbeitrag im September, via @dehypotheses geht auf einige interessante Parallelen zwischen der Mathematik und der historischen Linguistik ein.

https://wub.hypotheses.org/3018
Schon gesehen
Vor Kurzem bin ich auf einen sehr interesssanten Artikel gestoßen, der einen populärwissenschaftlichen Überblück zu den Versuchen in der Mathematik gibt, Beweise automatisiert prüfen zu lassen (Bischoff 2025). “Die moderne Mathematik” heißt es in dem Artikel, sei “so spezialisiert, dass selbst Experten einander nicht mehr verstehen”. Um dem Abhilfe zu schaffen, versuchen einige Forscher seit einigen Jahren, die Einführung automatischer Beweissysteme als Grundlage moderner mathematischer Forschung zu etablieren. Während diese Versuche lange Zeit wenig Beachtung fanden, scheint sich mit neueren Erfolgen, von denen Bischoff auch im Detail berichtet, allmählich ein Forschungskreis zu bilden, der automatische Beweisführung ernst nimmt und trotz der großen Widerstände, die vom Spott traditionell orientierter Kollegen bis zur riesigen Varianz von Beweisführungen aufgrund fehlender Standards reichen. Inzwischen scheint es tatsächlich erste Programme zu geben, die erfolgreich verschiedene Beweise formalisieren und überprüfen konnten, auch wenn es anscheinend als sehr aufwendig herausgestellt hat, einzelne Beweise von den Axiomen ausgehend formal zu verfassen (ibid.). Obwohl ein Großteil der Forschung in der Mathematik nach wie vor manuell durchgeführt wird, mehren sich daher vor allem in letzter Zeit die Beispiele, wo automatisierte Beweisführung oder die explizite Zuhilfenahme von Computern vermehrt zu Erfolgen oder neuen Einsichten geführt haben. Während es mich schon lange überrascht, dass die automatische Beweisführung in der Mathematik nicht schon längst viel weiter verbreitet ist (List 2020), befing mich beim weiteren Lesen des Textes diesmal ein komisches Gefühl von von _déjà vu_. Ich kenne diese menschlichen und technischen Probleme, die das Entwickeln von automatisierten Methoden zur Beweisführung mit sich bringt, nämlich nur allzu gut aus meiner eigenen täglichen Arbeit. Denn in der historischen Linguistik ist die Situation am Ende gar nicht so unterschiedlich zur Mathematik. Wir haben _scheinbar_ formale Methoden, die wir _scheinbar_ formal anwenden, um zu erkennen, welche Sprachen miteinander verwandt sind und wie sich die Lautsysteme von den Ursprachen in die Tochtersprachen entwickelt haben. Diese Methoden werden jedoch nicht von Computern gegengeprüft, sondern von den jeweiligen Experten individuell angewandt und dann zu Papier gebracht. Um zu prüfen, ob die Lautwandelprozesse und die Protoformen, die jemand für eine Sprachfamilie postuliert, stimmen, muss man sich in mühseliger Kleinstarbeit zunächst in alle formalen und zuweilen auch nicht formalen Argumente einlesen, die zur _Rekonstruktion_ der Sprachfamilie gemacht wurden. Dazu muss man die Argumente vorangegangener Arbeiten kennen, und am besten auch ein relativ gutes passives Verständnis zumindest einiger Sprachen der Sprachfamilie vorweisen können. Bei mehr als 300 Sprachfamilien, die bisher identifiziert worden sind, haben wir auch in der Linguistik schon lange eine Situation erreicht, wo die Experten, die an unterschiedlichen Sprachfamilien arbeiten — und zuweilen sogar die Experten, die an denselben Sprachfamilien arbeiten — einander kaum noch verstehen. Während das Problem, welches intuitive Einblicke in der historischen Linguistik spielen, mir schon lange bekannt war, und zuweilen sogar in der Literatur diskutiert worden ist (Schwink 1991: 29), hatte ich von der Mathematik jedoch bisher einen ganz anderen Eindruck gehabt. Ich war immer davon ausgegangen, dass Beweise keine Fehler aufweisen und aufgrund der formalen Ausrichtung der Mathematik mit ihren Axiomen und Formeln eine Automatisierung derselben eigentlich gar nicht so schwer sein könnte. Dies scheint allerdings viel weniger der Fall zu sein, als ich angenommen hatte. Genauso wie in der Linguistik, wo ich relativ häufig offen angegangen werde, dass meine Versuche, die Methoden der Rekonstruktion zu automatisieren eine reine Zeitverschwendung seien, scheint das Formalisieren von Beweisen in der Mathematik mit Hilfe von Computern ebenfalls so “mühsam [zu sein], dass es in den Augen vieler Fachvertreter den Aufwand nicht lohnt” (Hartnett 2016: 61). Darüber hinaus scheint es auch in der Mathematik zuweilen zu _menscheln_ , wenn es um die Akzeptanz von Theoremen oder Beweisen geht geht: “in the end, it is a social process that determines whether mathematicians feel confident about a theorem” (De Millo et al. 1979: 171). Als ich vor Kurzem mal wieder eine größere Konferenz zur historischen Linguistik besuchte, wurde ich wieder auf eindrucksvolle Art und Weise damit konfrontiert, wie sehr unser Fach noch immer menschelt, ohne dass diese sozialen — und meiner Ansicht nach auch oft einfach unwissenschaftlichen Aspekte, die zur Akzeptanz oder Ablehnung von Theorien führen — wirklich ausreichend thematisiert werden. Dabei finde ich es immer wieder erschütternd, wie grob und unsachlich manche Kolleginnen und Kollegen dabei vorgehen. Da wird das Rekonstruktionssystem einer Sprachfamilie eines Kollegen A von einem Kollegen B vollständig abgelehnt, weil die Arbeit “komplett falsch” sei, obwohl sich bei einer Betrachtung der Arbeiten von A und B zeigt, dass sie sich in den meisten Fällen eigentlich nicht stark voneinander unterscheiden. Da reden die Kollegen, die zu denselben Sprachfamilien forschen, prinzipiell nicht miteinander, weil sie sich als Konkurrenz in einem Feld, das kleiner nicht sein könnte, ansehen, anstatt die Chance der Kollaboration zu ergreifen. Da werden automatisierte Lösungen, die den Vorgang der Rekonstruktion unterstützen und seine Transparenz erhöhen können, pauschal und ohne Begründung abgelehnt, weil man der eigenen Intuition ja ohnehin mehr vertraue. Während ich, wenn man mich mit der typischen Kritik an computergestützten Methoden konfrontiert, meist gute Miene zu einem Spiel mache, das ich inzwischen nur zu gut kenne, obwohl es mich schon lange nervt, wundert es mich doch immer wieder, mit welch unwissenschaftlichen Argumenten jegliche Bezugnahme auf Computer abgelehnt wird. Vor allem stört es mich, dass sich vor allem die lautesten Kritiker eigentlich kaum die Mühe geben, sich überhaupt mit den Lösungen, welche die Tools, die ich entwickle bieten, grundlegend vertraut zu machen. Die meisten vermuten in Tools wie der EDICTOR-Software (https://edictor.org, List et al. 2025) schlicht den Versuch, alle manuellen Schritte des Sprachvergleichs komplett zu automatisieren und werfen der Software dann vor, im Gegensatz zum Menschen schlechtere Ergebnisse zu liefern. Dabei geht es gar nicht um die Automatisierung des historischen Sprachvergleichs, sondern um die Steigerung seiner Transparenz und Wiederholbarkeit. Wer sich aktuelle Rekonstruktionen von unterschiedlichen Sprachfamilien wie der Mataco-Sprachen in Südamerika (Nikulin und Carlo 2024), der Tschadischen Sprachen in Afrika (Wolff 2022) oder der Sogeram-Sprachen in Neuginea (Daniels 2020) anschaut, wird feststellen, dass es kaum Gemeinsamkeiten in Bezug auf die Präsentation der Daten oder der Methoden, mit deren Hilfe die Daten erstellt wurden, gibt. Einzelne Rekonstruktionen von individuellen kognaten Wörtern in den Sprachfamilien werden zwar in allen Fällen mitsamt der _Reflexe_ , also der Belegwörter in den Einzelsprachen aufgelistet, man wird jedoch nahezu komplett allein gelassen, wenn man die Belege mit den Rekonstrukten in Beziehung setzen möchte. Obwohl wir von formalen Prozeduren, wie der Sequenzalinierung (List 2014) oder der Inferenz von Korrespondenzmustern (List 2019) ausgehen, ohne deren Hilfe die Wortvergleiche gar nicht aufgestellt werden könnten, finden wir diese in den Ergebnissen, die präsentiert werden, eigentlich nie vor. Auch werden die Rohdaten, die die Autoren nutzen, um ihre Rekonstruktionen zu erstellen, eigentlich so gut wie nie geteilt. Wer diese also nachvollziehen oder auf ihne aufbauen will, muss zunächst die Daten digitalisieren und dann die Methoden unabhängig neu anwenden. Wissenschaft sollte eigentlich nach höherer Transparenz, Nachvollziehbarkeit und Wiederholbarkeit streben, vor allem, wenn man erwartet, dass sie ernst genommen wird. Wenn ich Kollegen darauf hinweise, dass die Transparenz von Daten wichtig ist, um deren Weiterbearbeitung zu ermöglichen, ernte ich in vielen Fällen nur verständnislose Blicke. Zuweilen haben mir Kollegen sogar direkt gesagt, dass ihnen die Nachnutzung ihrer Arbeit eigentlich egal sei. Wenn sich Forschung aber nur auf die eigenen Interessen derer, die forschen, konzentriert und das Aufbereiten von Wissen und Erkenntnissen für die Nachnutzung vollständig ignoriert, dann verkommt sie zu einem komischen Selbstzweck, der überspitzt gesagt am Ende eigentlich nur einigen privilegierten Menschen die Ausübung ihrer Hobbies in ihrer Arbeitszeit finanziert. Ich habe jedoch eine gewisse Hoffnung, dass sich das — wenn auch langsamer als in der Mathematik — auch in der Linguistik allmählich ändern wird. Jüngere Menschen, die Linguistik betreiben, haben schon heute weitaus bessere Computerkenntnisse als die Generationen vor ihnen. Da computergestützte Ansätze und transparente Verfahren entgegen der Vorurteile, die einige Linguisten ihnen noch immer entgegenbringen, die konkrete Forschungsarbeit tatsächlich nicht nur transparenter, sondern auch effizienter gestalten können, besteht Hoffnung, dass wir von einem Fach mit wenigen Experten, die sich als Platzhirsche gerieren, zu einem Fach werden, in dem die wenigen Experten mehr Zeit haben, die spezifischen Probleme ihrer Vergleichsstudien im Team anzugehen. ## Literatur Bischoff, Manon Was passiert, wenn niemand mehr die Mathematik versteht? _Spektrum — Die Woche_ 2025.33. 21-35. https://www.spektrum.de/news/so-veraendern-computer-ki-und-beweispruefer-die-mathematik/2280992 Daniels, Don (2020): Grammatical reconstruction. The Sogeram languages of New Guinea. Boston and Berlin: De Gruyter Mouton. De Millo, Richard A. and Lipton, Richard J. and Perlis, Alan J. (1979): Social processes and proofs of theorems and programs. _Communications of the ACM_ 22.5. 271-280. List, Johann-Mattis and van Dam, Kellen Parker and Blum, Frederic (2025): EDICTOR 3. An Interactive Tool for Computer-Assisted Language Comparison [Software Tool, Version 3.1]. Passau: MCL Chair at the University of Passau. https://edictor.org Hartnett, Kevin (2016): Werden Computer das Wesen der Mathematik verändern? _Spektrum der Wissenschaft_ 12. https://www.spektrum.de/magazin/werden-computer-das-wesen-der-mathematik-veraendern/1427414 List, Johann-Mattis (2014): Sequence comparison in historical linguistics. Düsseldorf: Düsseldorf University Press. https://sequencecomparison.github.io List, Johann-Mattis (2019): Automatic inference of sound correspondence patterns across multiple languages. _Computational Linguistics_ 45.1. 137-161. https://doi.org/10.1162/COLI_a_00344 List, Johann-Mattis (2020): Von Handarbeit im digitalen Zeitalter [Of manual work in the digital age]. _Von Wörtern und Bäumen_ 4.9. https://doi.org/10.58079/vbqp Nikulin, Andrey and Carol, Javier (2024): Historical phonology of Mataguayan. Berlin: Language Science Press. Schwink, Frederick (1991): Linguistic typology, universality and the realism of reconstruction. Washington: Institute for the Study of Man. Wolff, H. Ekkehard (2022): A historical phonology of Central Chadic. Prosodies and lexical reconstruction. Cambridge: Cambridge University Press. * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (15. September 2025). Schon gesehen. _Von Wörtern und Bäumen_. Abgerufen am 15. September 2025 von https://wub.hypotheses.org/3018 * * * * * * * *
wub.hypotheses.org
September 15, 2025 at 8:33 AM
Already yesterday, my new post in our #calc in Practice Blog/Journal appeared, this time

Illustrating Data Curation in NoRaRe with the Help of Templates

https://calc.hypotheses.org/8723
Illustrating Data Curation in NoRaRe with the Help of Templates
This study introduces a collection of templates that can be used to contribute data to the Database of Norms, Ratings, and Relations (NoRaRe) of words and concepts. The templates are intended to facilitate the process of dataset conversion and serve as a starting point for those who are interested to contribute data to the catalog. A first template structure with two sample datasets is introduced and discussed in more detail, pointing to those aspects of data curation that may lead to confusion among users who contribute the first time to the NoRaRe database. ## 1 Introduction The _Database of Norms, Ratings, and Relations_ (NoRaRe, Tjuka et al. 2022, https://norare.clld.org) offers a principled collection of data on speech norms for words across different languages, linked to identical concepts that are defined through the Concepticon catalog (List et al. 2025, https://concepticon.clld.org). While we are generally very happy with the NoRaRe data collection, given that it offers data from various sources in a unique and standardized form, we are aware that data access and data curation may cause frustration with some users, given that they require both basic knowledge about the commandline and quite solid knowledge about Python programming. While we think that data access can be facilitated by providing more targeted tutorials, providing detailed tutorials on the curation of NoRaRe data may still be frustrating for potential contributors, given that the amount of data and scripts that has been accumulated in the original NoRaRe database by now is constantly growing and may easily overwhelm people who are new to the workflow of test-driven data curation (for details on these workflows, see Tjuka et al. 2023 on Concepticon and NoRaRe, and List et al. 2022 on Cross-Linguistic Data Formats in general). General information on how to add datasets to NoRaRe can be found in two studies introducing the data and the workflow for data curation (Tjuka et al. 2022 and Tjuka et al. 2023) and in a recent tutorial by Ahmedović (2025). In order to supplement these attempts to help people getting started with NoRaRe data curation, this study introduces a new approach, based on a template dataset. This dataset cannot only be used to illustrate different ways in which data can be added to the catalog, it can also be used as the starting point for those who want to contribute data to the original NoRaRe collection. ## 2 Illustrating Data Curation with Templates Data curation in NoRaRe is based on two major components. On the one hand, we have a code package, PyNoRaRe (Forkel and List 2024, https://pypi.org/project/pynorare/), that can be invoked via the command line in order to convert individual datasets into the standardized tabular format required by NoRaRe. On the other hand, we have a folder structure, containing the original NoRaRe data, which is read and modified when invoking the code from the command line. Since NoRaRe has grown drastically over time, listing by now close to 100 individual datasets (with new datasets being planned to be added during the next time), working with the entire NoRaRe database can feel cumbersome, given the amount of data that the repository stores in different folders and files. In order to cope with this problem, I have now created a first template repository that can be used to test and teach data curation in NoRaRe with targeted exemplary datasets that have been created specifically to illustrate the data curation process. While the template repository by now only contains two artificial sample datasets, illustrating two ways in which data can be curated in NoRaRe, I hope that we can extend the repository in the future by adding targeted illustrations. ## 3 Getting Started with NoRaRe ### 3.1 Installation In order to get started with NoRaRe, you must make sure to install the PyNoRaRe package via `pip` in a fresh virtual environment (https://pypi.org/project/pynorare, List and Forkel 2024). Having installed the package, you may need additional packages for the handling of individual datasets, but most basic packages will be installed with this installation alone. In order to _access_ NoRaRe data, you also need to download the NoRaRe database itself, along with the data underlying Concepticon. The easiest way to get started, is to download both packages with `git`. This can be done with the help of the following commands. The first command installs `pynorare`, the second command downloads the template collection — instead of the original NoRaRe data –, and the third command downloads the most recent version of the Concepticon reference catalog (Version 3.4.0). $ pip install pynorare $ git clone https://codeberg.org/digling/norare-template $ git clone https://github.com/concepticon/concepticon-data --depth 1 --branch v3.4.0 If you open the `norare-template` folder, you will find two folders (`datasets` and `references`) and two basic files (`datasets.tsv` and `norare.tsv`). The current version of the template repository will ignore the `norare.tsv` file. It describes individual columns of individual datasets, but it is not needed to guarantee the basic functionality of curated data in NoRaRe and maybe introduced in future modifications to the template. The file `datasets.tsv` contains a header and two entries that provide information on two datasets for which templates were created in the repository. We call these datasets `Template-0001-Base` and `Template-0002-Manual`, respectively, thereby following the naming convention of datasets in NoRaRe, which start with the author name (here replaced by `Template`), followed by the year of creation (here replaced by `0001` and `0002` to employ some numerical ordering of template data), and followed by a short string illustrating the main purpose of the data (`Base` illustrating basic mapping, and `Manual` illustrating how data can be mapped manually). Additional information on individual datasets is provided in the following columns. When filling in the field `REFS`, it is important to know that this corresponds to a BibTeX-entry. The corresponding BibTeX-file can be found in the `references` folder (`references.bib`). The description of the data in the `NOTE` field will later be displayed on the NoRaRe website (https://norare.clld.org), as is the content of the other columns. The datasets themselves rest in the folder `datasets`. Per dataset, we add a dedicated folder that should have the same name as the dataset `ID` as indicated in `datasets.tsv`. This means we find two folders in the current template, `Template-0001-Base` and `Template-0002-Manual`. Inside a dataset folder, there are two required files that need to be provided by the data curators. One file, called `norare.py`, contains the code that is needed to download the original data and convert it to the NoRaRe formats, and one file, consisting of the dataset ID, extended by `.tsv-metadata.json`, contains the CSVW specification that describes the content of all columns in the resulting NoRaRe dataset and — if applicable — how they relate to the original data. ### 3.2 Basic Principles of Data Curation The basic procedure for adding datasets to NoRaRe consists in two steps, with both steps being automatized in such a form that they can be triggered one after another. The first step, called the _download_ , consists in downloading the data and storing the data in a folder for raw data. The second step is the _mapping_ step in which data are mapped to Concepticon. As a result of these two steps, a concept list is written to file, containing standardized data of concepts linked to Concepticon. Both steps are triggered by adding a new folder to the collection of datasets in the original `norare-data`-folder. The name of this new folder should start with the name of the first author of the dataset, separated by a dash from the year, followed by a description of the kind of data, one must place two files in order to go ahead. Two files must be placed into this folder to get started. The first file is a metadata file that follows the CSVW standard (CSVW, https://csvw.org) and crucially provides information in JSON format for the names and content of the columns that the resulting TSV file — in which the mapped concepts are added automatically later — contains. The file itself should contain the name of the dataset, ending in `.tsv-metadata.json`. To describe the full structure of the file here would go too far. It seems sufficient to recommend to take an existing file from the other datasets that have already been added to NoRaRe and to adjust the columns in this file accordingly. The second file is a Python script that triggers how data are downloaded and how data are mapped to Concepticon with the help of two functions. This file should be called `norare.py`. Essentially, this file should contain two functions, one called `download` and one called `map`. A minimal example fo these functions is shown below. def download(dataset): pass def map(dataset, concepticon, mappings): pass In the following, these commands will be illustrated in more detail. ### 3.3 Defining the Metadata The metadata file that describes the structure of the TSV file that holds the mappings of a given resource to Concepticon plays a crucial role in the NoRaRe workflow. Its job is not only to handle the access to already mapped data. It also allows to provide active mappings between the columns of a sheet in the original data and the data that we want to create from it. Thus, the metadata sheet itself is crucial for the mapping procedure. In order to get started with such a file, it is best to start from a template. The file is named after a dataset, extended by the suffix `.tsv`, and extended by the suffix `-metadata.json`. Thus, in the case of our base template, `Template-0001-Base` would be the name of the dataset and the dataset folder, `Template-0001-Base.tsv` is the name of the data file that we want to produce (providing access to the mappings), and `Template-0001-Base.tsv-metadata.json` is the name of the metadata file, describing the data with the help of the CSVW specification. The file for our base template is shown below. { "url": "", "@context": ["http://www.w3.org/ns/csvw", {"@language": "en"}], "dc:title": "Template for Adding Data to NoRaRe.", "dc:source": "https://calclab.org/norare/example/", "dc:references" : "Template", "dcat:keyword": ["template", "example"], "dc:description": "A template file that can be used as the basis for adding new data to NoRaRe.", "dialect": { "delimiter": "\t", "encoding": "utf-8", "header": true }, "tables": [ { "tableSchema": { "columns": [ { "name": "CONCEPTICON_ID", "datatype": "integer" }, { "name": "CONCEPTICON_GLOSS", "datatype": "string" }, { "name": "GERMAN", "datatype": "string", "titles": "word" }, { "name": "GERMAN_FLOATS", "datatype": {"base": "float"}, "titles": "Floats" }, { "name": "GERMAN_INTEGERS", "datatype": "nonNegativeInteger", "titles": "Integers" }, { "name": "GERMAN_STRINGS", "datatype": "string", "titles": "Strings" }, { "name": "GERMAN_JSON", "datatype": "json", "titles": "JSON" } ], "foreignKeys": [ { "columnReference": "CONCEPTICON_ID", "reference": { "resource": "../concepticon.tsv", "columnReference": "ID" } } ], "aboutUrl": "http://concepticon.clld.org/parameters/{CONCEPTICON_ID}" }, "url": "Template-0001-Base.tsv" } ] } The first lines of this file, up to the `tables` key provide some basic metadata information on the dataset, allowing users to add some description of the data, a title, and keywords. The `tables` key provides access to the actual tables of the data. A table is defined by a schema (`tableSchema`) and a `url` (the path to the file, identical with the file name in this case). "tables": [ { "tableSchema": {}, "url": "Template-0001-Base.tsv" } ] The table schema consists of three objects, `columns`, `foreignKeys`, and `aboutUrl`. While the latter two can be left unchanged, the `columns` must be specified for the target dataset. Each column is represented by a dictionary of key-value pairs, of which three are regularly used in NoRaRe datasets, namely `name`, `datatype`, and `titles`. The key `name` refers to the target name of the column in the corresponding TSV file that one wants to create. The key `datatype` defines the type of the data in the cell. For the representation of datatypes, there are numerous options in CSVW, one can specify minimum and maximum values, patterns by regular expressions, different kinds of numbers, and boolean data. One can even — and this is important for all kinds of data where “normal” datatypes do not suffice, use JSON as a datatype. This offers the possibility to render complex objects, which comes in handy when dealing with concept relations (Bocklage et al. 2024). The `titles` key in the column specification of CSVW metadata files plays an important role in NoRaRe, since it is used to provide a direct mapping between the columns in a source CSV file and the target CSV file produced by the mapping procedure of NoRaRe. Thus, in our sample metadata file, we have two target columns `GERMAN` and `GERMAN_FLOATS`, with the titles `word` and `Floats`, respectively, as shown below. { "name": "GERMAN", "datatype": "string", "titles": "word" }, { "name": "GERMAN_FLOATS", "datatype": {"base": "float"}, "titles": "Floats" }, In the internal semantics of the NoRaRe database, the `name` and `titles` attributes map the original data, the CSV file `beispiel.tsv` (which we will download in the next step) with the columns `words`, `Strings`, `Integers`, `Floats`, and `JSON`, to the NoRaRe representation of the data in the CSV file `Template-0001-Base.tsv` with the columns `GERMAN` (`words`), `GERMAN_STRINGS` (`strings`), `GERMAN_INTEGERS` (`Integers`), `GERMAN_FLOATS` (`Floats`), and `GERMAN_JSON` (`JSON`). In order to create the metadata file, it has been shown to be the best strategy to use a template (as the one shown here), and to modify it subsequently, by adding or removing columns, and by modifying or refining the datatypes, target names, and titles. As a rule, a NoRaRe dataset should consist of two columns providing information on Concepticon mappings (`CONCEPTICON_ID` and `CONCEPTICON_GLOSS`), one column providing information on the actual words or concept glosses (`GERMAN` in our example), and one or more additional columns providing information on norms, ratings, or relations. In order to understand how complex datatypes can be defined, it is recommended to study the information provided on the CSVW website (https://w3c.github.io/csvw/primer/#new-datatypes) or to check out the examples that we provide in NoRaRe itself. Obviously, datatypes would be a good example for a further extension of the NoRaRe templates that would, however, go beyond the state of this study. ### 3.4 Downloading Original Data The download command — when triggered with actual code — takes the variable `dataset` as input. This variable will be passed from the commandline when calling `norare download DATASET`, where `DATASET` stands for the name of the dataset that one wants to add. The `dataset` variable itself is an object that offers additional functions that allow for a convenient downloading of data and storing the downloaded data in a folder `raw`, without having to do this explicitly in the code. Thus, one can extend the base function as shown below, in order to download the TSV file `example.tsv` from the URL `https://calclab.org/examples/example.tsv`. def download(dataset): dataset.download_file( 'https://calclab.org/examples/example.tsv', 'beispiel.tsv') This command can be initiated by typing the following command in the terminal. $ norare --norarepo=norare-template --repos=concepticon-data download Template-0001-Base This will download the respective file from the website and store it in a folder `raw`, assigning it the name `beispiel.tsv` in that very folder. There are more possibilities to download data. For example, you can download and unzip a file directly, using the `dataset.download_zip` command, that takes three arguments as input: the original URL of the dataset (ending in `.zip`), the target name that you want to give to the data, and the file that you want to extract from the repository itself. An example is included in the template `Template-0001-Base`, where the code for download actually downloads two files, the file `examples.tsv` and the file `beispiel2.tsv` from the zipped archive `example.zip`. def download(dataset): dataset.download_file('https://calclab.org/examples/example.tsv', 'beispiel.tsv') dataset.download_zip("https://calclab.org/examples/example.zip", "example.zip", "beispiel2.tsv") If you do not want to download data, or if you do not need to download data, you can leave the map-command empty, by adding a `pass` statement under the function. def download(dataset): pass In addition, you can place the data in their original form into the `raw` folder and submit it to the repository. This may be useful in those cases where you have small datasets that can be openly shared. ### 3.5 Mapping Data Automatically Data in NoRaRe must be mapped to Concepticon, since the links to Concepticon are the major way to compare information on particular concepts across languages. There are basiclly two ways in which you can proceed in order to map your concepts. On the one hand, you can use the integrated functions for automated concept mapping that come along with NoRaRe and Concepticon itself. On the other hand, you can use custom procedures to map your concepts, or you could even manually map your concepts to Concepticon, provide the information in the original data or in the `raw` folder or take the information from projects like Concepticon, and later create the NoRaRe dataset without using the automated mapper shipped along with NoRaRe. As an example for the typical usecase where we start from some dataset providing norms or ratings in some language, let us look at the template `Template-0001-Base` that builds on automated mapping with the help of the following map-command. def map(dataset, concepticon, mappings): sheet = dataset.get_csv( 'beispiel.tsv', delimiter="\t", dicts=True ) dataset.extract_data( sheet, concepticon, mappings, gloss='GERMAN', language='de' ) The map function here takes three arguments as input, `dataset`, `concepticon`, and `mappings`. As a NoRaRe user, you do not necessarily need to care for their internal structure, since they are provided by the commandline procedure. The argument `dataset` is the same complex object providing access to various routines that we also used in the download procedure. The `concepticon` argument provides access to the PyConcepticon API (Forkel et al. 2024, https://pypi.org/project/pyconcepticon). This means one can access any datapoint and concept list that Concepticon offers in the version that one selects from the commandline. It also means one can _enrich_ a given dataset from Concepticon with additional data in NoRaRe. The `mappings` argument provides access to the mappings from Concepticon. These mappings are extracted from all concept lists that are linked by a respective Concepticon version and allows to check, to which Concepticon ID and Concepticon Gloss a given word in a given language with a given part of speech (if available) is linked in the Concepticon project. The mappings in this form provide the core of all the mappings used in NoRaRe. The code that we added to implement the map functions consists itself of two functions, both provided by the `dataset` object. First, we extract the data from the CSV-file `beispiel.tsv`, stored in the `raw` folder (the file that we just downloaded), with the help of the `dataset.get_csv` function (where we indicate that the separator of the CSV-file is a tabstop). The resulting `sheets` object is a list of ordered dictionaries in Python, that represents cells as key-value pairs, with column names as keys, and cell content as values, as shown below for clarity. [ OrderedDict( { 'word': 'Hand', 'Floats': '1.2', 'Integers': '1', 'Strings': 'eine Hand', 'JSON': '{"name": "hand"}' } ), OrderedDict( { 'word': 'Fuß', 'Floats': '1.3', 'Integers': '2', 'Strings': 'ein Fuß', 'JSON': '{"name": "Fuß"}' } ), OrderedDict( { 'word': 'Stadt', 'Floats': '1.5', 'Integers': '3', 'Strings': 'eine Stadt', 'JSON': '{"name": "city"}' } ), OrderedDict( { 'word': 'Apfel', 'Floats': '1.5', 'Integers': '3', 'Strings': 'eine Stadt', 'JSON': '{"name": "city"}' } ), OrderedDict( { 'word': 'Arm', 'Floats': '1.2', 'Integers': '1', 'Strings': 'eine Hand', 'JSON': '{"name": "hand"}' } ) ] Then, we use the command `dataset.extract_data` to map the data automatically to Concepticon and only retain those lines in the original data that can be mapped. The `extract_data`-command itself employs the mappings between the column names of the original data and the column names of the target CSV file that was discussed before in §3.3. Taking the `sheet` that we just extracted before as input, as well as the `concepticon` object, and the `mappings`, that the `map`-function receives from the commandline usage of NoRaRe, the method uses the information on the `gloss` field (which refers to the name that this column will receive in the target language, thus aiming at the German word forms in the original column `words` in our sample data) and the `language` (represented for the major languages by a two-letter code) in order to assess which of the Concepticon concept receives the highest score in the automated mapping procedure. If no mapping is found, this word form will _not_ be written to the target file. Furthermore, each word form is mapped to maximally one Concepticon concept set. In order to check how well the automated mapping procedure works, one just has to trigger the command of the base template, passing the paths to the NoRaRe template folder and the Concepticon data folder along with the map command and the name of the dataset one wants to map, as shown below. norare --norarepo=norare-template --repos=concepticon map Template-0001-Base The resulting mapping will be written to the file `Template-0001-Base.tsv`, which is the file that we have already described through our CSVW metadata file. The first four columns of this file are shown below in Table 1. Table 1: Output of the automated concept mapping. CONCEPTICON_ID | CONCEPTICON_GLOSS | GERMAN | GERMAN_FLOATS ---|---|---|--- 1277 | HAND | Hand | 1.2 1301 | FOOT | Fuß | 1.3 1320 | APPLE | Apfel | 1.5 1391 | TOWN | Stadt | 1.5 1673 | ARM | Arm | 1.2 As can be seen, the automated mapping procedure identifies Concepticon glosses for all five German words and writes all columns that we defined in the metadata file to the new file. While these mappings themselves are considerably easy to achieve, it is always recommended to be careful with the trust in automated mappings. While we currently assume that the errors fall below a margin of 10%, we have not yet carried out detailed error statistics. Our trust in the mapping algorithm is rather based on our concrete experience in using the algorithm to preprocess large Concepticon concepts lists (Tjuka et al. 2023). ### 3.6 Mapping Data Explicitly While the automated mapping procedure described in the previous section works well and sufficiently in most cases, there may be situations in which one does not want to resort to automated mapping. On the one hand, one might have access to better mappings, for example, produced by manual data curation. On the other hand, one might want to use a method different from the standard one to produce the mappings in question. The NoRaRe data curation workflow allows for this flexibility, which we illustrate in the template dataset `Template-0002-Manual`, as part of our initial template collection for NoRaRe. This template uses the same metadata file (with the exception that the file name has changed to the name of the template). It also employs the same download routine. What differs, is the mapping routine, which makes use of the PySem package (List 2025, https://pypi.org/project/pysem/), introduced in List (2022), which can be installed with the help of `pip` (`pip install pysem`). The modified mapping routine that makes explicit use of the `to_concepticon` function in PySem is illustrated below. def map(dataset, concepticon, mappings): sheet = dataset.get_csv( 'beispiel.tsv', delimiter="\t", dicts=True ) # get mapping from old to new column names s2t = {str(c.titles): c.name for c in dataset.columns if c.titles} table = [] for row in sheet: maps = to_concepticon( [ { "gloss": row["word"], }, ], language="de" ) if maps[row["word"]]: cid, cgl, pos, sim = maps[row["word"]][0] table += [{ "CONCEPTICON_ID": cid, "CONCEPTICON_GLOSS": cgl, s2t["word"]: row["word"], s2t["Floats"]: row["Floats"], s2t["Integers"]: row["Integers"], s2t["Strings"]: row["Strings"], s2t["JSON"]: row["JSON"] }] dataset.write_table(table) While the routine to load the data from the CSV file remains the same here, the difference lies in the way in which the target NoRaRe dataset is written to a table. Here, the code first explicitly extracts the information on the mapping from source to target column headers, storing them in the dictionary `s2t`. It then creates an empty list called `table` and afterwards iterates over all individual entries in the source table, mapping all entries automatically with the help of PySem’s modified mapping routine. This table is a list of dictionaries whose keys correspond to the new column headers that we want to write to the target CSV file defined by the CSVW metadata file. The table itself can then be written to the target file with the help of the command `dataset.write_table`. This command takes the table as input and takes essentially care of all the rest. This means, among others, that only those columns that were defined in the CSVW metadata file will be written to the target spreadsheet. Columns defined in the metadata but not present as keys in the dictionary will be left empty. For this reason, it is important to check the resulting data thoroughly, since spelling errors can easily slip in when creating and modifying the metadata. The method to write a table explicitly outlined here can be used in all those cases where the NoRaRe data one wants to produce differs from the standard datasets that one encounters so far in NoRaRe. Allowing for this flexibility with new datasets that have not been encountered before has the advantage that it allows us to explore new datatypes for NoRaRe and later decide if we write new regular routines to map them. When dealing with concept networks, for example, it may well be that we add a more targeted routine in the future, even if for now we add them explicitly in NoRaRe. ## 4 Creating New Data from Templates ### 4.1 Checklist for the Creation of NoRaRe Datasets NoRaRe datasets require more integration beyond the dataset folder (whose structure was described before in due detail). Table 2 gives a short checklist that can be used when creating new NoRaRe datasets, indicating all those places where things need to be modified. Table 2: Checklist for the different steps needed to integrate a dataset in NoRaRe. Operation | File | Note ---|---|--- Create dataset folder. | `datasets/DATASET` | Follow specific naming conventions. Create Python file in dataset folder. | `datasets/DATASET/norare.py` | Add `download` and `map` commands. Create CSVW metadata file in dataset folder. | `datasets/DATASET/DATASET.tsv-metadata.json` | Use `titles` and `names` to link column names. Add dataset to the list of datasets. | `datasets.tsv` | Fill in all fields, pay attention to the `ID` and `REFS`. Add reference to the bibliography. | `references/references.bib` | Use the key that was used in the `REFS` column of `datasets.tsv`. Download dataset. | `norare download DATASET` | Run the command to make sure the download routine works as expected. Map dataset. | `norare map DATASET` | Run the command to make sure the mapping proceeds as expected. Validate dataset. | `norare validate DATASET` | Run the command to make sure the data validates (also check manually by inspecting the TSV file). This checklist falls short in _describing_ the data in the file `norare.tsv`. This means the data can be accessed via the NoRaRe API and individual scripts can be written to integrate the data in scientific programming routines. Only by adding information on the individual columns in `norare.tsv`, however, we can make sure that the data can be identified and compared with similar datapoints. The details of how to add this column-specific information are not discussed here, since our initial templates concentrate for now only on the dataset creation. In the future, we may add more examples that also show how the data can be further integrated. ### 4.2 Basic Tips for Generating Derived Datasets If you want to derive your own datasets from one of the templates introduced above, the first step that I can recommend would consist in locating the data, ideally finding a regular URL from which they can be downloaded, and a reference that can be cited. As next step, you would determine the name of the dataset, as a combination of the family name of the first author, along with the year of the publication, and a short name that introduces the data. With this information, you can then create a folder in the `norare-template` directory, add a first draft `norare.py` script and copy and paste one of the sample metadata files that we provide in the `norare-template` folder. Having determined how to download the data (if regular download does not work and the data are distributed with open licenses, you can also simply paste them to the `raw` folder of the dataset directory), one would then elaborate how to map the data to Concepticon. When working with automated mapping procedures, one would first determine the relation between the columns of the original spreadsheet and the columns that one wants to define in the target table. After adding these relations to the metadata file, one could start experimenting with an initial mapping routine. If the data are more complex in nature, or if mappings are also available independently, one would have to write code that loads the data and converts them to the tables along with mappings to Concepticon, as illustrated in §3.6. Before running any mapping or download commands, the reference would have to be provided in BibTeX format and the dataset would have to be described properly in the CSV file that stores information on all individual datasets. Having created a dataset that passes both individual and general tests, it will be straightforward to copy-paste the folder and the modified lines to the original NoRaRe data, currently curated on GitHub (https://github.com/concepticon/norare-data). From there, one would then make a pull request and hope for a quick and productive review process by the NoRaRe team. ## 5 Outlook In the future, we hope to find time to add more templates to NoRaRe in order to illustrate how particular types of data can be handled. While NoRaRe itself provides plenty examples of how data has been handled in the past by us, we are aware that it may be confusing for new contributors to build directly on these examples when trying to integrate their own data into the NoRaRe catalog. Since we hope to be able to integrate quite a few more datasets on concept relations in the future, we will need better tutorials that help contributors to get started with NoRaRe. The templates can be understood as a first step towards this goal. We hope that we also will find time to follow up with tutorials that illustrate more broadly how NoRaRe can be put to active use. ## References Ahmedović, Mira (2025): Handling Non-Standard Datasets in NoRaRe: A Practical Guide. _Computer-Assisted Language Comparison in Practice_ 8.1. 17–23. https://doi.org/10.15475/calcip.2025.1.3 Bocklage, Katja and Di Natale, Anna and Tjuka, Annika and List, Johann-Mattis (2024): Representing the Database of Semantic Shifts by Zalizniak et al. from 2024 in Cross-Linguistic Data Formats. _Computer-Assisted Language Comparison in Practice_ 7.1. 25-35. https://doi.org/10.15475/calcip.2024.1.4 Robin Gower (2021): CSV on the Web. Stirling: Swirrl. https://csvw.org List, Johann-Mattis and Tjuka, Annika and Blum, Frederic and Kučerová, Alžběta and Barrientos Ugarte, Carlos and Rzymski, Christoph and Greenhill, Simon J. and Robert Forkel (2025): CLLD Concepticon [Dataset, Version 3.3.0]. Leipzig: Max Planck Institute for Evolutionary Anthropology. https://concepticon.clld.org List, Johann-Mattis (2022): How to Map Concepts with the PySem Library. _Computer-Assisted Language Comparison in Practice_ 5.1. 1-5. https://calc.hypotheses.org/3193 List, Johann-Mattis and Hill, Nathan W. and Forkel, Robert (2022): A new framework for fast automated phonological reconstruction using trimmed alignments and sound correspondence patterns. In: Proceedings of the 3rd Workshop on Computational Approaches to Historical Language Change. Association for Computational Linguistics 89-96. https://aclanthology.org/2022.lchange-1.9 Forkel, Robert and Rzymski, Christoph and List, Johann-Mattis (2024): PyConcepticon [Python library, Version 3.1.0]. Leipzig: Max Planck Institute for Evolutionary Anthropology. https://pypi.org/project/pyconcepticon Forkel, Robert and List, Johann-Mattis (2024): PyNoRaRe [Python library, Version 1.1.0]. Passau: MCL Chair at the University of Passau. https://pypi.org/project/pynorare List, Johann-Mattis (2025): PySem: Python library for handling semantic data in linguistics [Software, Version 1.2.1]. Leipzig: Max Planck Institute for Evolutionary Anthropology. https://pypi.org/project/pysem Tjuka, Annika and Forkel, Robert and List, Johann-Mattis (2022): Linking norms, ratings, and relations of words and concepts across multiple language varieties. _Behavior Research Methods_ 54.2. 864–884. https://doi.org/10.3758/s13428-021-01650-1 Tjuka, Annika and Forkel, Rober and List, Johann-Mattis (2023): Curating and extending data for language comparison in Concepticon and NoRaRe [version 2; peer review: 2 approved]. _Open Research Europe_ 2.141. https://doi.org/10.12688/openreseurope.15380.3 **Cite this article as:** List, Johann-Mattis (2025): “Illustrating Data Curation in NoRaRe with the Help of Templates” in _Computer-Assisted Language Comparison in Practice_ , 8.2: 65-80 [first published on 25/08/2025], URL: https://calc.hypotheses.org/8723, DOI: 10.15475/calcip.2025.2.2. **Download the article as PDF:** calcip-08-2-2.pdf **Copyright information** : This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. **Supplementary Materials** : NoRaRe template data are curated on Codeberg (https://codeberg.org/digling/norare-template, Version 0.1) and archived with Zenodo (https://doi.org/10.5281/zenodo.16902395). **Funding Information** : This project has received funding from the European Research Council (ERC) under the European Union’s Horizon Europe research and innovation programme (Grant agreement No. 101044282). The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript. * * * OpenEdition suggests that you cite this post as follows: Johann-Mattis List (August 25, 2025). Illustrating Data Curation in NoRaRe with the Help of Templates. _Computer-Assisted Language Comparison in Practice_. Retrieved August 26, 2025 from https://doi.org/10.58079/14hwi * * * * * * * *
calc.hypotheses.org
August 26, 2025 at 11:59 AM
Mein Blogbeitrag im August, via @dehypotheses befasst sich mit Ambiguitäten von bestimmten sprachlichen Konstruktionen.

Von subjektiven und objektiven Fällen

https://wub.hypotheses.org/?p=2928
August 7, 2025 at 4:24 AM
Our team's papers at SIGTYP@ACL Vienna are online now.

"Robustness of Concept Translations in the Compilation of Multilingual Wordlists" by Snee et al.
https://aclanthology.org/2025.sigtyp-1.3/

"Compositional Structures in Numeral Systems Across Languages" by Rubehn et al […]
Original post on hcommons.social
hcommons.social
July 27, 2025 at 5:42 AM

It is official, our two long papers at #acl2025 have now been published. Common work with Arne Rubehn (Concept Embeddings), and Frederic Blum and
Steffen Herbold
(Automated Language Affiliation).

https://aclanthology.org/2025.acl-long.1004/

https://aclanthology.org/2025.acl-long.876/
Partial Colexifications Improve Concept Embeddings
Arne Rubehn, Johann-Mattis List. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025.
aclanthology.org
July 23, 2025 at 10:41 AM
New blog post in our CALCiP journal. Kellen Parker van Dam presents a CLDF version of legacy material on Muishaung, a Sino-Tibetan language.

https://doi.org/10.15475/calcip.2025.2.1

https://calc.hypotheses.org/8624
Digitizing Legacy Lexical Data of Muishaung for Computer-Assisted Language Comparison
This study describes the process of digitizing legacy materials into a computer-readable format for the purposes of computational typology and computer-assisted historical reconstruction. It presents a comparative wordlist that is made available in the formats recommended by the Cross-Linguistic Data Formats initiative. # 1 Needham’s “ _A collection of a few Môshâng Nâgâ words”_ The original publication, _A collection of a few Môshâng Nâgâ words_ (Needham 1897) provides the first written account of Muishaung (Glottolog: mosa1240), a Tibeto-Burman language spoken Arunachal Pradesh, India as well as neighbouring regions of Sagaing Region, Myanmar. Data were collected during a trip made by Needham to the Muishaung area in 1881. Today Muishaung is estimated to have around 2000 speakers in India, with an uncertain population size in Myanmar. This is one of a handful of texts written by Needham at the time. The others include similar descriptions of Tai Khamti and Singpho. Needham’s text includes 264 concepts — although with some minor misunderstandings around which concepts were actually being provided by speakers — along with basic grammatical notes on topics such as gender, verbal morphology and the pronominal system. Aside from being the earliest known account of any Tangsa-Nocte variety, Needham’s text provides valuable insights into historical sound change in the region; Muishaung is one of over two-dozen closely related language varieties within Tangsa-Nocte, but significantly it is the most phonologically divergent of the group. For example, it has innovative dental stops, including a split between /n/ and /n̪/ not seen elsewhere in the group, analogous to the /t/ and /t̪/ pair as reflexes of _*t_ and _*ð_ respectively. It also shows a split between /g/ and /ɣ/ as reflexes of *ɣ, and finally, Muishaung has been undergoing a process of vowel fracture not seen elsewhere among the closely related varieties. Access to historical texts such as Needham’s allow us to better understand the timing of such changes and the possible mechanisms behind them. For this reason, proper analysis of such descriptions is important. By developing computer-readable versions of such data sets, we are better able to include them in comparative work. With somewhat inconsistent orthographic conventions (many of which are never described by the author) along with some clear mistakes in the data which were elicited, the full value of Needham’s text is not apparent without a more in-depth investigation. This was done in van Dam & Mossang (2025), which analyzed the entirety of the text. This study undertook careful investigation into the terms given through comparison to modern-day forms of the concepts and reconstructed proto-forms. The full study is available as an open-access publication in the _Journal of Asian and African Studies_ published by the Tokyo University of Foreign Studies. # 2 Data Availability as a CLDF Data Set In the process of analyzing the text, a digital version of the lexical data along with terms found in the grammatical notes was created in a flat tabular format. These were transcribed exactly as they occurred in the original text, including the use of circumflexes for marking distinctions in vowel quality and an underlined ⟨n⟩ for vowel nasalization. Needham’s transcription was then converted to IPA and paired with modern-day pronunciations for cases in which cognates are attested today. In those instances where no modern-day cognate was found, the term which replaced the form in Needham’s time was given. In an additional step, the data from the flat tabular format were converted to the formats recommended by the Cross-Linguistic Data Formats (CLDF) initiative (Forkel et al. 2018, https://cldf.clld.org), using the workflow for the handling of comparative wordlists developed for the Lexibank repository (List et al. 2022, Blum et al. 2025, https://lexibank.clld.org). The CLDF dataset also includes all comments given in the original text, of which where were a few, along with notes by the authors of the 2025 study indicated cases where Needham may have elicited a term other than what was intended. For example in eliciting ‘flea’, the term given was actually one for ‘cat’, perhaps the result of gesturing toward a flea-infested feline at the time of elicitation. An example of the Forms table, with some columns removed here for the sake of saving space, is seen here: Local_ID | Form | Segments | Comment | Source ---|---|---|---|--- MuishaungNeedham-1_above-1 | rʌŋ | r ʌ ŋ | Shâng´gê is distant from Môshâng about 20 miles, much less as the crow flies. J.N. | Needham1897 MuishaungModern-1_above-1 | rɐuŋ₂ | r ɐu ŋ ₂/²³¹ | | VanDam2025 MuishaungNeedham-2_acid-1 | ɑ.hiˀ | ɑ + h i ˀ/ʔ | | Needham1897 MuishaungModern-2_acid-1 | ə₀hi₂ | ə ₀/⁰ h i ₂/²³¹ | | VanDam2025 MuishaungNeedham-3_all-1 | wʌ.tɒŋ | w ʌ + t ɒ ŋ | | Needham1897 MuishaungModern-3_all-1 | βə₀tɐuŋ₂ | β ə ₀/⁰ t ɐu ŋ ₂/²³¹ | | VanDam2025 An orthography profile was also created, and all concepts were mapped to the corresponding CONCEPTICON IDs (List et al 2025) where applicable. Language varieties are also linked to their corresponding Glottocodes (Hammarström et al 2025) to facilitate language identification. # 3 Next Steps In addition to forms given for Muishaung, the original text also includes a number of words from the Shecyü variety under the name Shâng´gê, Needham’s representation of the common exonym Shangke (Glottolog: sank1250). Occasionally forms are also given for Singpho, a distantly related Tibeto-Burman language, as well as Tai Hkamti, a Kra-Dai variety. In addition to Needham’s Muishaung description, he also published texts on Singpho and Tai Hkamti, and was thus knowledgable about both. He regularly included reference to these languages in cases where he felt the term in Muishaung was borrowed from one or the other, although in some cases with Singpho he was simply identifying cognate terms. In a future version of the data set, these forms will be fully encoded with both Needham’s orthographic representation and its corresponding IPA form, as well as the modern-day equivalents. This is intended to be published as an update to the current dataset in order to further support computer-assisted cross-linguistic comparative work. # References Blum, Frederic, Carlos Barrientos, Johannes Englisch, Robert Forkel, Simon Greenhill, Christoph Rzymski, and Johann-Mattis List (2025): Lexibank 2: pre-computed features for large-scale lexical data [version 2; peer review: 3 approved]. _Open Research Europe_ 5.126. 1-19. https://doi.org/10.12688/openreseurope.20216.2 van Dam, Kellen Parker and Kelim Mossang, Wanglung. (2025a). A Classified Account of J. F. Needham’s A Collection of A Few Môshâng Naga Words. In: Journal of Asian and African Studies 2025 (109), 111-145. https://doi.org/10.57275/ilcaajaas.2025.109_111 van Dam, Kellen Parker and Kelim Mossang, Wanglung (2025b). Supplementary materials for van Dam & Kelim Mossang 2025 [Data set, Version 1.0.0]. In Journal of Asian and African Studies (Vol. 109, pp. 111–145). Zenodo. https://doi.org/10.5281/zenodo.14053893 Forkel, Robert, Johann-Mattis List, Simon Greenhill, Christoph Rzymski, Sebastian Bank, Michael Cysouw, Harald Hammarström, Martin Haspelmath, Gereon Kaiping, and Russell D. Gray (2018): Cross-Linguistic Data Formats, advancing data sharing and re-use in comparative linguistics. _Scientific Data_ 5.180205. 1-10. https://doi.org/10.1038/sdata.2018.205 Hammarström, Harald, Robert Forkel, Martin Haspelmath, and Sebastian Bank (2025): Glottolog [Dataset, Version 5.2], Leipzig: Max Planck Institute for Evolutionary Anthropology. https://glottolog.org List, Johann Mattis, Annika Tjuka, Frederic Blum, Alžběta Kučerová, Carlos Barrientos, Christoph Rzymski, Simon Greenhill, and Robert Forkel (2025): _CLLD Concepticon_ [Data set, Version 3.4.0]. Leipzig: Max Planck Institute for Evolutionary Anthropology. https://concepticon.clld.org List, Johann-Mattis, Robert Forkel, Simon Greenhill, Christoph Rzymski, Johannes Englisch, and Russell D. Gray (2022): Lexibank, A public repository of standardized wordlists with computed phonological and lexical features. _Scientific Data_ 9.316. 1-31. https://doi.org/10.1038/s41597-022-01432-0 Needham, J. F. (1897). _A collection of a few Moshang Naga words_. Shillong: Assam Secretariat Printing Office. https://archive.org/details/collectionoffewm00needrich **Cite this article as:****** van Dam, Kellen Parker (2025): “Digitizing Legacy Lexical Data of Muishaung for Computer-Assisted Language Comparison” in _Computer-Assisted Language Comparison in Practice_ , 8.2: +++ [first published on 23/07/2025], URL: https://calc.hypotheses.org/8624, DOI: 10.15475/calcip.2025.2.1. **Download the article as PDF:** calcip-08-2-1.pdf **Copyright information** : This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. **Supplementary Materials** : Code and data are curated on GitHub (https://github.com/phonemica/needhammuishaung, Version 1.0.0) and archived with Zenodo (https://doi.org/10.5281/zenodo.14053893). * * * OpenEdition suggests that you cite this post as follows: Kellen Parker van Dam (July 23, 2025). Digitizing Legacy Lexical Data of Muishaung for Computer-Assisted Language Comparison. _Computer-Assisted Language Comparison in Practice_. Retrieved July 23, 2025 from https://calc.hypotheses.org/8624 * * * * * * * *
calc.hypotheses.org
July 23, 2025 at 9:09 AM
Mein Blogbeitrag im Juli via @dehypotheses geht auf die Grundeinstellung zur Sinnhaftigkeit der eigenen Forschung bei Geistes- und Naturwissenschaften ein und berichtet ein bisschen von meinen eigenen Erfahrungen.

"Von der Einstellung"

https://wub.hypotheses.org/2895
Von der Einstellung
Von meiner Grundeinstellung her bin ich eigentlich immer ein gut gelaunter Mensch gewesen. Es gibt Tage, an denen ich ein bisschen mies drauf bin, aber meist freue ich mich beim Aufstehen, egal wie früh das ist, einfach darauf, eine Tasse Kaffee trinken zu können, und beim Schlafen gehen freue ich mich dann oft auf die nächste Tasse Kaffee am Morgen. Was mir Freude macht ist dabei nicht beschränkt auf den Kaffee allein. Auch ein Morgen ohne Kaffee muss nicht zwangsläufig meine Stimmung senken. Vielmehr sind es die vielen kleinen und etwas größeren Probleme, die mir der Tag in Form von wissenschaftlichen Problemchen bereithält, von denen ich hoffe, dass ich sie wenigstens in Teilen lösen kann. Ich habe diese Freude eigentlich immer für meine Arbeit empfunden, auch wenn es nicht einfach war, diesem Karriereweg zu folgen. Als ich begann, Indogermanistik zu studieren, da verkündete der Lehrstuhlleiter, dass der Lehrstuhl mit seiner Pensionierung in einigen Jahren geschlossen werden würde. Dies gefährdete meinen Abschluss nicht, aber es war klar, dass das Studium eines Faches, welches die Universität nicht weiter fortführen möchte, vielleicht nicht die beste Idee ist, wenn man den Wunsch hegt, eine wissenschaftliche Karriere darauf zu begründen. Gleich mit dem Beginn meines Studiums wurde mir also schon sehr deutlich vor Augen geführt, dass die Welt an den Erkenntnissen in diesem Bereich — mögen sie nun von mir oder anderen Menschen gemacht werden — im Moment zumindest nicht besonders viel Interesse zu haben schien. Dass kaum jemand verstehen konnte, was ich eigentlich erforschte, wenn ich zu den Sanskritkursen der Indologen ging, oder versuchte, bei den Gräzisten Inschriften uralter griechischer Dialekte zu übersetzen, machte die Situation für mich nicht unbedingt leichter. Ich sah mich viel zu oft dem Zwang ausgesetzt, zu rechtfertigen, warum ich mich für etwas so Abgehobenes und Unsinniges interessierte, wie die Geschichte von Sprachen. Hätte ich nicht nebenbei noch Sinologie studiert und in Shànghǎi Chinesisch gelernt — ein Fach, das damals einen relativen Boom erlebte, weil alle fasziniert waren von den schönen Schriftzeichen und der endlos wachsenden chinesischen Wirtschaft — dann wäre es mir wohl wirklich schlecht ergangen als Student eines Fachs, das als Berufsperspektive nur die wissenschaftliche Karriere anzubieten hat und dazu im Begriff ist, aus den Universitäten zu verschwinden. Auch nach dem Studium wurde es zunächst nicht leichter für mich. Trotz einer Vielzahl von Bewerbungen, die ich versandte, schaffte ich es einfach nicht, eine Stelle zu finden, um meinen Doktor zu machen. So musste ich mich ein halbes Jahr mit Lektorenjobs in einer Übersetzungsagentur und Jonglierauftritten auf Weihnachstmärkten über Wasser halten, bis ich dann über reichlich Umwege eine Doktorstelle in Düsseldorf fand, die mein wissenschaftliches Leben entscheidend verändern sollte. Denn für diese Stelle wurde zum ersten Mal wirklich jemand gesucht, der nicht schon am selben Lehrstuhl studiert hatte. Zuvor hatte ich rasch bemerkt, dass viele Stellene einfach nur ausgeschrieben worden waren, um interne Kandidaten zu besetzen. Da war es am Ende ganz egal, wie viel Mühe man sich gab, oder wie gut man sich in die chinesische Dialektologie eingelesen hatte. In Düsseldorf war der interne Kandidate aber anderweitig eingestellt worden, weshalb die Stelle plötzlich wirklich frei war. Darüber hinaus suchte man eine Person, die sich mit Sprachgeschichte auskannte, und dabei vor allem wusste, wie man methodologisch vorgehen muss, um Sprachen zu vergleichen. Das war genau das Thema, mit dem ich mich in meiner Magisterarbeit auseinandergesetzt hatte (List 2008). Als ich die Stelle in Düsseldorf nach einigem Hin-und-Her am Ende dann doch mit großer Freude annahm und mich dort auch begeistert in meine Arbeit stürzte, änderte sich mein Leben als Forscher auf entscheidende Art. Nicht nur fühlte ich mich in meinen Fähigkeiten, die ich mitbrachte, endlich anerkannt, ich lernte auch, diese rasch auf eine ganz entscheidende Art weiter auszubauen: ich lernte, zu programmieren. Während meine ersten Versuche noch holprig waren und ich — zum Schock meines programmiererfahrenen Cousins — Codezeilen redundant mehrere tausende Male leicht verändert in dasselbe Skript schrieb, weil ich nicht wusste, wie man einen _Loop_ schreibt, so merkte ich doch rasch, wie sehr mich die Welt der Bits und Bytes faszinierte. Bald schlief ich mit dicken Lehrbüchern zur Shellprogrammierung auf dem Bauch ein, die man heute — wenn überhaupt — wohl nur noch auf dem Tablet lesen würde. Ich las Einführungsbücher zur Datenbankprogrammierung, beschäftigte mich mit dem Terminal und begann vor allem meine Fähigkeiten in der Programmiersprache Python immer weiter auszubauen. Meine erste wirkliche Publikation, die ich im Jahr 2010 veröffentlichte, beinhaltete schon die Grundlagen des Codes, der später in die LingPy-Bibliothek einfließen sollte, die zum Kernbeitrag meiner Dissertation wurde (List 2014) und inzwischen in Version 2.6.13 erschienen ist (List und Forkel 2024). Aber trotz des vermeintlichen Tempos, das ich beim Programmierenlernen vorlegte, sind meine Kenntnisse eigentlich immer noch gefühlt sehr rudimentär geblieben. Zumindest gibt es noch immer eine Menge Menschen, zu denen ich voller Ehrfurcht aufschaue, weil sie so viel mehr vom Programmieren verstehen als ich. Dieses Gefühl ist aber im Grunde ein sehr Schönes, denn es heißt, dass es für mich noch viel zu lernen gibt, und die faszinierende Reise in die Welt des Programmierens noch nicht am Ende angekommen ist. Es heißt auch, dass ich trotz meines wachsenden akademischen Alters immer noch Mentoren finden kann, die mir in meiner Arbeit helfen und denen ich vertrauen kann, dass sie mehr wissen als ich. Das Programmieren lehrte mich, anders zu denken. Ich begann meine Studien anders zu strukturieren, ich orientierte mich mehr daran, auf die Lösung von Problemen in meiner Forschung abzuzielen, anstatt Probleme lediglich zu beschreiben oder zu zerreden. Ich habe — zumindest für meine eigene Arbeit — eine gewisse Abneigung gegenüber dem entwickelt, was man in der Linguistik zuweilen als “theoretische Arbeiten” bezeichnet. Wenn etwas nur scheinbar formal ist und theoretische Arbeiten die konkrete Umsetzung in Code nicht anstreben, sondern sich ihr zuweilen sogar sperren, dann erinnert es mich einfach viel zu sehr an die Besinnungsaufsätze, die wir in der Schule schreiben mussten. Auch denen, die bei mir studieren und eine Hausarbeit schreiben sollten, rate ich seitdem grundlegend, ein empirisches Thema zu wählen, in dessen Rahmen sie selbst etwas tun können, anstatt mir nur den langweiligen Forschungsstand zu einem Thema zusammenzutragen. Was mich zusätzlich prägte in dieser Zeit, war, dass ich begann, Vertrauen in meine Forschung aufzubauen. Während meines Studiums hatte mich immer die Angst geplagt, es vielleicht nicht zu schaffen, mein Ziel, eine Doktorarbeit zu schreiben und Wissenschaftler zu werden, zu verwirklichen. In den Monaten der inoffiziellen Arbeitslosigkeit nach der Beendigung meines Studiums, die geprägt waren von Absagen auf gefühlt unzählige Bewerbungen, hatte ich die Hoffnung, Wissenschaftler werden und bleiben zu können, zwar nicht aufgegeben, ich war jedoch sehr ernüchtert von meinen eigenen Fähigkeiten und fühlte mich grundlegend nutzlos. Im Studium hatte ich zwar gelernt, Russisch und Chinesisch zu sprechen und die Aussprache des Altchinesischen zu rekonstruieren. Ich hatte es aber eben nicht geschafft, mich für einen normalen Job jenseits der Wissenschaft zu qualifizieren. Nicht mal ein wirklicher Übersetzer war ich, und als Straßenkünstler konnte man in Berlin kaum etwas verdienen. Durch das Programmieren hatte ich das Gefühl, endlich etwas zu lernen, was man vielleicht auch außerhalb der Wissenschaft würde nutzen können (auch wenn ich das gar nicht wollte). Als Doktorand in Düsseldorf fiel mir allmählich auf, dass ich nicht der einzige Linguist war, der sich zeitweise nutzlos fühlte. Es zeigte sich, dass fast alle, die zu dem Zeitpunkt an ihren Doktorarbeiten arbeiteten, eine relativ große Skepsis gegenüber der eigenen Disziplin hatten. Die Frage, warum man bestimmte linguistische und philosophische Probleme untersuchen sollte, verfolgte viele von uns. Sie schwebte über uns im Raum und zeigte sich immer dann, wenn mal wieder jemand beim Eintippen von Daten oder beim Lesen von Artikeln neidisch auf die Bauarbeiter oder Gärtner vor dem Fenster schaute und frustriert und manchmal auch feierlich und sehnsuchtsvoll anmerkte, dass die am Ende des Tages ja viel glücklicher sein müssten, da sie sehen könnten, was sie geschafft haben. Da unser Projekt aber interdisziplinär ausgerichtet war und ich im Team mit Biologen arbeitete, die uns helfen sollten, Computermethoden aus der Bioinformatik auf die Linguistik anzuwenden, lernte ich gleichzeitig eine ganz andere Seite der Wissenschaft kennen. Während die Linguisten mit ihren Theorien haderten, schienen mir die Biologen eigentlich immer fröhlich zu sein. Obwohl sie sich mit Fragen beschäftigten, deren Potenzial, Konsequenzen für die Welt zu haben, sicher genauso gering war, wie das Potenzial der Fragen der Sprachwissenschaftler, schien sie das eigentlich nie wirklich zu jucken. Sie zweifelten nicht an sich. Sie programmierten fröhlich vor sich hin, lachten über ihren Code, grillten den ganzen Sommer auf dem Balkon ihres Instituts und tranken dabei Bier, und freuten sich, wenn jemand einen Artikel in einer großen Zeitschrift landen konnte. Ich weiß nicht woran es lag, dass die Biologen immer so fröhlich waren, aber als ich nach meiner ersten Post-Doc-Stelle ein Stipendium in Paris antrat, wo ich in zwei “Labs” arbeitete, einem linguistischen und einem biologischen, da war es nicht groß anders. Wenn jemand eine ernste Miene machte, über die Arbeit stöhnte und unzufrieden herumlief, dann war es mit großer Wahrscheinlichkeit eine Linguistin oder ein Linguist. Wenn jemand fröhlich pfeifend im viel zu engen Büro vor seinem Computer saß und die Kolleginnen und Kollegen zur Seite mit nerdigen Witzen ablenkte, dann war es mit großer Wahrscheinlichkeit eine Biologin oder ein Biologe. Heute denke ich, dass der Unterschied zwischen Biologen und Linguisten (oder allgemeiner vielleicht sogar der Unterschied zwischen Natur- und Geisteswissenschaftlern) im Selbstverständnis der Disziplinen liegt. In den Naturwissenschaften zweifelt man selten daran, dass das, was man tut, sinnvoll ist. Man scheint auf die Kumulativität von Wissen zu vertrauen. Wer eine Amöbe erforscht, rettet damit keine Elefanten, aber das Wissen trägt dazu bei, unser Wissen um Lebewesen zu steigern und kann indirekt oder direkt nicht nur zu neuen Erkenntnissen, sondern auch zu neuen Innovationen führen. In den Geisteswissenschaften, die ja oft weniger Forschungsgelder einwerben, weniger prominent publizieren, und auch von der Geselleschaft weniger wohlwollend beobachtet werden, scheinen die Zweifel am eigenen Tun dagegen besonders ausgeprägt zu sein. Man zweifelt an sich selbst, man zweifelt am Tun der anderen, und man hadert darüber hinaus mit der Ungerechtigkeit des deutschen Wissenschaftssystems, welches sich bharrlich weigert, die geisteswissenschaftlichen Zweifler und Nörgler angemessen zu fördern. Dank meiner Begegnungen in Düsseldorf ist mir dieser Weg der Zweifel am eigenen Tun weitestgehend erspart geblieben. Ich habe mich von der guten Laune, die die Biologen verbreiteten, einfach mittreiben lassen und schon im ersten Jahr meiner Doktorarbeit mit mir persönlich vereinbart, dass ich mir fortan meine Forschung von niemandem mehr kaputtmachen lasse, ganz besonders nicht von mir selbst. In meinem Werdegang hat mir das unwahrscheinlich geholfen. Da ich auch nach meiner Doktorarbeit mit meinem komischen Forschungsprofil, das Bioinformatik, Sprachtypologie und historische Linguistik vereinte, kaum an normale linguistische Institute vermittelt werden konnte, musste ich die Gelder selbst einwerben, um mich zu finanzieren. Dies gelang mir dann zunächst über ein Forschungsstipendium der DFG in den Jahren 2015 und 2016, dem sich ein ERC Starting Grant anschloss, der es mir erlaubte, von 2017 bis 2022 meine eigene Nachwuchsgruppe zu leiten (List 2017). Dem Schloss sich ein Forschungsgrant der Max-Planck-Gesellschaft von 2022 bis 2024 an, und schließlich ein ERC Consolidator Grant, an dem ich seit 2023 forsche (List 2023). Dies mag den Anschein erwecken, als wäre ich vom Erfolg verwöhnt worden. Meine Erfolgsrate beim Einwerben von Projekten liegt aber wohl nicht höher als 20%. Ich habe also pro gefördertem Projekt im Schnitt mindestens fünf Projekte beantragt, zuweilen sogar mehr, immer zu unterschiedlichen Themen. Dass ich nie in den Genuss der berüchtigten _Kettenverträge_ kam, die einen an derselben Universität verharren lassen, mit Verträgen, die selten länger als 12 Monate dauern, war am Ende vielleicht sogar ein Vorteil. Wenn man mit dem Rücken zur Wand steht, und nicht einmal auf die nächste Verlängerung des Vertrages um einige Monate hoffen kann, dann setzt man eben alles daran, sich aus eigener Kraft oben zu halten und lernt, sich auf so gut wie niemanden wirklich zu verlassen. Dass ich mich einmal mit meiner Forschung um die kompetitivsten Fördermittel des Europäischen Forschungsrats würde erfolgreich bewerben können, hätte ich direkt nach dem Abschluss meines Magisterstudiums wohl kaum geglaubt. Ich bin sicher, dass es am Ende die Stimmung bei den Biologen war, die mir half, meine wissenschaftliche Karriere auf meine ganz individuelle Weise zu verfolgen. Ich hatte einfach gelernt, zu vertrauen, dass das, was ich tue, ein grundlegendes Potenzial hat, das ich nicht ständig selbst anzweifeln müsste. Ohne diese positive Grundeinstellung hätte ich mit meinem Außenseiterstatus und meinem ungewöhnlichen Forschungsprofil wohl nie in der Wissenschaft bleiben können. Sie trägt mich heute noch immer. ## Literatur List, Johann-Mattis and Forkel, Robert (2023): LingPy. A Python library for quantitative tasks in historical linguistics [Software Library, Version 2.6.13]. Passau: MCL Chair at the University of Passau. https://pypi.org/project/lingpy List, Johann-Mattis (2008): Rekonstruktion der Aussprache des Mittel- und Altchinesischen. Vergleich der Rekonstruktionsmethoden der indogermanischen und der chinesischen Sprachwissenschaft [Reconstruction of the pronunciation of Middle and Old Chinese. Comparison of reconstruction methods in Indo-European and Chinese linguistics]. Magister thesis. Freie Universität Berlin: Berlin. https://hal-hprints.archives-ouvertes.fr/hprints-00742552/file/list-2008-magisterarbeit.pdf List, Johann-Mattis (2014): Sequence comparison in historical linguistics. Düsseldorf:Düsseldorf University Press. https://sequencecomparison.github.io List, Johann-Mattis (2017): Computer-Assisted Language Comparison. Reconciling computational and classical approaches in historical linguistics [Research Project, 2017–2022]. Leipzig:Max Planck Institute for Evolutionary Anthropology. https://cordis.europa.eu/project/rcn/206320_en.html List, Johann-Mattis (2023): Productive Signs. A Computer-Assisted Analysis of Evolutionary, Typological, and Cognitive Dimensions of Word Families. Passau:Chair of Multilingual Computational Linguistics. https://cordis.europa.eu/project/id/101044282/de * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (10. Juli 2025). Von der Einstellung. _Von Wörtern und Bäumen_. Abgerufen am 10. Juli 2025 von https://wub.hypotheses.org/2895 * * * * * * * *
wub.hypotheses.org
July 10, 2025 at 8:34 PM
Now published, our study presenting Lexibank 2.

Blum et al. @fblum (2025) in Open Research Europe.

https://doi.org/10.12688/openreseurope.20216.1
June 23, 2025 at 7:59 PM
Mein Blogbeitrag zum Juni handelt "Von der Vorläufigkeit der Erkenntnisse" via @dehypotheses

https://wub.hypotheses.org/2853
Von der Vorläufigkeit der Erkenntisse
Ich habe vor zwei Wochen, im Rahmen eines Oberseminars, für das ich eine neue Idee zu einer neuen Studie vorbereitethatte, mal wieder festgestellt, wie extrem man sich vertun kann, wenn man ohne groß nachzudenken, drauf los programmiert und sich wenig Gedanken darum macht, was einzelne Blöcke im Code, den man über längere Zeiträume geschrieben hat, eigentlich bedeuten. Am Ende hatte ich zwar nicht durch Null geteilt (wenn das passiert, streiken Computer ohnehin freundlicherweise sofort), aber eben doch vollkommen falsche Ergebnisse zu einer neuen Idee vorgestellt, an der ich im Laufe der letzten Jahre eher halbherzlich gearbeitet hatte. Während ich die Probleme in meinem Computercode inzwischen beheben konnte, und mir derartige Fehler auch gut verzeihen kann, ohne mich zu sehr darüber zu schämen oder zu grämen, wurde mir im Zusammenhang mit diesem Fauxpas wieder einmal klar, wie vorläufig die Erkenntnisse in der Wissenschaft eigentlich sind. Verantwortlich für diese Vorläufigkeit wissenschaftlicher Erkenntnisse sind zwei grundlegende Aspekte. Zum einen gehen wir ja davon aus, dass wir in unseren Erkenntnissen immer weiter voranschreiten. Solange ein Wissensfeld nicht komplett abgegrast ist, werden wir immer die Möglichkeit finden, Erkenntnisse präziser zu fassen, oder differenzierter zu sehen. Das ist in dem heutigen Verständnis wissenschaftlicher Forschung ja direkt so angelegt. Zum anderen sind wir als Menschen auch einfach fehlbar. Wir gehen von falschen Grundannahmen aus, verallgemeinern auf falsche Weise, oder schauen nicht mehr nach rechts und links, wenn wir der Meinung sind, den Weg zu kennen. Unserer Fehlbarkeit und unserem Anspruch, dass wir unser Wissen verbessern und weiterentwickeln, ist kein Peer-Review-Verfahren gewachsen. Es gibt aus dieser langfristigen Perspektive tatsächlich keine gesicherten Kenntnisse, wie sie von unbedachten Menschen oft propagiert oder gefordert werden. Dies heißt jedoch auch nicht, das alle wissenschaftlichen Kenntnisse falsch sind, oder man sie pauschal in Zweifel ziehen kann. In vielen Bereichen sind die Erkenntnisse, die wir im Moment haben, so gut gesichert, dass es sehr unwahrscheinlich wäre, davon auszugehen, dass sie sich in den nächsten Jahrzehnten radikal ändern werden. Im Bereich der Medizin haben wir eine Vielzahl von Behandlungsmethoden oder Präventionsverfahren, die in den meisten Fällen die beste Wahl sind, weshalb es sehr dumm wäre, sie anzuzweifeln und das Vertrauen in sie systematisch zu zerstören. Wenn wir Gebäude bauen, dann gehen wir auch davon aus, dass die Schwerkraft und die allgemeinen Eigenschaften von Materialien wissenschaftlich gut genug beschrieben sind, um zu verhindern, dass alles binnen kürzester Zeit in sich zusammenfällt. Wenn wir eine Sprache lernen wollen, dann tun wir gut daran, der Lernergrammatik, die wissenschaftlich geschulte Linguisten erstellt haben, erst mal unser Vertrauen zu schenken, bevor wir anfangen, Kasusendungen und Satzbau, die dort beschrieben werden, mit Misstrauen zu behandeln. Natürlich trifft diese relativ große Sicherheit, die wir sicher in allen wissenschaftlichen Disziplinen antreffen können, nicht auf alle Fragestellungen zu. Ich würde um keinen Preis eine Wette auf das Alter der indogermanischen Ursprache abgeben, nicht nur, weil es in den letzten 20 Jahren zahlreiche Studien gab, die mit Computermethoden zu unterschiedlichen Ergebnissen gekommen sind (vgl. bspw. Gray und Atkinson 2003 mit Bouckaert et al. 2012, Chang et al. 2015 und Heggarty2023), sondern auch weil ich selbst an Studien beteiligt war, die zeigen, dass es eine ganze Menge an Faktoren gibt, die diese Analysen mitunter recht stark beeinflussen können (vgl. Geisler und List 2010 und Snee et al. 2025). Ich verzichte in meiner Arbeit auf die Nutzung von Sprachmodellen, die mir meine Texte generieren könnten, nicht nur aus wissenschaftsethischen Gründen, oder weil ich an der Qualität generierter Texte zweifle, sondern auch deshalb, weil ich denke, dass uns gesicherte Erkenntnisse fehlen, um die Wirkung dieser Tools auf unseren Geist abzuschätzen (vgl. die noch nicht begutachtete Studie von Kosmyna et al. 2025 zum Einfluss intensiver Chatbotnutzung auf unsere mentalen Fähigkeiten). Ich halte auch alle Debatten um die sogenannte _linguistische Relativität_ , insbesondere die starke Sapir-Whorf-Hypothese (Whorf 1950), für grundlegend sinnlos. Denn die Hypothese, dass unsere Sprachen in ihrer Unterschiedlichkeit oder ihren spezifischen Strukturen unser Denken so sehr beeinflussen, dass sie zu Verhaltensweisen der Sprecherinnen und Sprecher führen, die mit anders strukturierten Sprachen nicht auftreten würden, wurde bisher vorwiegend fern von jeglichen Daten zu den Sprachen der Welt diskutiert. Neuere Studien haben zwar gezeigt, dass bestimmte Aspekte menschlicher Kognition, wie die Farbwahrnehmung, auf komplexe Wechselwirkungen mit Umgebung und Sprache zurückgehen können (Dediu et al. 2023, Twomey et al. 2021), aber in welche Richtung die Wechselwirkung geht, ist dabei alles andere als klar. Es scheint vielmehr so zu sein, dass Sprachen sich in bestimmten Aspekten (wie zum Beispiel der Benennung von primären Farben, vgl. Berlin und Kay 1969) relativ klar ähneln, egal wo und von wem sie gesprochen werden, während wir in anderen Fällen, wie zum Beispiel in den Ausdrücken für Emotionen (Jackson et al. 2019) oder der Benennung von Körperteilen (Tjuka et al. 2024) relativ große Unterschiede vorfinden können. Sprache kann das Denken beeinflussen, ja, aber genauso kann unser Denken auch unsere Sprachen beeinflussen. Eine klare Richtung gibt es hier wohl einfach nicht und wir stochern, was die individuellen Wechselwirkungen zwischen Sprache und Denken betrifft, weitestgehend im Trüben. Wenn wir den Erkenntnisstand zum Alter und Ursprung des Indogermanischen, zu den Folgen der exzessiven Verwendung von Sprachmodellen, oder zur Plausibilität der Hypothese, dass Sprache unser Denken unmittelbar beeinflusst, wissenschaftlich bewerten wollen, so kann man wohl sagen, dass bei der Evidenzlage, die zu diesen Fragen vorliegt, keine Kommission eine Handlungsempfehlung für die Politik aussprechen würde. Impfstoffe, deren Wirkung und Nebenwirkung so gut verstanden werden, wie diese drei umstrittenen Forschungsfragen, würden wohl nicht über das Stadium der Tierversuche hinauskommen, vielleicht würde man Tierversuche nicht mal gestatten. Im Zusammenhang mit dem, was die Wissenschaftlichkeit von Forschung ausmacht, wurden in den letzten Jahren, insbesondere seit der Pandemie, hitzige Diskussionen geführt. Der Tenor in diesen Diskussionen stört mich persönlich extrem. Auf der einen Seite haben wir die Wissenschaftler oder auch die Journalisten, die die Wissenschaft als eine Methode darstellen, die über jeden Zweifel erhaben ist. Wer es wagt, bestimmte Erkenntnisse, von denen behauptet wird, sie seien durch Studien gesichert oder gar wissenschaftlich erwiesen, in Zweifel zu ziehen, wird von diesen Menschen hart angegangen und mit Personen, die jede Verschwörungstheorie und jede Falschnachricht für unbestreitbare Wahrheiten halten, in einen Topf geworfen. Auf der anderen Seite haben wir die Demagogen, Populisten, und von Internet und sozialen Medien mental geschädigten Menschen, welche die Fehlbarkeit und Vorläufigkeit wissenschaftlicher Erkenntnisse, aus denen redliche Vertreter der Wissenschaft nie einen Hehl gemacht haben, als Anlass nehmen, um die Wissenschaft an sich zu diskreditieren. Während es sicher nicht so schwer wäre, sich freundlich mit den Wissenschaftsgläubigen und den Wissenschaftsleugnern getrennt voneinander auseinanderzusetzen, hat die Rhetorik zwischen beiden Lagern eine Dynamik entfacht, welche die wissenschaftliche Forschung im Ganzen zu bedrohen beginnt und sie zum Spielball politischer Interessen degenieriert. Den absurdesten Auswuchs dieser unheilvollen Dynamik stellt für mich die unlängst geäußerte Kritik an Wissenschaftlern und Studien dar, die in der Vergangenheit versucht haben, Schwächen in der wissenschaftlichen Praxis aufzuzeigen. Dass Forscher im Zusammenhang mit der _Replikationskrise_ in der Psychologie (Muthukrishna and Henrich 2019) rigoros versucht haben, alte Studien zu wiederholen und Verfahren zu entwickeln, die Fehler in psychologischen Studien minimieren, wird nun als der Grund angeführt, warum das Vertrauen in die Wissenschaft in den letzten Jahren erodiert sei (O’Grady 2025). Das absurde Argument der Verfechter dieser Idee ist, dass das offene Zurschaustellen der Schwächen des wissenschaftlichen Systems und der Vorläufigkeit wissenschaftlicher Erkenntnisse demagogischen Populisten die argumentatorischen Waffen geliefert hätte, mit den verhassten Eliten in ihren Elfenbeintürmen überhaupt erst abzurechnen. Diese Argumentation macht mich unglaublich wütend, da sie in ihrer argumentatorischen Struktur selbst einen der Hauptgründe für den Vertrauensverlust in die Wissenschaft liefert. Denn die arrogante Haltung einiger Wissenschaft betreibender oder rezipierender Personen, dass nur die Wissenschaft _wahre_ Erkenntnisse liefern könne, und wissenschaftliche Erkenntnisse scheinbar absolut über jeglichen Zweifel erhaben seien, hat doch erst dazu geführt, dass sich ein von Populisten angetriebenes Gegenlager gegen diese religiös anmutende Haltung formieren konnte. Diese Haltung besagt ja eigentlich nichts anderes, als dass es besser gewesen wäre, diese Erkenntnisse — dass man vielen Studien in der Psychologie besser nicht trauen sollte — unter dem Tisch zu halten. Wenn man Forschungsergebnisse zurückhält, die der eigenen Theorie zuwiderlaufen, dann macht man sich jedoch des wissenschaftlichen Fehlverhaltens schuldig. Wer solches Handel für die Wissenschaft propagiert, zieht der Wissenschaft ihre eigenen Grundprinzipien unter den Füßen weg. Wissenschaft beruht auf dem Zweifeln, Wissenschaft beruht auf dem Vertrauen in die Vorläufigkeit der Erkenntnisse, Wissenschaft beruht auf absoluter Transparenz und Offenheit. Wer davon ausgeht, dass es bestimmte Wahrheiten gibt, die man den “normalen Menschen” besser vorenthalten sollte, um ihr Vertrauen in die Wissenschaft nicht zu sehr zu erschüttern, der nimmt der wissenschaftlichen Methode das Fundament, auf dem sie steht: das Recht, an der Endgültigkeit von Erkenntnissen zu zweifeln und sie aktiv zu überprüfen. ## Literatur Brent Berlin and Paul Kay (1969): Basic color terms: Their universality and their evolution. Berkeley: University of California Press. Bouckaert, Remco and Lemey, Philippe and Dunn, Michael and Greenhill, Simon J. and Alekseyenko, Aalexander V. and Drummond, Alexei J. and Gray, Russell D. and Suchard, Marc A. and Atkinson, Quentin D. (2012): Mapping the origins and expansion of the Indo-European language family. _Science_ 337.6097. 957-960. https://doi.org/10.1126/science.1219669 Chang, Will and Cathcart, Chundra and Hall, David and Garret, Andrew (2015): Ancestry-constrained phylogenetic analysis ssupport the Indo-European steppe hypothesis. _Language_ 91.1. 194-244. Dan Dediu (2023): Ultraviolet light affects the color vocabulary: evidence from 834 languages. _Frontiers in Psychology_ 14. https://doi.org/10.3389/fpsyg.2023.1143283 Geisler, Hans and List, Johann-Mattis (2010): Beautiful trees on unstable ground. Notes on the data problem in lexicostatistics. https://hal.archives-ouvertes.fr/hal-01298493 Gray, Russell D. and Atkinson, Quentin D. (2003): Language-tree divergence times support the Anatolian theory of Indo-European origin. _Nature_ 426.6965. 435-439. Paul Heggarty and Cormac Anderson and Matthew Scarborough and Benedict King and Remco Bouckaert and Lechos\law Jocz and Martin Joachim Kümmel and Thomas Jügel and Britta Irslinger and Roland Pooth and Henrik Liljegren and Richard F. Strand and Geoffrey Haig and Martin Mac\’ak and Ronald I. Kim and Erik Anonby and Tijmen Pronk and Oleg Belyaev and Tonya Kim Dewey-Findell and Matthew Boutilier and Cassandra Freiberg and Robert Tegethoff and Matilde Serangeli and Nikos Liosis and Krzysztof Stro\’nski and Kim Schulte and Ganesh Kumar Gupta and Wolfgang Haak and Johannes Krause and Quentin D. Atkinson and Simon J. Greenhill and Denise Kühnert and Russell D. Gray (2023): Language trees with sampled ancestors support a hybrid model for the origin of Indo-European languages. _Science_ 381.6656. https://doi.org/10.1126/science.abg0818 Joshua Conrad Jackson and Joseph Watts and Teague R. Henry and List, Johann-Mattis and Peter J. Mucha and Robert Forkel and Simon J. Greenhill and Russell D. Gray and Kristen Lindquist (2019): Emotion semantics show both cultural variation and universal structure. _Science_ 366.6472. 1517-1522. https://doi.org/10.1126/science.aaw8160 Nataliya Kosmyna and Eugene Hauptmann and Ye Tong Yuan and Jessica Situ and Xian-Hao Liao and Ashly Vivian Beresnitzky and Iris Braunstein and Pattie Maes (2025): Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task. _arXiv_ 2506.08872. 1-206. https://arxiv.org/abs/2506.08872 Michael Muthukrishna and Joseph Henrich (2019): A problem in theory. _Nature Human Behaviour_ . 1-9. https://doi.org/10.1038/s41562-018-0522-1 O’Grady, Cathleen (2025): Science’s reform movement should have seen Trump’s call for ‘gold standard science’ coming, critics say. _Science_ June.10. https://doi.org/10.1126/science.zlwoaxz Snee, David and Ciucci, Luca and Rubehn, Arne and van Dam, Kellen Parker and List, Johann-Mattis (2025): Unstable Grounds for Beautiful Trees? Testing the Robustness of Concept Translations in the Compilation of Multilingual Wordlists. In: Proceedings of the 7th Workshop on Research in Computational Linguistic Typology and Multilingual NLP (SIGTYP 2025). 1-12. https://doi.org/10.48550/arXiv.2503.00464 Tjuka, Annika and Forkel, Robert and List, Johann-Mattis (2024): Universal and cultural factors shape body part vocabularies. _Scientific Reports_ 14.10486. 1-12. https://doi.org/10.1038/s41598-024-61140-0 Twomey, C. R. and Roberts, G. and Brainard, D. H. and Plotkin, J. B. (2021): What we talk about when we talk about colors. _Proceedings of the National Academy of Sciences United States of America_ 118.39. . Benjamin Lee Whorf (1950): An American Indian Model of the Universe. _International Journal of American Linguistics_ 16.2. 67-72. https://doi.org/10.1073/pnas.2109237118 * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (19. Juni 2025). Von der Vorläufigkeit der Erkenntisse. _Von Wörtern und Bäumen_. Abgerufen am 19. Juni 2025 von https://wub.hypotheses.org/2853 * * * * * * * *
wub.hypotheses.org
June 20, 2025 at 4:45 AM
‪Just learned that our study introducing Lexibank 2 (Blum et al. @fblum ) has passed peer review with Open Research Europe. We will revise with reviewers' comments, but the study is accepted, Lexibank 2 is now official.

Lexibank 2: pre-computed features for large-scale lexical data […]
Original post on hcommons.social
hcommons.social
June 4, 2025 at 5:13 AM
New contribution to our CALCiP blog /journal

Extracting Transparent Compounds from Lexibank

https://doi.org/10.15475/calcip.2025.1.5

https://calc.hypotheses.org/8526
Extracting Transparent Compounds from Lexibank | Computer-Assisted Language Comparison in Practice
ojs3.uni-passau.de
May 26, 2025 at 8:54 AM
Mein Blogbeitrag im Mai behandelt das Modellieren und das Jonglieren. Konkret geht es dabei um die Siteswap-Notation beim Jonglieren und die Rolle von Modellen für die Wissenschaft.

Vom Modellieren

https://wub.hypotheses.org/2822
Vom Modellieren
Ich bin seit 2023 Leiter des Lehrstuhls für Multilinguale Computerlinguistik an der Universität Passau. Unabhängige Forschung — im Sinne von Forschung, die ich eigenständig betreibe, weil ich die Forschungsgelder selbst in kompetitiven Verfahren eingeworben habe — betreibe ich seit inzwischen zehn Jahren. Seit mehr als 20 Jahren fasziniert mich die Wissenschaft, insbesondere die Sprachwissenschaft, aber seit langer Zeit auch alles, was man mit Computern machen kann. Was mich allerdings noch viel länger als die Wissenschaft in meinem Leben begleitet, ist die Jonglierkunst. Mit Bällen, Keulen, Ringen und anderen Gegenständen hantiere ich begeistert seit inzwischen 30 Jahren. Von ersten zaghaften Versuchen mit 3 Bällen gelang es mir über 4 Bälle, 5 Bälle und 6 Bälle bis zum Üben von 7 Bällen heranzukommen. Mehr habe ich in den 30 Jahren dann aber auch nicht gelernt. Das zeigt zum einen, dass die Lernkurve in Bezug auf die Zunahme neuer Bälle beim Jonglieren unglaublich steil ist. Zum anderen zeigt es aber auch schön, dass es beim Jonglieren eben nicht immer nur auf dieses kapitalistische Element des “Größer”, “Weiter” und “Schneller” ankommt. Manche Dinge kann man auch 30 Jahre lang betreiben, ohne sich ungesunden Ambitionen nach Zuwachs jeder Art hinzugeben. Das Jonglieren gehört definitiv dazu. Was am Jonglieren aber auch besonders ist, ist die allgemeine Geisteshaltung, die damit verbunden ist. Menschen, die jonglieren, teilen oft eine ganze Reihe von Eigenschaften. Sie lösen gern Geschicklichkeitsprobleme, sie treten gern vor anderen Menschen auf, sie widmen sich einem steten Kampf gegen die Schwerkraft. Es ist daher vielleicht nicht ganz verwunderlich, dass viele Menschen, die jonglieren, auch Physik, Mathematik, oder Informatik studieren oder studiert haben. Ich selbst bin da eher eine Ausnahme mit meinem Studium der Vergleichenden Sprachwissenschaften, auch wenn das Fach natürlich auch einige nerdhafte Züge aufweist. Die große Dichte an Mathematik- und Informatikbegeisterten erklärt vielleicht auch, warum Jongleure schon vor mehr als zwei Jahrzehnten anfingen, sich Gedanken darum zu machen, wie man Jonglierkunststücke denn eigentlich modellieren könnte. Die Idee war, ein formales Modell zu entwerfen, das in der Lage sein sollte, eine Reihe von Tricks zu generieren. Durch die Implementierung eines solchen Modells wäre man dann in der Lage, kleine Programme zu schreiben, die Tricks simulieren und somit sichtbar machen könnten, an die vielleicht vorher keiner gedacht hatte. Diese Idee fand ihre Realisierung in der Siteswap-Notation. Darunter versteht man unter Jongleuren eine spezifische Notation, die es erlaubt, bestimmte Jongliermuster (nicht alle), systematisch als eine Folge von Zahlen zu beschreiben, wobei eine Zahl jeweils für einen Wurf steht. Den Zahlen selbst liegt dabei eine Systematik zugrunde. Ungerade Zahlen stehen für Würfe von einer Hand zur anderen. Gerade stehen für Würfe, die nach oben gehen, ohne die Hand zu kreuzen (sogenannte _Säulen_). Eine 3 beschreibt dabei einen Wurf von einer Hand zur anderen mit der Höhe, die man benötigt, um drei Bälle zu jonglieren. Die Zahlenfolge `3 3 3` kodiert das klassische Dreiballmuster im Rahmen der Kaskade. Die Zahlenfolge `5 5 5 5 5` beschreibt das Muster für fünf Bälle, `4 4 4 4` steht für die klassische Vierballjonglage (wobei in jeder Hand zwei Bälle getrennt voneinander jongliert werden). Meine erste Reaktion, als man mir von der Siteswap-Notation erzählte, war sehr ablehnend. Ich war der Meinung, dass es sich beim Jonglieren um eine gewisse Form von Kunst handelt und dachte, dass Zahlen und Notationssysteme daher dort nichts zu suchen haben. Tricks sollten auf Basis menschlicher Kreativität entwickelt werden. Die Idee, Jongliermuster mit Hilfe von Formel zu generieren, stieß mich ab. Sie war mir viel zu nerdig und ihr mangelte es auch das, was das Jonglieren für mich bedeutete: einen Raum, in dem ich meine eigenen Ideen ausleben konnte, die mir so kreativ zu sein schienen, dass sie nie in Zahlenfolgen passen würden. Diese Einstellung hat sich — auch wenn ich selbst das System nur unzureichend verstehe — inzwischen jedoch stark geändert. Der Grund ist, dass die Siteswapmacher nicht nur geliefert haben, was sie versprachen, sondern eigentlich auch weit darüber hinausgegangen sind. Siteswaps, also Muster, die mit Hilfe der Notation generiert wurden oder sich in der Notation darstellen lassen, gehören inzwischen zum guten Ton, nicht nur in der Jonglierszene, sondern auch im Mainstream, in dem Jongleure im Varieté oder im Zirkus auftreten. Das Versprechen, ein _implementierbares Modell_ zu liefern im Sinne von Bröker und Ramscar (2021) haben die Siteswapmacher gehalten. Aus der informellen Notation, wie sie in einem Prosatext beschrieben wurde (Phillips 2001) haben Informatikbegeisterte Jongliernerds rasch ganze Computerprogramme implementiert, die es ermöglichen, eine Webseite zu öffnen und beliebige Tricks animiert jonglieren zu lassen. Das kann jede interessierte Person selbst ausprobieren, indem sie Muster wie `531` oder `441` auf den entsprechenden Webseiten eingibt, um dann die Ergebnisse direkt anschauen zu können. Dadurch, dass Menschen heutzutage fünf Bälle und mehr um ein vielfaches besser jonglieren können also noch vor 20 Jahren, hat die Anzahl von ungewöhnlichen Mustern, die auch ästhetisch fein anzusehen sind, rapide zugenommen. Ob Straßenkünstler, Varietéjongleur, oder Zirkusartist. Wer ordentlich jonglieren kann, wird zwangsläufig den einen oder anderen _Siteswap_ auf der Bühne zeigen. Als Beispiel für ein besonders schönes Muster, empfehle ich das Muster `97531` in der Simulation anzuschauen. Das ist ein Trick, der mit fünf Bällen jongliert wird, die man gestaffelt in die Höhe wirft. Der erste Ball auf die Höhe von neun Bällen, der zweite auf die Höhe von sieben Bällen, dann fünf, dann drei, und bei der eins muss man einfach von einer Hand in die andere übergeben. Ich denke, ich lehne mich nicht zu weit aus dem Fenster, wenn ich sage, dass vor der Einführung der Notation kaum einer daran gedacht hatte, solche Muster zu werfen. Was die Popularität der Siteswaps betrifft, sind diese jedoch streng auf die Jonglierszene begrenzt. Normale Menschen, die Jongliermuster sehen, können oft den Unterschied zwischen einem einfachen `55555` mit fünf Bällen (normales Jongliermuster) und dem komplexeren `645` (einem Trick mit fünf Bällen, bei dem zwei Bälle jeweils senkrecht geworfen werden, und einer kreuzt) unterscheiden. Zumindest ernte ich auch nach 20 Jahren, in denen ich relativ regelmäßig Straßenauftritte durchgeführt habe, nach wie vor keine große Begeisterung, wenn ich einen `645` jongliere. Die richtige Stimmung kommt ohnehin erst dann auf, wenn man drei Fackeln anzündet. Ob man vorher fünf Bälle, sieben Bälle, oder komplexe Siteswaps geworfen hat, ist den meisten Menschen egal. Ich finde, dass die Siteswaps auf eindrucksvolle Weise zeigen, warum wir in der Wissenschaft modellieren wollen und sollten. Wir können mit Hilfe formaler Modelle eben systematisch bestimmte Bereiche des Lebens und der Welt systematisch ausleuchten und durch die engen Vorgaben der Modelle dadurch Dinge entdecken, die uns beim modellunabhängigen Betrachten der Realität vielleicht nicht aufgefallen wären. Daher ist mir die Modellierung auch in meiner eigenen Forschung so wichtig geworden. Wie bei den Siteswaps erhoffe ich mir davon keineswegs, eine realistische Beschreibung von so komplexen Phänomenen wie dem Sprachwandel zu erlangen. Es geht vielmehr darum, durch die Modelle _neue Aspekte_ an dem Untersuchungsbereich zu entdecken, die man ohne die Modelle nicht gesehen hätte. Wissenschaft wie Kunst brauchen aber neben den Modellen auch zuweilen die kleinen Funken der Erleuchtung. Sei es, um das richtige Modell zu finden, oder um bestimmte Aspekte zu entdecken, die zuvor verborgen geblieben sind und daher nicht modelliert werden konnten. In Wissenschaft wie Kunst kommt es daher wohl am Ende auf das richtige Zusammenspiel zwischen dem Bilden von Modellen und dem Empfangen oder Erzeugen von Geistesblitzen an. Ich habe mir den Hang zur Modellierung vor allem für die Wissenschaft aufgehoben. Beim Jonglieren bewundere ich die Siteswapnotation und Menschen, die damit nahezu spontan neue Muster jonglieren können, ohne selbst dazu in der Lage zu sein. In der Wissenschaft setze ich Modelle dafür an die erste Stelle. Ein Trick, den ich mit großem Enthusiasmus seit einem Jahr übe, und der garantiert nicht mit Hilfe eines Zahlenmodells erzeugt wurde, beginnt damit, dass man fünf Bälle normal jongliert, bis dass ein Ball ein wenig höher in die Luft geworfen wird, während man die übrigen vier Bälle zu jeweils zwei Bällen in der linken und rechten Hand auffängt. Danach werden zwei Bälle aus der rechten Hand rasch in die linke Hand übergeben, wobei der zuerst hoch abgeworfene Ball noch immer in der Luft ist und sich langsam im Sinkflug befindet. Nach oder während der Übergabe dreht man sich dann rasch in einer halben Drehung um die eigene Achse und beugt sich nach vorn, um den fünften Ball mit der leeren rechten Hand zu fangen, die zwischen die Beine nach hinten greift. Er gelingt mir immer besser und es macht einfach nur Freude, diesen Trick zu werfen, weil er so viele unterschiedliche Elemente miteinander vereint. Jongleure nutzen keine Zahl, um ihn zu bezeichnen. Unter ihnen firmiert er einfach nur als _Arschfang_. ## Literatur Bröker, Franziska and Ramscar, Michael (2021): Representing absence of evidence: Why algorithms and representations matter in models of language and cognition. _Language, Cognition and Neuroscience_ 37.1. 1-24. Phillips, Greg (2001): Understanding Siteswap juggling patterns. A guide for the perplexed. https://www.jugglingedge.com/pdf/siteswap-notes-a4.pdf * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (19. Mai 2025). Vom Modellieren. _Von Wörtern und Bäumen_. Abgerufen am 19. Mai 2025 von https://wub.hypotheses.org/2822 * * * * * * * *
wub.hypotheses.org
May 19, 2025 at 4:48 PM
Fantastic to see in the morning that not only our paper on automated language affiliation with Frederic Blum and
Steffen Herbold
was accepted for the ACL main conference in Vienna, but also our study with Arne Rubehn on concept embeddings.

https://doi.org/10.48550/arXiv.2502.11688 […]
Original post on hcommons.social
hcommons.social
May 16, 2025 at 8:10 AM
Our study introducing Lexibank², the second installation of the Lexibank repository, just appeared online with Open Research Europe (with @fblum as our first author, who led this project bravely.

https://doi.org/10.12688/openreseurope.20216.1
Frederic Blum (@[email protected])
6 Beiträge, 50 Folge ich, 34 Follower · PhD researcher at Max-Planck Institute for Evolutionary Anthropology and the University of Passau. Studying the history of South American languages and linguistic typology.
academiccloud.social
May 9, 2025 at 9:36 AM