Lightnews — Scholar-powered news

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

First contribution in this year to our blog / journal on Computer-Assisted Language Comparison in Practice.

"Transparent Application of Text Generation Tools in Scientific Research"

https://calc.hypotheses.org/9138

Transparent Application of Text Generation Tools in Scientific Research

In this opinion piece, I share my view on the application of language models and text generation services in scientific research. In my opinion, scientific research that lives up to the promises of open science must provide full documentation of all prompts and exchanges that were used to create a given study. A mere mention that AI tools have been used in study design, writing, or coding is not enough. ## 1 Introduction There is a divide in scholars between those who embrace language models and specifically chatbots in their own research, arguing that they help them in wording their texts and the like, and those who are strictly against their use in scientific work. I would count myself to the latter camp, as I also do not use language models to write any of my texts, and I switch off all AI features in search engines, where I can. But independently of my own opinion on this matter, I was asking myself if there was any form of a transparent way to use language models. In the end of last year, I have argued that I see _no_ way to justify the use of chatbots and language models as long as they are not constructed by open principles (see Liesenfeld, Lopez, and Dingemanse 2023) and as long as they do not allow for the direct retrieval of existing sources that serve as anchor points to ground their contents (List 2025). Given the practice that I observe from many colleagues, not many scientists share my opinion. Similar to the increased use of generated texts in editing Wikipedia articles (Brooks, Eggert, and Peskoff 2024), I observe more and more collagues reporting of intensive chat discussions that they have with ChatGPT or other chatbots, or using chatbots to code or create figures for their studies. Since I have always been enjoying to produce my scientific work without the help of others, I never felt the need to turn to chatbots to ask for help, neither with wordings in a text, nor with code or figures. Given that I also may spent hours in the internet in the search for particular kinds of information that a seemingly all-knowing person might answer within seconds, I can, however, see why people feel the desire to speed up certain aspects of their individual investigation workflows, even if I do not see a concrete use to turn to chatbots in my own work so far. When recently even the German Research Foundation officially confirmed that its main committee had approved the use of chatbots, provided certain major rules are followed (DFG 2025), I thought it might be time to review these rules more closely, contrasting them with my own requirements with respect to transparency and openness in scientific research. ## 2 Lax Guidelines on Generated Text Use The German Research Foundation emphasizes that the use of text generation machines in review writing must be in concordance with four major principles, _confidentiality_ , _transparency_ , _critical quality assessment_ , and _responsibility_. Confidentiality refers to the content of the proposals that reviewers are asked to review. Here, the rules do not allow to share these proposals with chatbot services that store the information permanently, ruling out naive usage of chatbots like Grok or ChatGPT via their web interfaces. Transparency refers to the obligation to disclose chatbot usage by scientists acting as reviewers. Critical quality assessment means that reviewers are required to thoroughly check all generated contents in their reviews. Responsibility emphasizes that the reviewers remain responsible for their reviews and that they cannot blame the bots they used to write their assessments. As far as I understand these guidelines, it is clear that they basically rule out the most popular text generation services offered by big tech companies such as Google or OpenAI, since they store the questions that users have been asked and use them also as feedback in the further development of their services. Given the push of companies like Microsoft to include chatbots in all their services, one may also ask oneself to which degree the creation of word documents with the help of Microsoft’s Office program can be done in a way conform with the confidentiality requirement of the German Research Foundation. In any case, the guidelines – if honestly followed by scientists – drastically restrict the application of chatbots in review generation, probably close enough to make their application impossible for those who follow the rules. If scientists follow those rules is a different question, of course, but that people stick to good scientific practice is anyway largely outside of the control of research agencies. ## 3 Conflicts with Good Scientific Practice and Open Science Despite the fact that the guidelines are – in principle – much stricter than their wording might suggest, they bear two major shortcomings that may have an unwanted effect on good scientific practice. On one hand, the apparently lax wording of the guidelines invites misunderstandings and abuse. On the other hand, the guidelines fall short of providing concrete and transparent proposals for the use of language generation services that would _not_ contradict or undermine good scientific practice. That the guidelines are ill-worded, forcing many people to believe that the DFG now allows its reviewers to delegate reviews to ChatGPT or other irresponsible language generation services, can be easily seen from the huge negative reaction that the publication of the guidelines received among scientists (see Bahr 2026, as a representative example). It seems obvious that clear examples for use cases that contradict or are in line with the guidelines are missing. For me, however, it is even more annoying that no attempts are undertaken to clarify how text generation machines could be employed in a transparent way that would not contradict the current notion of _good scientific practice_ as they are published by the German Research Foundation itself (DFG Team Wissenschaftliche Integrität 2024). From the perspective of _open science_ principles, it seems clear to me that good scientific practice in the use of text generation machines requires very clear guidelines with very high bars regarding transparent documentation. More concretely, in my opinion, the only transparent way of using text generation machines that are trained on public data would consist in submitting all _prompts_ along with the texts produced by scientists. This would mean that scientists who have used chatbots excessively to create research papers would have to disclose in a transparent and clear manner, what labor has been delegated to text generation services, and how the output was later included in the results. I do not have fixed ideas of how I would expect prompts to be shared right now. With students, I typically ask for screenshots of the prompt discussions, but an even better format might consist in screenshots along with versions in plain text, where question and answer are being transparently shared. ## 4 Transparent Use of Generated Texts While I have not been able to come up with a perfect solution in this regard, it seems very clear to me that it is _not_ enough, if scientists add a statement in a footnote that says that they used ChatGPT to clean up their references or fixed some wordings. There are two main reasons why I think that it is important to share the actual prompts in order to make text generation usage transparent. On one hand, text generation is more _intrusive_ than information retrieval via classical search engines. Since the sources of generated texts are typically entirely unclear, more rigor is required to allow scholars to understand what parts were written by the authors of a study and what parts were generated. On the other hand, transparency in science has an _educational aspect_. Scientists learn from their colleagues how to carry out their own research. Transparency on prompts here helps scholars to learn from the prompts of their colleagues and from the tools they use to support them in writing, to enhance their own work. As researchers who subscribe to publicly funded _open science_ , we are cooks who prepare their meals in the open, sharing all ingredients and recipes to make sure that all people out there in the world who want to prepare their own meals can prepare them at home without having to buy them in our store. Since we are publicly funded and large parts of the world still seem to believe that scientific progress is an enterprise that should be pursued in a collaborative, open competition for the best ideas, we should not be selective about the ingredients we use to create our dishes. In hiding parts of our ingredients, we contribute to the growing mistrust in science that can be observed more and more frequently these days. If the promise in the openness of science that many scientists subscribe to is taken seriously, everybody who uses chatbots to write their texts should live up to it. How chat conversations should be stored concretely, however, is a question I cannot answer at this point. For the time being, I think any way would be okay, be it screenshots or questions and answers pasted in text files. Since generated texts constitute a completely new problem of transparency that has no precedence that I would know of in the past, it seems that practitioners of science must come up with their own solutions in the future. With more people seeking transparency in the use of text generation services, I would hope that new conventions can emerge quickly over the next years, leading to new conventions and standards that complete basic rules of citation, data sharing, and replicable code in the future. ## 5 Conclusion It is absolutely clear to me that my perspective on the usage of text generation tools in scientific research may be different from that of many colleagues. As somebody who can be seen as the opposite of an _early adopter_ with respect to text generation services, my opinion may seem much stricter than it should be to those who enjoy their daily chats with chatbots. However, as somebody who has been fighting hard for _transparency_ in science, at least as far as my own discipline is involved, I see no other way than making strict demands. If we want preserve the major rules of good research practice that the scientific community has been trying hard to establish in the past decades, we have to share the sources of our insights in a transparent manner. These sources include the prompts that we used to trigger text generation by large language models. ## References Bahr, Amrei. 2026. “Begutachtung mittels KI: Zur fragwürdigen Entscheidung der DFG.” _Arbeit in Der Wissenschaft_ , January. https://steady.page/de/arbeit-in-der-wissenschaft/posts/9ce6550f-973e-4d16-9d09-c5556fa10373. Brooks, Creston, Samuel Eggert, and Denis Peskoff. 2024. “The rise of AI-generated content in Wikipedia.” In _Proceedings of the First Workshop on Advancing Natural Language Processing for Wikipedia_ , edited by Lucie Lucie-Aimée, Angela Fan, Tajuddeen Gwadabe, Isaac Johnson, Fabio Petroni, and Daniel van Strien, 67–79. Miami, Florida, USA: Association for Computational Linguistics. https://doi.org/10.18653/v1/2024.wikinlp-1.12. DFG, Deutsche Forschungsgemeinschaft. 2025. “Künstliche Intelligenz in Der Begutachtung.” _Informationen Für Die Wissenschaft_ 2025 (102). https://www.dfg.de/de/aktuelles/neuigkeiten-themen/info-wissenschaft/2025/ifw-25-102. DFG Team Wissenschaftliche Integrität. 2024. “Leitlinien zur guten wissenschaftlichen Praxis [Report, Version 2].” Leitlinien. Bonn: Deutsche Forschungsgemeinschaft. https://doi.org/https://doi.org/10.5281/zenodo.14281892. Liesenfeld, Andreas, Alianda Lopez, and Mark Dingemanse. 2023. “Opening up ChatGPT: Tracking openness, transparency, and accountability in instruction-tuned text generators.” In _Proceedings of the 5th International Conference on Conversational User Interfaces_ , 1–6. CUI ’23. Eindhoven: Association for Computing Machinery. https://doi.org/10.1145/3571884.3604316. List, Johann-Mattis. 2025. “Kann man verantwortungsvolle Wissenschaft mit KI betreiben?” _Von Wörtern Und Bäumen_ 9 (12). https://doi.org/https://doi.org/10.58079/15cdq. * * * The text only may be used may be used under licence Creative Commons Attribution 4.0 International. All other elements (illustrations, imported files) are “All rights reserved”, unless otherwise stated. * * * OpenEdition suggests that you cite this post as follows: Johann-Mattis List (January 26, 2026). Transparent Application of Text Generation Tools in Scientific Research. _Computer-Assisted Language Comparison in Practice_. Retrieved January 26, 2026 from https://calc.hypotheses.org/9138 * * * * * * * *

calc.hypotheses.org

January 26, 2026 at 8:39 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Mein Blogbeitrag im Januar via @dehypotheses beschäftigt sich mit dem Begriff der "Halluzinationen" von Sprachmodellen, einen Ausdruck, den ich kritisch sehe.

https://wub.hypotheses.org/3313

Vom Fabulieren und Halluzinieren

In der letzten Zeit wird sehr oft vom _Halluzinieren_ gesprochen. Allerdings nicht in Bezug auf Menschen, die ja auch selten von Halluzinationen heimgesucht werden, als vielmehr in Bezug auf Sprachmodelle, die komische Antworten liefern, die keinen Sinn ergeben oder sich angebliche Fakten zusammenfabulieren, für die es keine Belege gibt. Dass es problematisch ist, dieses nicht gewünschte Verhalten von Sprachmodellen als “Halluzination” zu bezeichnen, wird in einigen Arbeiten betont. So weisen Bender und Hanna (2025) darauf hin, dass der Begriff “Halluzination” den Sprachmodellen menschliche Charakteristika unterstelle, die diese jedoch nicht aufweisen. Da Sprachmodelle aber keine Wahrnehmung haben, können sie auch nicht halluzinieren. > It matters what words we use when we talk about these technologies. For instance, in our writing, we don’t use the term “hallucination” to discuss the errors of LLMs, for two reasons. First, if it’s used tongue-in-cheek, it is making light of what can be symptoms of serious mental illness. Second, “hallucination” refers to the experience of perceiving things that aren’t there. But LLMs actually don’t have perceptions, and suggesting that they do is yet more unhelpful anthropomorphization. That means we also avoid assigning thought processes to these systems, or saying that they can “think”. (Bender und Hanna 2025: 167) Zweig (2025) argumentiert, dass der Begriff “Halluzination” nicht präzise genug ist, da Menschen, die halluzinieren, nicht zwangsläufig komische Sätze äußern, sondern Dinge wahrnehmen, die nicht der Realität entsprechen. Daher schlägt Zweig, basierend auf einem Vorschlag von McGowan et al. (2023) vor, stattdessen von _Konfabulation_ zu sprechen. > Tatsächlich hat es sich eingebürgert, bei solchen Fehlern von Sprachmodellen von Halluzinationen zu sprechen, obwohl es sich dabei um einen ungeeigneten Begriff handelt. Die Psychologin Alessia McGowan und ihre Co-Autoren weisen darauf hin, dass es bei Halluzinationen um eine Wahrnehmungsstörung geht: Halluzinationen sind als real wahrgenommene Sinneseindrücke, für die es keinen erkennbaren äußeren Reiz gibt. Die Psychologen schlagen daher den Begriff der _Konfabulation_ vor, dem Erfinden von Inhalten, die ein Patient in diesem Moment für wahr hält. (Zweig 2025: § 2) Während ich prinzipiell beiden Argumenten zustimme, scheint mir, dass beide das Problem des Konzepts der Halluzination nicht korrekt erfassen. Denn egal ob man nun von _Halluzionationen_ , _Irrtümern_ (Bender und Hanna 2025) oder _Konfabulationen_ (Zweig 2025 und McGowan et al. 2023) spricht, in allen Fällen ignoriert man das ursprüngliche Problem, welches darin besteht, dass Sprachmodelle fälschlicherweise als eine Art von “Wahrheitsmaschinen” im Sinne von Simanowski (2025) angesehen werden, die sie aber streng genommen gar nicht sein können. > Die Sprachmaschine lässt sich als “Wahrheitsmaschine” freilich nur unter verschiedenen Voraussetzungen denken, die alle nicht erfüllt sind. Denn es ist eben nur idealtypisch so, dass diese Maschine alle Daten der Welt mathematisch miteinander ins Verhältnis setzt. In der Praxis sind es bloß bestimmte Daten mit unklaren Gewichtungen. (Simanowski 2025: 92) Trotz der riesigen Datenmenge, an denen große Sprachmodelle trainiert worden sind, beruhen sie auf einem begrenzten Datensatz, in dem, was “wahr” ist oder “wahr” sein kann, nur _mittelbar_ , durch die versprachlichten Ansichten von Menschen digital verfügbar gemacht worden ist. Menschen selbst können ja in Bezug auf das, was sie für wahr und das, was sie für falsch halten, maximal unterschiedlicher Meinung sein. Auch die Wissenschaft selbst verwehrt sich ja zumindest in ihren theoretischen Grundlagen dagegen, einen Anspruch auf absolute Wahrheit oder zweifelsfreie Fakten zu erheben (Popper 1935). Es sollte daher klar sein, dass auch Chatbots – die ja nicht mehr erreichen, als menschliches Sprechverhalten geschickt zu simulieren – in Bezug auf die Inhalte, die sie produzieren, mit ziemlich schmutzigem Wasser kochen. Genauso, wie man sich die Textblasen, die einem die eigene Wohlfühlbubble in die Timeline spült, nicht ohne kritische Prüfung als vollwertige Inhalte mit plausiblen Fakten zu eigen machen sollte, sollte man auch nicht erwarten, dass ein Chatprogramm, nur weil es von einer angeblichen künstlichen Intelligenz angetrieben wird, stets unwiderlegbare Fakten produziert. Wenn wir die prinzipielle Subjektivität von Fakten, oder die prinzipielle Unmöglichkeit, das _Wahre_ vollkommen zuverlässig vom _Falschen_ zu unterscheiden, jedoch grundsätzlich anerkennen, dann hat das Konzept der Halluzination oder Konfabulation in Bezug auf die Bewertung von Chatprogrammen wenig praktischen Nutzen. Je nachdem, welche Perspektive man bei der Bewertung von generierten Texten einnimmt, könnte man nämlich entweder nahezu alles, was diese produzieren, als Halluzination bezeichnen, oder gar nichts. Man könnte das Konzept der Halluzination in Bezug auf Sprachmodelle natürlich weiter verengen, und betonen, dass es sich lediglich auf diejenigen Fälle beziehen sollte, in denen bestimmte Daten fabrizieren, wie Personen oder literarische Werke die es nachweislich nicht gibt. Dies steht jedoch nicht nur im Widerspruch zum allgemeinen Gebrauch des Wortes in vielen Sprachen, es steht auch im Widerspruch zur Technik, mit der Sprachsimulatoren betrieben werden. Denn diese Technik ist nicht auf Wahrheit und Unwahrheit oder belegbare und unbelegbare Daten ausgerichtet, sie zielt lediglich darauf ab, Sprache überzeugend zu simulieren. Aus dieser _ontologischen_ Perspektive, die sich an der Technik orientiert, mit der Chatbots betrieben werden, weist die Sprache, die diese produzieren, weder Halluzinationen, noch Konfabulationen, noch Fehler auf, da ihre Architektur Texte nicht mit der Intention produziert, dass deren Inhalte in irgendwelchen unabhängigen Daten verankert sein müssten. Sprachmodelle – zumindest diejenigen, die den populärsten Chatbots zugrunde liegen – simulieren einfach menschliche Sprache. Irgendeine Form der _Alinierung_ der generierten Sprache mit irgendwelchen wie auch immer definierten Fakten ist zumindest in der derzeit am weitesten verbreiteten Architektur nicht vorgesehen. Es scheint mir daher wenig sinnvoll, bei Sprachmodellen, die Text generieren, der mit Wahrheit oder mit Fakten, wie immer man diese definieren mag, erst mal gar nichts zu tun hat, plötzlich von “Halluzinationen” zu reden, oder diesen zu unterstellen, dass sie “konfabulieren”, wenn sie Text produzieren, der sich in den Trainingsdaten so nicht finden lässt. Immerhin ist das _Generieren_ von Text ja das Argument, das die Techkonzerne nutzen, um wahllos geistiges Eigentum von verschiedensten Urheberinnen und Urhebern stehlen zu können, ohne direkt dafür belangt zu werden. Es ist klar, dass die Konzerne, die sich an fremdem geistigen Eigentum mit ihren Chatbots bereichern wollen, ein Interesse daran haben, ihre “Sprachmaschinen” (wie Simanowski 2025 LLM-basierte Chatbots nennt) als nichtmenschliche Intelligenzen darzustellen, die ihr Wissen in digitalen Daten verankert haben. Dies ist jedoch tatsächlich nichts weiter als eine Marketinglüge. Chatprogramme fabulieren _immer_ , in vielen Fällen scheint das, was sie zusammenfabulieren, den menschlichen Kommunikationspartnern als Informationsquelle oder Quelle, die ihnen eigene Fabulierungsarbeit erspart, zu genügen. Wenn es aber einmal _nicht_ genügt, dann scheint es mir komplett falsch zu sein, von einer Halluzination oder einem Irren aufseiten der artifiziellen Antilligenz zu sprechen. Das Framing spielt eigentlich nur wieder der Marketinglüge von der rationalen, denkenden Maschine in die Hände. Ich lehne es also generell ab, bei LLM-basierten Chatprogrammen und anderen KI-Tools, wie Bildgeneratoren von Halluzinationen oder Irrtümern auf Seiten der Modelle zu sprechen. Halluzinieren zu können setzt voraus, die Welt ohne Halluzinationen wahrzunehmen. Sich in seinen Äußerungen irren zu können setzt voraus, dass man die Absicht hat, sich korrekt zu äußern. Beides trifft auf große Sprachmodelle in ihrer klassischen Architektur nicht zu. Das heißt jedoch nicht, dass ich die Möglichkeit prinzipiell ausschließe, dass man Chatbots erschaffen könnte, die halluzinieren, konfabulieren und sich irren können. Wenn es gelingen sollte, Computermodelle auf ähnliche Art in der Welt zu verankern, wie Menschen das mit ihren Sinnen tun, und wenn es gelingen sollte, Modelle zu schaffen, die tatsächliche kommunikative Absichten verfolgen, dann müsste man die Situation eventuell neu überdenken. In so einem Fall kann ich es mir aber schwer vorstellen, dass man bei Modellen, die Irrtümer begehen, überhaupt auf die Idee kommen würde, von Halluzinationen zu sprechen. Man würde vielleicht einfach sagen, dass sie nicht so gut funktionieren, wie erwartet. ## Literatur Bender, Emily M., and Alex Hanna. 2025. _The AI Con. How to Fight Big Tech’s Hype and Create the Future We Want_. New York: Harper-Collins. McGowan, Alessia, Yunlai Gui, Matthew Dobbs, Sophia Shuster, Matthew Cotter, Alexandria Selloni, Marianne Goodman, Agrima Srivastava, Guillermo A. Cecchi, and Cheryl M. Corcoran. 2023. “ChatGPT and Bard Exhibit Spontaneous Citation Fabrication During Psychiatry Literature Search.” _Psychiatry Research_ 326: 1–6. https://doi.org/10.1016/j.psychres.2023.115334. Popper, Karl. 1935. _Logik Der Forschung. Zur Erkenntnistheorie der modernen Naturwissenschaft_. Wien: Springer. Simanowski, Roberto. 2025. _Sprachmaschinen. Eine Philosophie der künstlichen Intelligenz_. München: C. H. Beck. Zweig, Katharina. 2025. _Weiß die KI, dass Sie nichts weiß? Wofür wir Chatbots und KI-Agenten nutzen sollten, wo sie sich irren und wo wir aufpassen müssen_. München: Heyne. * * * Nur der Text ist unter der Lizenz Creative Commons Namensnennung-Nicht kommerziell-Share Alike 4.0 International nutzbar. Alle anderen Elemente (Abbildungen, importierte Anhänge) sind „Alle Rechte vorbehalten“, sofern nicht anders angegeben. * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (11. Januar 2026). Vom Fabulieren und Halluzinieren. _Von Wörtern und Bäumen_. Abgerufen am 11. Januar 2026 von https://wub.hypotheses.org/3313 * * * * * * * *

wub.hypotheses.org

January 12, 2026 at 11:28 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Final preprint in this year (I guess), by our doctoral student David Snee, Luca Ciucci, and myself:

Variation in Language Phylogenies May Result From Variation in Concept Translation

https://doi.org/10.17613/dpaf1-egm52

December 18, 2025 at 9:07 PM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Final blog post in our CALC-Journal in this year.

"Towards a Unified ConversionTable for Semitic Transcriptionsand Transliterations"

With our new project member Carlo Meloni.

https://calc.hypotheses.org/9109

Towards a Unified Conversion Table for Semitic Transcriptions and Transliterations

In this study we present a preliminary conversion table that can be used for transcriptions and transliterations across different Semitic languages. We introduce the basic idea behind the table, show how it can be used, and explain how we hope to expand it in the future. ## 1 Introduction Transcription and transliteration practices vary drastically across languages, language groups, and language families (Anderson et al. 2018). As a result, it is often difficult for scholars who are new to a given linguistic area or subgroup to understand how symbols are used to represent sounds. In the following, we will give a very short overview on the transcription practices that emerged for the Semitic language family and propose a conversion table that can be used along with a dedicated software package to convert from individual transcription systems employed to document most Semitic languages to phonetic transcriptions in the International Phonetic Alphabet. ## 2 Background Semitic transcription and transliteration practices developed in nineteenth-century European scholarship, particularly within German-speaking Semitic philology. What is known as the Semitological transcription system did not emerge as a single fixed standard, but as a shared framework for representing Semitic languages such as Hebrew, Aramaic, Arabic, Akkadian, and Ethiopic in the Latin alphabet. Its primary purpose was to support comparative and historical analysis rather than to provide fine-grained phonetic detail (Weninger et al. 2011). Early Semiticists such as Wilhelm Gesenius, Heinrich Ewald, and later Theodor Nöldeke developed a set of conventions that adapted the Latin alphabet through the systematic use of diacritics and modified letters. Dots below, macrons, carons, and other special characters made it possible to represent consonantal distinctions lacking direct equivalents in European languages, most notably emphatic consonants (pharyngealized or ejective) and pharyngeals / laryngeals segments.. From the outset, these conventions were intended to encode phonological categories and historical identities rather than narrow phonetic detail. A symbol such as <ṭ>, for example, was meant to designate an emphatic /t/ as a structural category, without committing the scholar to a specific articulatory analysis such as pharyngealization or ejection (/tˤ/, /tʼ/). By the late nineteenth and early twentieth centuries, the system had become widely established in grammars, dictionaries, and epigraphic editions, with a largely shared core despite minor national variations. Within this general Semitological framework, language-specific transliteration systems were developed for individual languages and subgroups (cf. for example, Brockelmann and Ronkel 1935). Arabic studies produced influential conventions such as the DMG system and DIN 31635, while Hebrew, Ethiopic, Ethio-Semitic, and Modern South Arabian traditions adapted the same principles to their own linguistic features (vowel length and quality contrasts for Hebrew, labialized and palatalized consonants for Ethio-Semitic). In all cases, the emphasis remained on structural and historical comparability rather than phonetic precision. The strength of the Semitological system lies in this abstraction, which has ensured its long-term stability and cross-linguistic applicability and has allowed it to adapt smoothly to digital typography and Unicode. At the same time, the system has clear limitations. Its deliberate avoidance of phonetic specificity can obscure real differences in pronunciation between languages and dialects, and its categories reflect the priorities and assumptions of nineteenth-century European scholarship, which are not always aligned with modern descriptive or community-based approaches to language documentation. For phonetic analysis and fieldwork, IPA-based transcription is therefore indispensable, and the two systems are best seen as complementary rather than competing (Huehnergard and Pat-El 2019). ## 3 Materials and Methods The general idea that we have in mind is to come up with an initial orthography profile that could serve as a general basis to turn transcriptions and transliterations used in particular contexts to transcribe lexical data in Semitic languages into standardized transcriptions of the International Phonetic Alphabet, or – more specifically – the particular version of the IPA underlying the Cross-Linguistic Transcription Systems initiative Anderson et al. (2018). To achieve this conversion and to run the tests, we make use of the possibility to convert original strings written in individual transcription traditions typical for the handling of individual Semitic languages, with the help of conversion tables as introduced in the _LinSe_ software package (Forkel and List 2024, https://pypi.org/project/linse). Conversion tables in _LinSe_ build on the idea of _Orthography Profiles_ presented originally by Moran and Cysouw (2018). The differences between orthography profiles are conversion tables are mostly conceptually. Although orthography profiles _predate_ conversion tables, conversion tables can be thought of as the more abstract concept, in so far as they serve for the conversion of strings drawn from one alphabet into strings represented by different alphabets with the help of rudimentary replacement rules that are applied in a greedy fashion. Conversion tables in _LinSe_ have a very flexible format. All that one needs to create a conversion table are data in tabular form represented in CSV format. In the conversion table, one column reflects the alphabet in which the original strings are represented, and additional columns can be used to provide replacement values. When employing a conversion table, one can either simply _parse_ the original string or the original set of strings into chunks defined as graphemes in the column representing the original alphabet, or one can convert the values directly to the desired replacement values. Our initial conversion table for Semitic transliteration and transcription consists of roughly 150 graphemes, i.e., strings consisting of one or more characters, along with their most general counterpart in the B(road)IPA system of the CLTS standard for phonetic transcription based on the International Phonetic Alphabet (IPA 1999) along with the _name_ of the respective sound in the CLTS system (see https://clts.clld.org for details). In three cases, one sequence corresponds to two sounds. In these cases, the corresponding IPA sounds are separated by a white space (following the basic conventions used in software tools, such as LingPy, see List et al. 2018) and the names of the sounds are separated by a `+` symbol. The conversion table itself can be found on Codeberg (https://codeberg.org/digling/semitic-transliterations), from where it can be freely downloaded and used along with the _LinSe_ package or with other software solutions. ## 4 Examples ### 4.1 Introducing the SegmentGrouper Object in _LinSe_ A conversion table in _LinSe_ can be initiated in two major ways. One can load it from file, or one can pass it as a two-dimensional list. The following conversion table identifies `a`, `b`, `ab`, and `abab` as valid segments of a sequence and will group them together in a greedy fashion, if it identifies them in a string. By calling the function with a string as an argument, the instantiated SegmentGrouper will split the input string into chunks recognized from the alphabet. >>> from linse.convert import SegmentGrouper >>> sg = SegmentGrouper.from_table([["Sequence"], ["a"], ["b"], ["ab"], ["abab"]]) >>> sg("aba") ["ab", "a"] When instantiating the SegmentGrouper with an additional column, this column can serve as the replacement table. To convert a sequence into another sequence, one must pass the name of the column as argument when calling the function. >>> sg = SegmentGrouper.from_table([["Sequence", "Out"], ["a", "A"], ["b", "B"], ["ab", "C"], ["abab", "D"]]) >>> sg("aab", column="Out") ["A", "C"] ### 4.2 Employing the SegmentGrouper on Semitic Data The initial conversion table is supplemented with this study in the form of a CSV file that can be downloaded from Codeberg (https://codeberg.org/digling/semitic-transliterations). From there, one can either directly download the file `semct.csv` or clone the repository. In the following, we show how it can be used to retrieve IPA transcriptions from the transliteration of Arabic numerals from one to five. We assume that the terminal is opened in the same folder in which the file resides. from linse.convert import SegmentGrouper from tabulate import tabulate sg = SegmentGrouper.from_file('semct.csv', delimiter=",") # words are taken from # https://en.wiktionary.org/wiki/Appendix:Arabic_Swadesh_list words = ["wāḥid", "ʾiṯnān", "ṯalāṯa", "ʾarbaʿa", "ḵamsa"] for word in words: table += [[" ".join(sg(w)), " ".join(sg(w, column="IPA"))]] print(tabulate(table, tablefmt="pipe", headers=["Original", "IPA"])) This code produces the results shown in Table 1. While it is clear that there are quite a few different ways how these could have been achieved, we think that conversion tables offer a particular simple way to get started with sequence manipulation, especially also because they can be easily tested and expanded. **Table 1:** Result of the sequence conversion routine of Arabic numerals from one to five. Original | IPA ---|--- w ā ḥ i d | w aː ħ i d ʾ i ṯ n ā n | ʔ i θ n aː n ṯ a l ā ṯ a | θ a l aː θ a ʾ a r b a ʿ a | ʔ a r b a ʕ a ḵ a m s a | x a m s a ## 5 Conclusion We do not think that this initial conversion table is correct in all cases, nor do expect it to serve as a competitor for targeted conversion tools for individual languages, such as PanPhon (Mortensen et al. 2016). However, we take the table as a hopefully useful starting point from which we intent to see if we can start to populate a larger collection of etymologies in Semitic languages that we want to investigate in more detail along with their phonetic representations. ## References Anderson, Cormac, Tiago Tresoldi, Thiago Costa Chacon, Anne-Maria Fehn, Mary Walworth, Robert Forkel, and Johann-Mattis List. 2018. “A Cross-Linguistic Database of Phonetic Transcription Systems.” _Yearbook of the Poznań Linguistic Meeting_ 4 (1): 21–53. https://doi.org/10.2478/yplm-2018-0002. Brockelmann, Carl, and Philippus Samuel van Ronkel. 1935. _Die Transliteration Der Arabischen Schrift in Ihrer Anwendung Auf Die Hauptliteratursprachen Der Islamischen Welt: Denkschrift Dem 19. Internationalen Orientalistenkongreß in Rom_. Leipzig: Deutsche Morgenländische Gesellschaft. Forkel, Robert, and Johann-Mattis List. 2024. “A New Python Library for the Manipulation and Annotation of Linguistic Sequences.” _Computer-Assisted Language Comparison in Practice_ 7 (1): 17–23. https://doi.org/10.15475/calcip.2024.1.3. Huehnergard, John, and Na‘ama Pat-El, eds. 2019. The Semitic Languages. 2nd ed. Abingdon and New York: Routledge. IPA, ed. 1999. _Handbook of the International Phonetic Association: A Guide to the Use of the International Phonetic Alphabet_. Cambridge: Cambridge University Press. List, Johann-Mattis, Cormac Anderson, Tiago Tresoldi, and Robert Forkel. 2021. _Cross-Linguistic Transcription Systems. Version 2.1.0_. Jena: Max Planck Institute for the Science of Human History. https://doi.org/10.5281/zenodo.3515744. List, Johann-Mattis, Mary Walworth, Simon J. Greenhill, Tiago Tresoldi, and Robert Forkel. 2018. “Sequence Comparison in Computational Historical Linguistics.” _Journal of Language Evolution_ 3 (2): 130–44. https://doi.org/10.1093/jole/lzy006. Moran, Steven, and Michael Cysouw. 2018. _The Unicode Cookbook for Linguists: Managing Writing Systems Using Orthography Profiles_. Berlin: Language Science Press. https://langsci-press.org/catalog/book/176. Mortensen, David R., Patrick Littell, Akash Bharadwaj, Kartik Goyal, Chris Dyer, and Lori S. Levin. 2016. “PanPhon: A Resource for Mapping IPA Segments to Articulatory Feature Vectors.” In _Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers_ , 3475–84. ACL. Weninger, Stefan, ed. 2011. The Semitic Languages: An International Handbook. With Geoffrey Khan, Michael P. Streck, and Janet C. E. Watson. Berlin/Boston: Walter de Gruyter. **Cite this article as:** Meloni, Carlo and List, Johann-Mattis (2025): “Towards a unified conversion table for semitic transcriptions and transliterations” in _Computer-Assisted Language Comparison in Practice_ , 8.2: 107-112 [first published on 17/12/2025], URL: https://calc.hypotheses.org/9109, DOI: 10.15475/calcip.2025.2.6. **Download the article as PDF:** calcip-08-2-6.pdf **Copyright information** : This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. **Funding Information** : This project has received funding from the European Research Council (ERC) under the European Union’s Horizon Europe research and innovation programme (Grant agreement No. 101044282). The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript. **Supplementary Materials:** Data and code can be found at https://codeberg.org/digling/semitic-transliterations. * * * OpenEdition suggests that you cite this post as follows: Carlo Meloni, Johann-Mattis List (December 17, 2025). Towards a Unified Conversion Table for Semitic Transcriptions and Transliterations. _Computer-Assisted Language Comparison in Practice_. Retrieved December 17, 2025 from https://calc.hypotheses.org/9109 * * * * * * * *

calc.hypotheses.org

December 17, 2025 at 8:38 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Mein Blogbeitrag für November, via @dehypotheses diesmal zum Aussterben von Standardpasswörtern:

Von bedrohten Spielarten der Kultur

https://wub.hypotheses.org/3086

Von bedrohten Spielarten der Kultur

Die Evolution ist faszinierend, bringt sie doch die schillerndsten Formen und Strukturen in Leben und Kultur hervor. Dabei gibt es jedoch auch immer wieder Aspekte von Vielfalt, die kaum einen zu interessieren scheinen. Zu diesen gehören auch die _Passwörter_ , die wir verwenden, um unsere Zugänge zu den sozialen Medien oder diversen anderen Konten, die vom Onlinebanking bis zum Emailprovider reichen, davor zu schützen, von Hackern gehackt und missbraucht zu werden. Während man diese vereinfachend als ein lästiges Nebenprodukt der menschlichen Existenz ansehen könnte, verbirgt sich in der Vielfalt und den Formen, in denen sie sich äußern, doch eine ganz spezifische, schillernde und auch unheimlich faszinierende Dynamik geistigen Schaffens, die bisher viel zu wenig wissenschaftliche Beachtung erhalten hat. Denn während sich die Wissenschaft in kleinkarierten Diskussionen über die Bedeutung von Impfungen für die menschliche Gesundheit oder die Möglichkeit und Unmöglichkeit von Laborursprüngen weltweiter Pandemien verliert, können wir genau während ich diese Zeilen hier schreibe, beobachten, wie mehr und mehr altgediente Passwörter in ihrer Existenz bedroht und von gemeinen Netzadministratoren zum Abschuss freigegeben werden. Dabei geht es nicht nur um konkrete Vertreter leicht memorisierbarer Standardpasswörter wie _12345_ , _password_ , oder _admin_ , die uns lange immens wichtige Dienste erwiesen haben. Auch _strukturelle Methoden_ zur Passwortgeneration, wie die Verwendung des Namens von Ehepartnern, Geburtsorten, Jugendlieben, oder Lieblingstieren, werden mehr und mehr von der Flut bedeutungsloser Passworthülsen verdrängt. Man kann sagen, dass bedeutungstragende Passwörter _an sich_ gefährdet sind. Die Passwörter von morgen sollen mit uns selbst nur noch so wenig wie möglich zu tun haben (Rentrop 2021). Wir sollen ihre Verwaltung kalten Passwortmanagern überlassen, denen es einzig und allein um _Sicherheit_ geht, während alles kulturell Erhabene, was unsere Passwortwahl als Ausdruck menschlichen Menschseins in aller Fehlbarkeit bisher bestimmt hat, dem schnöden Algorithmus untergeordnet oder gleich von sogenannten _alternativen_ Authentifizierungsmethoden ersetzt werden soll. Dazu kommt, dass wir Gefahr laufen, von bösartigen Hackern und Sicherheitsexperten öffentlich beschämt zu werden, wenn wir uns dem allgemeinen Diversitätstrend widersetzen, der von uns verlangt, ein einziges, leicht merkbares und leicht tippbares Passwort für mehrere Accounts zu verwenden (Reddig 2025). Hätte ich nicht kürzlich einen Aufwärtstrend bei der Bahn festgestellt, die auf dem Hinweg noch 2 Stunden Verspätung hatte, auf dem Rückweg aber bereits fast pünktlich war, wäre ich wohl schon komplett an unserer Gesellschaft verzweifelt. Die einzige Hoffnung, die ich jetzt noch habe, ist, dass die amerikanische Regierung uns aus der Patsche hilft und die bewusste Auschlöschung des verborgenen Kulturgutes, welches unsere Passwörter für eine Vielzahl von Menschen noch immer darstellen, verhindert. Genauso, wie sie uns helfen möchte, unsere Digitalregeln in Europa _ausgewogen_ zu gestalten (Ernst 2025), sollte sie uns auch helfen, dem schrecklichen Diversitätszwang bei Passwörtern zu entgehen. Unsere Freiheitsrechte dürfen auch hier nicht weiter von den Eliten aus Bürokratie und Wissenschaft beschnitten werden! ## Literatur Ernst, Nico. 2025. “US-Handelsminister: Zolldeal Für ,,Ausgewogene” Digitalregeln.” _Heise Online_ 2025 (11-24). https://www.heise.de/-11090223. Reddig, Sophia. 2025. “Hälfte Der Internetnutzer Verwendet Passwörter Mehrfach.” _ZEIT Online_ 2025 (04-25). https://www.zeit.de/digital/2025-04/login-passwoerter-login-umfrage-risiko. Rentrop, Christian. 2021. “Passwort-Manager: Tipps Und Tools Für Die Passwortverwaltung.” _Heise Online_ 2021 (05-06). https://www.heise.de/download/specials/Passwort-Manager-Tipps-Tools-fuer-die-Passwort-Verwaltung-6033009. * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (25. November 2025). Von bedrohten Spielarten der Kultur. _Von Wörtern und Bäumen_. Abgerufen am 25. November 2025 von https://wub.hypotheses.org/3086 * * * * * * * *

wub.hypotheses.org

November 25, 2025 at 8:09 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

New blog post in our #calc in Practice Blog / Journal, via @hypothesesorg
"Manipulating Lexical Forms with the PyLexibank FormSpec"

https://calc.hypotheses.org/8877

https://doi.org/10.15475/calcip.2025.2.3

Manipulating Lexical Forms with the PyLexibank FormSpec

Multilingual lexical data is typically stored in a wide variety of forms, based on many idiosyncratic decisions that vary from dataset to dataset. Here, a simple but efficient solution for the manipulation of lexical data in multilingual wordlists will be introduced. This solution, the PyLexibank FormSpec, was originall developed for the conversion of various kinds of lexical data to Cross-Linguistic Data Formats, but it can also be used as a standalone. This study offers a basic tutorial that illustrates how the FormSpec can be put to concrete use. ## 1 Introduction When working with lexical data in multilingual settings, one encounters a huge variety of ways in which similar kinds of information about lexical forms are encoded. While handling such cases may often require targeted solutions that may in the worst case consist in manual corrections of individual data points, our work with the Lexibank repository (List et al. 2022) has also allowed us to detect certain recurring idiosyncracies in lexical data that can be handled with unified approaches. These approaches have been integrated into the PyLexibank software package (Forkel et al. 2021) and provide important help in converting various kinds of cross-linguistic data with lexical forms to Cross-Linguistic Data Formats (Forkel et al. 2018). In this small study, I will introduce one particular solution that deals with lexical forms before their conversion to phonetic transcriptions. This solutions, as simple as it may seem, has helped us a lot in constructing the Lexibank repository that by now aggregates standardized data from more than 120 different datasets (Blum et al. 2025). ## 2 Background While the basic information that scholars want to provide in a dictionary or a wordlist can be described in pretty simple and straightforward terms, the techniques that scholars use in order to _mark_ this kind of information in concrete datasets vary greatly. While the major information that we need to provide when listing word forms in a given language consists in a triple of _language_ , _form_ , and _meaning_ (List 2014; Gévaudan 2007), linguistic practice adds various forms of complexity and inconsistency to this triple structure. Language names are rarely used in a standardized form, making it at times difficult to identify the varieties in question. Short glosses used to represent meanings are often highly idiosyncratic and can at times only be understood from the larger context of the concept list in which they are assembled (List, Cysouw, and Forkel 2016). Forms are given in a mix of transcriptions, orthographic information, often expanded by additional information that can often only be understood when taking detailed contextual information into account. As an example, consider cases where data are given in tabular form, where columns represent languages and rows represent meanings, and word forms are placed into the respective cells. This format can be found in numerous publications and is considered some kind of a standard among many linguists. The problem of the format is, that it invites inconsistencies regarding the representation of the lexical forms. These inconsistencies surface in numerous occasions. Thus, if more than one word is found to express a given meaning in a given language, scholars use various ways to code for this, using characters like comman, semicolon, or slash as a delimiter when listing multipel word forms, with many datasets using different delimiters without any clear semantics attached to them. Another problem consists in the use of brackets, which are also used in multiple variants, ranging from square brackets over normal brackets to curly braces. Here again, semantics of bracket use are rarely consistent, ranging from reading variants over pronunciation differences to metainformation that relates to the language or the concept in question rather than to the word form itself. An additional problem consists in the explicit marking of missing data, which varies also greatly, ranging from empty cells over dashes invarious forms to explicit entries, such as “no data” or “missing entry”. While inconsistencies may seem to be unproblematic when inspecting data directly by eyeballing them, they may cause huge problems when trying to digest data with the computer. If missing data is marked by an entry “no entry”, for example, it can easily occur that this entry will make its way into the final database, leading to the false impression that the word for “apple” in some language variety is “no entry” instead of being simply missing from the record. The problems arising from variation in lexical entries in cross-linguistic datasets may not only sound funny but also evitable. One would expect computationally versed people to be able to spot or predict such problems when trying to convert a dataset to some standardized format. When dealing with idiosyncrasies of individual data, however, it is helpful to make use of some standardized routines that help to solve problems that often recur across different datasets in a unified way. ## 3 Getting Started with the PyLexibank FormSpec When developing the framework that would later be used to feed the Lexibank repository with data (Blum et al. 2025; List et al. 2022), we started out with individual solutions to deal with inconsistencies in lexical entries. Lexical entries were thus dealt with on a case-to-case basis, using standard routines for text manipulation offered by Python. When adding more data, however, we began to realize that certain problems with lexical forms would recur with a certain regularity. Entries for missing data would be marked idiosyncratically, multiple forms within the same cell would be separated with different separation symbols, and brackets would force us to apply at times quite complex regular expressions. In order to address these problems, a new functionality to handle lexical forms flexibly in a unified way was added to PyLexibank (Forkel et al. 2021), the library that we used to convert data that we would obtain in raw form from published resources into Cross-Linguistic Data Formats (Forkel et al. 2018). This _FormSpec_ , as it is called in PyLexibank, addresses the three major problems summarized above. It deals with brackets (preferably removing everything that is inside a bracket, given that both additional morphemes and metainformation can both not be reliably interpreted when standardizing a form entry). It deals with separators used to describe several variants within the same cell of a data entry. Finally, it also deals with missing data, allowing users to provide a list of the symbol combinations used to indicate that a cell contains _no_ data. Additionally, the FormSpec provides some basic _cleaning operations_ of lexical forms, stripping certain characters from the form and applying standard Unicode normalization (Moran and Cysouw 2018: 17). While the _FormSpec_ is automatically applied whenever you use CLDFBench (Forkel and List 2020) and PyLexibank to create a CLDF dataset, you can also test its functionality directly in an interactive Python session. In order to get started, all you need is a fresh installation of the PyLexibank package, which you can easily obtain with the help of the Python package index `pip`. $ pip install pylexibank Equipped in this form, all you need to load the _FormSpec_ is to import it from your interactive Python session or from within a Python script. from pylexibank import FormSpec In order to _use_ the _FormSpec_ , you must _initialize_ it first. This means, you predefine its behavior in cleaning a given lexical form. The call signature of the class is as shown below. class FormSpec(builtins.object) | FormSpec( | brackets={'(': ')'}, | separators=(';', '/', ','), | missing_data=('?', '-'), | strip_inside_brackets=True, | replacements=NOTHING, | first_form_only=False, | normalize_whitespace=True, | normalize_unicode=None | ) -> None We define pairs of brackets by means of a dictionary in which the key is the opening bracket and the value is the closing bracket. This would not work with cases where a bracket is defined by the same start and end symbol, but our experience shows that most datasets would use traditional brackets for which start and end symbols are defined. The separators handle multiple forms for the same concept. Missing data are passed as a list (or more strictly speaking, a tuple, according to the call, but a list will also be accepted). If the option `strip_inside_brackets` is set to `True`, this means that the algorithm deletes content inside brackets. With respect to the order of execution, note that in cases where a separator, used as a separator of multiple word forms, is also passed inside a bracket, the algorithm would not split the text at this point, but first identify the brackets in the text and then apply the segmentation operation. The option `first_form_only` will yield only the first form of multiple potential forms, when set to `True`. Normalization can be done with respect to whitespace (deleting and unifying whitespace) and Unicode (where one would have to choose between `NFD` and `NFC`). The option `replacements` allows to define a list consisting of tuples of source-target strings, where the source string is what will be replaced and the target string is the replacement. Having initialized the _FormSpec_ by calling the class with particular parameters, one can use it by calling its `split`-method with two arguments, the first argument being always `None` when using it outside the context of CLDFBench, while the second argument is the string one wants to manipulate. This is illustrated in the following example. >>> fs = FormSpec() >>> for form in fs.split(None, "this, is; a (form)"): ... print(form) this is a ## 4 Usage Examples When dealing with the _FormSpec_ , it is important to be aware about the order by which actions are carried out when using the functionality. In the following, we will go through some examples that illustrate basic use-cases. We start with the handling of brackets, which are – as I mentioned before – defined as a dictionary (opening bracket as a key, closing bracket as the value). This allows us to define all kinds of potentially strange brackets that could occur in one’s data. >>> fs = FormSpec(brackets={"<": ">", "{": "}"}) >>> fs.split(None, "this <really?>, is, an {example}") ['this', 'is', 'an'] The `missing_data` argument allows you to specify any string that could occur as missing data. The _FormSpec_ generally assumes that whitespace to the left or the right of the string will be stripped. >>> fs = FormSpec(missing_data=("???", "?")) >>> fs.split(None, "???, really,?, ") ['really'] For separators, there is a particular restriction that only single-character strings can be used as a separator. Thus, passing a string of more than one character will throw an error. Depending on the data, however, one can find workarounds that would nevertheless allow us to separate even strings where multiple characters have been used as a separator. As an example, consider the following output, where three slashes have been used as a separator. >>> fs = FormSpec(separators=(',', ';', '/')) >>> fs.split(None, "hallo /// welt / hier / bin //// ich") ['hallo', 'welt', 'hier', 'bin', 'ich'] According to the way in which _FormSpec_ works, the internal splitting process will only return those forms that consist of at least one character that is not a whitespace character. The _FormSpec_ splits the string in the example into 10 different forms, but only five are returned, since they are note empty. If you want to use the option to replace strings by other strings during the form conversion with the _FormSpec_ , it is important to keep in mind that the replacement is carried out _after_ all splitting operations have been carried out. This limits the possibilities of application, on the one hand, but it also reduces complexity, since the replacements are quite restricted and they do not interfere with the process of splitting a string into several forms. As an example, consider the following lines, where the replacement of the string `/x/` to the string `/` is not carried out, given that `/` is also defined as a character that triggers the string to be split into parts. >>> fs = FormSpec(separators=(',', ';', '/'), replacements=[('/x/', '/')]) >>> fs.split(None, "hallo /// welt / hier / bin /x/ ich") ['hallo', 'welt', 'hier', 'bin', 'x', 'ich'] ## 5 Outlook Although the _FormSpec_ is based on a limited number of options, the functionality has proven very useful in practice, especially when populating the Lexibank repository (Blum et al. 2025). It seems that the decision to limit the scope of the method to a very dedicated range of options, deciding, among others, against the possibility to apply regular expressions, was helpful, given that the results triggered by the current _FormSpec_ can still be easily understood when considering input and output strings. With more complex operations, we would quickly loose the possibility to trace individual decisions made in the code we used to convert raw data into standardized CLDF data points. ## References Blum, Frederic, Carlos Barrientos, Johannes Englisch, Robert Forkel, Simon J. Greenhill, Christoph Rzymski, and Johann-Mattis List. 2025. “Lexibank 2: Pre-Computed Features for Large-Scale Lexical Data [version 2; peer review: 3 approved].” _Open Research Europe_ 5 (126): 1–24. https://doi.org/https://doi.org/10.12688/openreseurope.20216.2. Forkel, Robert, Simon J Greenhill, Hans-Jörg Bibiko, Christoph Rzymski, Tiago Tresoldi, and Johann-Mattis List. 2021. _PyLexibank. The Python Curation Library for Lexibank [Software Library, Version 2.8.2]_. Geneva: Zenodo. https://doi.org/10.5281/zenodo.2630582. Forkel, Robert, and Johann-Mattis List. 2020. “CLDFBench. Give Your Cross-Linguistic Data a Lift.” In _Proceedings of the Twelfth International Conference on Language Resources and Evaluation_ , 6997–7004. Luxembourg: European Language Resources Association (ELRA). http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.864.pdf. Forkel, Robert, Johann-Mattis List, Simon J. Greenhill, Christoph Rzymski, Sebastian Bank, Michael Cysouw, Harald Hammarström, Martin Haspelmath, Gereon A. Kaiping, and Russell D. Gray. 2018. “Cross-Linguistic Data Formats, Advancing Data Sharing and Re-Use in Comparative Linguistics.” _Scientific Data_ 5 (180205): 1–10. https://doi.org/10.1038/sdata.2018.205. Gévaudan, Paul. 2007. _Typologie Des Lexikalischen Wandels: Bedeutungswandel, Wortbildung Und Entlehnung Am Beispiel Der Romanischen Sprachen_. Tübingen: Stauffenburg. List, Johann-Mattis. 2014. _Sequence Comparison in Historical Linguistics_. Düsseldorf: Düsseldorf University Press. https://doi.org/10.1515/9783110720082. List, Johann-Mattis, Michael Cysouw, and Robert Forkel. 2016. “Concepticon. A Resource for the Linking of Concept Lists.” In _Proceedings of the Tenth International Conference on Language Resources and Evaluation_ , edited by Nicoletta Calzolari (Conference Chair), Khalid Choukri, Thierry Declerck, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, 2393–2400. Luxembourg: European Language Resources Association (ELRA). https://aclanthology.org/L16-1379/. List, Johann-Mattis, Robert Forkel, Simon J. Greenhill, Christoph Rzymski, Johannes Englisch, and Russell D. Gray. 2022. “Lexibank, a Public Repository of Standardized Wordlists with Computed Phonological and Lexical Features.” _Scientific Data_ 9 (316): 1–31. https://doi.org/10.1038/s41597-022-01432-0. Moran, Steven, and Michael Cysouw. 2018. _The Unicode Cookbook for Linguists: Managing Writing Systems Using Orthography Profiles_. Berlin: Language Science Press. https://langsci-press.org/catalog/book/176. **Cite this article as:** List, Johann-Mattis (2025): “Manipulating Lexical Forms with the PyLexibank FormSpec” in _Computer-Assisted Language Comparison in Practice_ , 8.2: 87-93 [first published on 28/10/2025], URL: https://calc.hypotheses.org/8877, DOI: 10.15475/calcip.2025.2.4. **Download the article as PDF:** calcip-08-2-4.pdf **Copyright information** : This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. **Funding Information** : This project has received funding from the European Research Council (ERC) under the European Union’s Horizon Europe research and innovation programme (Grant agreement No. 101044282). The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript. * * * OpenEdition suggests that you cite this post as follows: Johann-Mattis List (October 27, 2025). Manipulating Lexical Forms with the PyLexibank FormSpec. _Computer-Assisted Language Comparison in Practice_. Retrieved October 27, 2025 from https://calc.hypotheses.org/8877 * * * * * * * *

calc.hypotheses.org

October 27, 2025 at 2:15 PM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

New preprint with Barbara Meisterernst, on a database of qù-tone alternations in Ancient Chinese, now out with Open-Research-Europe, awaiting open peer review.

https://doi.org/10.12688/openreseurope.21142.1

The database can be accessed at https://qualternations.digling.org

None -

qualternations.digling.org

October 22, 2025 at 12:33 PM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Mein Blogbeitrag via @dehypotheses für Oktober beschäftigt sich mit wissenschaftlichen Konstrukten und wie man sie kommuniziert.

Von gefühlten Tatsachen

https://wub.hypotheses.org/3049

Von gefühlten Tatsachen

In einem Touché-Comic, den die TAZ auf Bluesky vor ein paar Tagen teilte, wird ein älterer Herr im Schlafanzug von zwei älteren Damen, die an seiner Tür klingeln, zu früher Uhrzeit geweckt. Als er sich beschwert und fragt, ob die beiden denn wüssten, wie spät es eigentlich sei, antwortet die eine “Empfundene Uhrzeit: 4 Uhr und 15 Minuten”. Unabhängig davon, wie witzig ich den Comic fand, fühlte ich mich sofort an eine Diskussion erinnert, auf die ich in den letzten Wochen gestoßen bin. Es geht dabei um das Thema “gefühlte Inflation”, von dem ich in einigen Zeitungsartikeln lesen konnte. Bei der gefühlten Inflation geht es darum, dass viele Menschen aufgrund ihrer persönlichen Erfahrung, die – wenn ich meine eigene Erfahrung zugrunde lege – vorwiegend in Supermärkten stattfindet, davon ausgehen, dass wir immer noch sehr hohe Inflationsraten in Deutschland haben. Dem widersprechen aber die offiziell vom Statistischen Bundesamt erhobenen Daten, welche eine relativ geringe Inflation von 2,4 % im September ausweisen. Um die Diskrepanz zwischen den Ansichten vieler Verbraucher und den gemessenen Zahlen zu erklären, greifen Ökonomen nun auf das Konzept der _gefühlten Inflation_ zurück. Die Grundidee ist ähnlich der gefühlten Temperatur oder der empfundenen Uhrzeit. Was ein Individuum empfindet kann nach oben oder unten abweichen, von dem, was man offiziell messen kann. Das gilt dann entsprechend auch für die Inflation. Während diese Idee auf den ersten Blick plausibel klingen mag, hat sie mir bereits beim ersten Mal, als ich von ihr las (Zydra 2025a), einen komischen Nachgeschmack hinterlassen. Das Problem besteht für mich in der Annahme dass man die Diskrepanz zwischen der offiziell gemessenen Inflation und der Inflation, die Verbraucher wahrnehmen, wenn sie bestimmte Produkte kaufen, als eine Diskrepanz zwischen einer _echten_ Messung der Inflation und einer _falschen_ durch individuelle Verbraucher darstellen kann. Diese Haltung, die vor allem auch durch den Terminus “gefühlte Inflation” und seine Gleichsetzung mit anderen “gefühlten” Messwerten, suggeriert, dass es sich bei der Inflation um etwas handelt, was sich – ähnlich wie die Temperatur – weitestgehend objektiv messen lässt. Dies ist jedoch definitiv nicht der Fall, denn bei der Inflation handelt es sich – im Gegensatz zur Temperatur, bei der die Menschheit über sehr konsistente und stabile Messverfahren verfügt – um ein wissenschaftliches _Konstrukt_ , also ein Narrativ, das wir aufbauen, um auf Phänomene zu verweisen, die sich unserer unmittelbaren Beobachtung entziehen. Ein Konstrukt ist also die “fiction or story put forward by a theorist to make sense of a phenomenon” (Statt 1998[1981]: 67). Wie bei allen Konstrukten sind wir Menschen uns weitestgehend einig, dass es bei den Preisen in Volkswirtschaften allgemeine Tendenzen nach oben oder nach unten geben kann, die dann beim Anstieg von Preisen normalerweise _Inflation_ genannt werden und beim Fallen von Preisen _Deflation_. Wie _genau_ wir das Steigen und Fallen von Preisen aber von uns _gemessen_ werden kann, ist eine ganz andere Frage, die unter Wissenschaftlern durchaus kontrovers diskutiert wird. Das Statistische Bundesamt setzt nun ein spezifisches Verfahren an, mit dessen Hilfe das spezifische Konstrukt der Inflation, welches für das Statistische Bundesamt von Interesse ist, zu messen. Dieses Verfahren ähnelt den Verfahren, die auch zur Messung der Inflation in anderen Ländern verwendet werden. Es handelt sich aber dabei nicht um ein normiertes Vorgehen, welches international von allen Staaten als solches verwendet wird. Dies wäre auch sehr umständlich, da sich die Produkte, die wir konsumieren, ja in unterschiedlichen Ländern zwangsläufig voneinander unterscheiden. Da man nicht alle Preise zu jedem Zeitpunkt messen kann, wird also bei der Bestimmung der Inflation in Deutschland von diesem fiktiven Warenkorb ausgegangen, der verschiedenste Produkte in verschiedensten Kategorieren enthält. Von diesem Warenkorb habe ich selbst das erste Mal in der Schule gehört, ohne groß zu verstehen, worum es sich dabei handelt. Ich hatte mir immer einen richtigen Korb vorgestellt, in den man Äpfel und Birnen hineinlegt. Es ist aber viel besser – das hatten mir meine Lehrer damals verschwiegen – wenn man sich diesen Warenkorb als einfache Tabelle vorstellt, die verschiedenste Produkte enthält, die wiederum unterschiedlichen Kategorien zugeordnet sind. Das Resultat dieses Versuchs, die komplexe Realität von 80 Millionen Menschen zu beschreiben, ist die Unterschiedung von 650 verschiedenen _Güterarten_ , die weiter differenziert werden in unterschiedliche konkrete Produkte, und die darüber hinaus _gewichtet_ werden, was dadurch begründet wird, dass Haushalte ja unterschiedlich viel Geld für unterschiedliche Produkte ausgeben, die sie zum Leben brauchen (Böhl 2022). Da wir heute andere Dinge kaufen, als noch vor 50 Jahren, muss der Warenkorb beständig angepasst werden, was auch die Anpassung der Gewichte betrifft. So werden die Produkte regelmäßig angepasst und die Gewichtungen alle fünf Jahre (Böhl 2022). Was mich an dem Verfahren allerdings erstaunt ist, dass es ohne direkte Evaluierung der Messung abläuft. Während wir beim Messen der Temperatur eine mechanische Komponente haben, die Temperatur in den Thermometern, die wir im Alltag nutzen, aus der Ausdehnung von Materie ableitet, hängt die Messung der Inflation von den Entscheidungen ab, die wir treffen, um den Warenkorb zu erstellen und seine Gewichtung festzulegen. Das macht es grundsätzlich schwierig, die _Qualität_ oder _Messgenauigkeit_ des Verfahrens festzulegen. Denn die Frage, die man sich dabei stellen muss, ist ja, _was_ man eigentlich messen will, und _was_ genauer gemessen wird, wenn man Dinge an der Messung ändert. Die Messung der Inflation dient ja – wenn ich das richtig verstehe – vor allem dazu, die fiskalische Politik der Zentralbanken zu unterstützen. Die wollen ja eine zu hohe Inflation verhindern, aber eben auch dafür sorgen, dass es nicht am Ende zu einer Deflation kommt, welche genauso wie eine hohe Inflation problematische Auswirkungen auf das Wohlbefinden der Menschen haben kann. Wenn es aber – wie wir das im Moment wohl beobachten können – zu einer Situation kommt, in der Preise in bestimmten Güterklassen auf einem hohen Niveau weiterwachsen (wofür ich direkte Evidenz gesammelt habe, da ich mir über lange Zeit angewöhnt habe, die Preise von Produkten, die ich regelmäßig konsumiere und einkaufe, einzuprägen), während andere Preise relativ stabil bleiben, dann kommen wir zu einer Situation, in der unser wissenschaftliches Konstrukt von einer _einheitlichen_ Inflation an seine Grenzen gerät. Genau wie bei allen wissenschaftlichen Modellen, reduziert auch das Modell, welches wir von der Inflation haben, die Komplexität der Realität. Dies ist an sich kein Problem, solange das Modell _nützlich_ bleibt, um die Phänomene zu beschreiben, die uns interessieren (vgl. Roller 2024 zur Rolle, die Pragmatik bei Modellen in der Wissenschaft spielt). Wenn wir sagen, dass uns nur der Durschnitt der Preisanstige interessiert, kann man ohne Probleme weiter mit den Zahlen des Statistischen Bundesamtes arbeiten. Wenn man sich aber dafür interessiert, warum die Lebensmittelpreise rasant weitersteigen, während die restlichen Preise nur moderat ansteigen, dann muss man auf ein anderes Modell zurückgreifen, mit dem man das Konstrukt der Inflation genauer messen kann. Man könnte zum Beispiel sagen, dass die Messung der Inflation im Einklang mit der gefühlten Inflation möglichst vieler Menschen sein sollte. Um dies zu erreichen, müsste man Umfragen durchführen, unter unterschiedlichen Vertretern der Bevölkerung, und überprüfen, wofür die ihr Geld jeweils ausgeben. Dies würde auch zeigen, dass ein einheitlicher Gewichtungsfaktor in einer Situation wo eine Güterklasse einen starken Preisanstieg verzeichnet, während die Preise anderer Güterklassen sich nicht so stark verändern, vielleicht gar nicht so sinnvoll ist. Stattdessen könnte man, basierend auf Einkommensklassen, welche Teile der Bevölkerung von partiellen Preisanstiegen besonders betroffen sind. Ich bin kein Ökonom und auch kein Wirtschaftspolitiker. Daher werde ich mich nicht weiter in eine mögliche Debatte über die beste Methode, die Inflation zu messen, vertiefen. Als Wissenschaftler, der sich leidenschaftlich mit wissenschaftlichen Methoden beschäftigt, denke ich aber, dass es problematisch ist, die gefühlte Inflation als eine Fiktion abzutun und gleichzeitig das Konstrukt der Inflation, welches von dem Statistischen Bundesamt gemessen wird, mit der Realität gleichzusetzen (vgl. die Aussagen von Matthias Diermeier im Interview mit der SZ, Zydra 2025b). Denn ganz egal wie feingliedrig die Methoden sind, die vom Statistischen Bundesamt zur Messung der Inflation herangezogen werden: solange sich die Inflation nicht direkt beobachten lässt (und das wird so schnell nicht geschehen), wird man immer nur das Konstrukt messen können, und dieses ist ein hilfreiches Modell der Realität, es ist aber nicht mit der Realität gleichzusetzen. Man kann meine Kritik als sehr spitzfindig abtun, ich denke jedoch, dass die Wissenschaft in der Pflicht ist, nicht nur ihre Erkenntnisse zu kommunizieren, sondern auch die Grenzen dessen, was sich ohne Zweifel wissenschaftlich nachweisen lässt. Dass nicht nur die offiziell gemessene Inflation wissenschaftlich oder volkswirtschaftliche interessant ist, sondern auch welche Auswirkungen Preisveränderungen von bestimmten Produktklassen auf bestimmte Haushalte haben, wird von der Wissenschaft nicht umsonst als solches anerkannt und untersucht (Jungermann et al. 2007). Die starke Vereinfachung, welche das Gleichsetzen von gefühlter Inflation mit einer realitätsfernen Fiktion von Individuen mit sich bringt, ist eine Form der Reduktion, die sich die Wissenschaft nicht erlauben kann. Auch wenn es uns manchmal umständlich zu sein scheinen mag, sollten wir uns als Wissenschaftler immer die Zeit nehmen, sauber zwischen Realität und Modell zu unterscheiden. ## Literatur Böhl, Lukas (2022): Warenkorb zur Berechnung der Inflation._Stuttgarter Nachrichten_ 76 (4.19). https://www.stuttgarter-nachrichten.de/inhalt.warenkorb-inflation-mhsd.b706e3ec-56a5-4bab-9305-ed5cbd68cb02.html. Jungermann, Helmut, Hans Wolfgang Brachinger, Julia Belting, Katarzyna Grinberg, und Elisabeth Zacharias (2007): The Euro changeover and the factors influencing perceived inflation._Journal of Consumer Policy_ 30 (4): 405–419. https://doi.org/10.1007/s10603-007-9051-4. Roller, Ramona (2024): Modell [Version 2.0]. In: _Begriffe der Digital Humanities. Ein diskursives Glossar_ , edited by AG Digital Humanities Theorie des Verbandes Digital Humanities im deutschsprachigen Raum e. V., 1–12. Wolfenbüttel: Zeitschrift für digitale Geisteswissenschaften. https://doi.org/10.17175/WP_2023_009_v2. Statt, David A, ed. (1998[1981]): _Consise Dictionary of Psychology_. 3rd ed. London; New York: Routledge. Zydra, Markus (2025a): Niedrige Inflation, hohe Preise._Süddeutsche Zeitung_ 80 (3317692). https://www.sz.de/li.3317692. Zydra, Markus (2025b): “Bei der AfD stimmen neun von zehn Leuten der Aussage zu, dass die Inflation höher ist als die offiziell gemessene”._Süddeutsche Zeitung_ 80 (3297807). https://www.sz.de/li.3297807. * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (19. Oktober 2025). Von gefühlten Tatsachen. _Von Wörtern und Bäumen_. Abgerufen am 19. Oktober 2025 von https://wub.hypotheses.org/3049 * * * * * * * *

wub.hypotheses.org

October 20, 2025 at 8:14 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

New preprint by Katja Bocklage (PhD in our ERC project) and many others from our chair just published online with Humanities Commons.

Testing the Potential of Automatically Inferred Affix Colexifications for Linguistic Typology

https://works.hcommons.org/records/adjya-rzp79

October 2, 2025 at 12:00 PM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

New post by our doctoral student Arne Rubehn in our CALCiP journal / blog.

"Integrating Semantic Embeddings into NoRaRe"

https://calc.hypotheses.org/8783

Integrating Semantic Embeddings into NoRaRe

This study illustrates how semantic embeddings can be added to and retrieved from NoRaRe. By that, it provides a template for handling vector data and makes popular methodology in semantic modeling available for cross-linguistic comparison. # 1 Introduction The success of word embedding techniques has lead to a complete shift to a distributional framework in computational semantics, which is underlined by the fact that word embeddings build the backbone of modern Large Language Models. Following the distributional hypothesis, vector representations for words (i.e., embeddings) are learned from surrounding words. Words with similar meanings and/or functions will therefore appear in similar contexts, leading to similiar representations, while words that are found in different contexts are considered dissimilar and thus appear distant from each other in the embedded vector space. Since they are demonstrably powerful, yet readily interpretable, static word embeddings (meaning that one word maps to one vector representation, in contrast to contextual word embeddings) trained with models like Word2Vec (Mikolov et al. 2013), GloVe (Pennington et al. 2014), and FastText (Bojanowski et al. 2017) remain a popular choice for the computational investigation of semantic similarity and relations between word forms. While certainly powerful and highly expressive, word embeddings cannot be directly plugged into models for computer-assisted language comparison. Research in comparative linguistics relies on the presence of comparative concepts — items under the same gloss in different languages should refer to the same sense or concept (even if the gloss in the metalanguage is potentially ambiguous). For example, the English word _bark_ can refer to the exterior part of a tree or the vocalization of a dog. The word embedding for _bark_ captures both meanings — simply using that embedding for a wordlist where _bark_ only refers to the part of the tree would thus lead to an imprecise representation of the expressed concept due to the homonymy in the English gloss. To address this problem, we recently presented a new technique for training language-agnostic _concept embeddings_ from cross-lingual colexification networks (Rubehn and List 2025). In this post, I will describe how those concept embeddings were integrated into the Database of Norms, Ratings, and Relations (NoRaRe, Tjuka et al. 2022, https://norare.clld.org/) alongside multilingual FastText word embeddings (Grave et al. 2018). By that, I will provide a general tutorial on how to integrate and retrieve vector data with NoRaRe. # 2 Integrating Concept Embeddings into NoRaRe Following last month’s tutorial by List (2025), we start by expanding the `norare.tsv` and `datasets.tsv` files that contain basic information about all datasets collected in NoRaRe, as well as adding new references to `references/references.bib`. In `datasets.tsv`, I simply append one new line where I provide meta-information concerning the new dataset under the name `Rubehn-2025-ConceptEmbeddings`. This name is used as unique identifier for the dataset throughout the entire integration process. Similarly, I extend `norare.tsv` by describing the type of data I am contributing. Since for each concept I am contributing several vector representations (3 types of concept embeddings based on different types of colexification + FastText embeddings in 9 different languages), each of them has to be described separately in a new line. Finally, I add BibTeX entries for the sources of the data I am contributing (in this case Grave et al. 2018; Rubehn and List 2025) to `references/references.bib`. Having dealt with the basic files, it is time to contribute the actual dataset. For this, the first step is to create a new directory `datasets/Rubehn-2025-ConceptEmbeddings` where all relevant information is stored. This directory itself will contain three files: `Rubehn-2025-ConceptEmbeddings.tsv`, `Rubehn-2025-ConceptEmbeddings.tsv-metadata.json`, and `norare.py`. Note how the dataset identifier is recurring in the namespace. `Rubehn-2025-ConceptEmbeddings.tsv-metadata.json` is a metadata file conforming to CSVW standards (Gower 2021). Simply speaking, it allows (and requires) me to define which columns the corresponding TSV file (where all data is written to) contain, and which data type is expected in each column. This ensures data consistency and allows for smooth data retrieval later on. Concretely, I use this file to define that each entry consists of a Concepticon ID, the corresponding Concepticon gloss (the concept inventory that NoRaRe operates on is defined by Concepticon; List et al. 2025, https://concepticon.clld.org/), and then all different types of embedding vectors described above. For all columns containing embeddings, I define `"json"` as data type: embeddings are therefore directly represented as lists of floats. Finally, we get to the core of the dataset: the `norare.py` script that produces the file `Rubehn-2025-ConceptEmbeddings.tsv`, which contains all the actual data in the end. In `norare.py`, I have to define two functions that correspond to shell commands defined by `pynorare` (List and Forkel 2024): `download` and `map`. As the names suggest, these two functions define the behavior for 1. downloading the raw data and 2. mapping them to NoRaRe. For the concept embeddings, it is straightforward to define the downloading and mapping behavior, since the embeddings already represent Concepticon concepts directly. The only trick I had to employ here was to round all numbers to 4 decimals to prevent the file from becoming too large. This is a simple quantization technique that is commonly done to compress data (Gray and Neuhoff 1998) without losing relevant information. # 3 Integrating Multilingual Word Embeddings into NoRaRe Mapping multilingual FastText embeddings (Grave et al. 2018) requires some more handling of data, which is essentially due to the fact that embedded words have to be mapped to the concepts defined by Concepticon, and this mapping is usually not a 1-to-1 relation. As a first step, again, we download the data from https://fasttext.cc/docs/en/crawl-vectors.html. Now that we have obtained the embeddings for _words_ in different languages, we have to map them to the relevant _concepts._ This can be done via the MultiSimLex database (Vulić et al. 2020) that provides parallel translations for 1,888 cues in various different languages. Since the elicited cues have already been linked to Concepticon (List 2021) and the translations are parallel, MultiSimLex offers a good resource for systematically linking words from different languages to Concepticon concepts. Now that we have a principal method for mapping words to concepts, we encounter another problem that we need to deal with: sometimes, there are multiple translations for the same concept. For example, the concept CAR can be expressed by the Russian words _avtomobil’_ and _mashina,_ and both translations are actually found in the MultiSimLex data. In those cases, we define the vector representing a concept in a language as the weighted average of the corresponding word vectors. As a simplified example, assume that we find 1 occurrence of _avtomobil’_ with the vector `[2, 3]` and two occurrences of _mashina_ with the vector `[1, 6]`: the resulting vector would be `[(1*2 + 2*1) / 3, (1*3 + 2*6) / 3] = [1.3333, 5]`. With solutions to these practical issues, we now have a robust and consistent way of handling and mapping word embedding data to Concepticon; so we can simply implement the described behavior in the `map` function. Having implemented both the downloading and mapping routine for both, the concept embeddings and the word embeddings, pynorare offers convenient shell commands to create the desired TSV file, in which all information is finally represented. $ norare download Rubehn-2025-ConceptEmbeddings # download data $ norare map Rubehn-2025-ConceptEmbeddings # map data # 4 Retrieving Embeddings from NoRaRe Thanks to the pynorare API and the CSVW specifications, it is now straightforward to retrieve the different embeddings. Start by creating a fresh virtual environment, install pynorare via pip and clone the latest version of the Concepticon and NoRaRe datasets: $ python -m venv venv $ source venv/bin/activate # for *NIX-based systems; if you use Windows, you need to run the 'Activate.ps1' script instead $ git clone --depth=1 https://github.com/concepticon/concepticon-data $ git clone --depth=1 https://github.com/concepticon/norare-data Now that you’re set up, you can easily retrieve the described embeddings, as illustrated in the code snippet below. Thanks to the CSVW specifications, all data are already represented as objects of the correct type — the embedding vectors are already lists of floats, and the Concepticon ID’s are already integers. from pynorare import NoRaRe from pyconcepticon import Concepticon # set up Concepticon and NoRaRe API c = Concepticon("concepticon-data") norare = NoRaRe("norare-data", concepticon=c) # retrieve data embedding_data = norare.datasets["Rubehn-2025-ConceptEmbeddings"] concept_embeddings = {concepticon_id: entry["embeddings_full_affix"] for concepticon_id, entry in embedding_data.items()} ft_embeddings_es = {concepticon_id: entry["fasttext_es"] for concepticon_id, entry in embedding_data.items()} # 5 Conclusion and Outlook In this study, I have briefly illustrated how vector data can be added to and retrieved from NoRaRe by the concrete example of concept embeddings (Rubehn and List 2025) and multilingual word embeddings (Grave et al. 2018). I am optimistic that this addition will be useful for future research representing semantics on a conceptual level, since distributional semantic representations have proven themselves as powerful tools already. Furthermore, the inclusion of embeddings serves as yet another template for how complex data types can be handled by NoRaRe (Ahmedović 2025). # References Ahmedović, Mira (2025): Handling Non-Standard Datasets in NoRaRe: A Practical Guide. _Computer-Assisted Language Comparison in Practice_ 8.1. 17–23. https://doi.org/10.15475/calcip.2025.1.3 Bojanowski, Piotr and Edouard Grave and Armand Joulin and Tomas Mikolov (2017). Enriching word vectors with subword information. _Transactions of the Association for Computational Linguistics_ 5. 135-146. https://doi.org/10.1162/tacl_a_00051 Forkel, Robert and Johann-Mattis List (2024). _PyNoRaRe [Python package, version 1.1.0]._https://pypi.org/project/pynorare/ Gower, Robin (2021): CSV on the Web. Stirling: Swirrl. https://csvw.org Grave, Edouard and Piotr Bojanowski and Prakhar Gupta and Armand Joulin and Tomas Mikolov (2018). Learning word vectors for 157 languages. In _Proceedings of the Eleventh International Conference on Language Resources and Evolution (LREC 2018)._https://aclanthology.org/L18-1550/ Gray, Robert M. and David L. Neuhoff (1998). Quantization. _IEEE Transactions on Information Theory_ , 44.6. 2325-2383. https://doi.org/10.1109/18.720541 List, Johann-Mattis (2021). Mapping Multi-SimLex to Concepticon. _Computer-Assisted Language Comparison in Practice_ 4.3. 1-8. List, Johann-Mattis (2025). Illustrating Data Curation in NoRaRe with the Help of Templates. _Computer-Assisted Language Comparison in Practice_ 8.2. List, Johann Mattis and Annika Tjuka and Frederic Blum and Alžběta Kučerová and Carlos Barrientos Ugarte and Christoph Rzymski and Simon Greenhill and Robert Forkel (eds.) (2025). _CLLD Concepticon 3.4.0 [Data set]_. Zenodo. https://doi.org/10.5281/zenodo.14923561 Mikolov, Tomas and Kai Chen and Greg Corrado and Jeffrey Dean (2013). Efficient estimation of word representations in vector space. _arXiv preprint arXiv:1301.3781._https://doi.org/10.48550/arXiv.1301.3781 Pennington, Jeffrey and Richard Socher and Christopher D. Manning (2014). GloVe: Global vectors for word representation. In _Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)._ 1532-1543. https://doi.org/10.3115/v1/D14-1162 Rubehn, Arne and Johann-Mattis List (2025). Partial colexifications improve concept embeddings. In _Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)._ 20571-20586. https://aclanthology.org/2025.acl-long.1004 Tjuka, Annika and Robert Forkel and Johann-Mattis List (2022). Linking Norms, Ratings, and Relations of Words and Concepts Across Multiple Language Varieties. _Behavior Research Methods_ 54. 864–884. https://doi.org/10.3758/s13428-021-01650-1 Vulić, Ivan and Simon Baker and Edoardo Maria Ponti and Ulla Petti and Ira Leviant and Kelly Wing and Olga Majewska and Eden Bar and Matt Malone and Thierry Poibeau and Roi Reichart and Anna Korhonen (2020): Multi-SimLex: A large-scale evaluation of multilingual and cross-lingual lexical semantic similarity. _Computational Linguistics_ 46.4. 847-897. https://doi.org/10.1162/coli_a_00391 **Cite this article as:** Rubehn, Arne (2025): “Integrating Semantic Embeddings with NoRaRe” in _Computer-Assisted Language Comparison in Practice_ , 8.2: 81-86 [first published on 17/09/2025], URL: https://calc.hypotheses.org/8783, DOI: 10.15475/calcip.2025.2.3. **Download the article as PDF:** calcip-08-2-3.pdf **Copyright information** : This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. **Supplementary Materials** : The data described here is available as part of the NoRaRe database, which is currently curated on GitHub (https://github.com/concepticon/norare-data) and regularly archived with Zenodo (all versions available at https://doi.org/10.5281/zenodo.3957680). The data created here will be part of the next release Version 1.2. For details, the contribution can be inspected via the pull-request on GitHub at https://github.com/concepticon/norare-data/pull/282. **Funding Information** : This project has received funding from the European Research Council (ERC) under the European Union’s Horizon Europe research and innovation programme (Grant agreement No. 101044282). The funders had no role in study design, data collection and analysis, decision to publish, or preparation of the manuscript. * * * OpenEdition suggests that you cite this post as follows: Arne Rubehn (September 17, 2025). Integrating Semantic Embeddings into NoRaRe. _Computer-Assisted Language Comparison in Practice_. Retrieved September 17, 2025 from https://calc.hypotheses.org/8783 * * * * * * * *

calc.hypotheses.org

September 17, 2025 at 9:21 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Mein neuer Blogbeitrag im September, via @dehypotheses geht auf einige interessante Parallelen zwischen der Mathematik und der historischen Linguistik ein.

https://wub.hypotheses.org/3018

Schon gesehen

Vor Kurzem bin ich auf einen sehr interesssanten Artikel gestoßen, der einen populärwissenschaftlichen Überblück zu den Versuchen in der Mathematik gibt, Beweise automatisiert prüfen zu lassen (Bischoff 2025). “Die moderne Mathematik” heißt es in dem Artikel, sei “so spezialisiert, dass selbst Experten einander nicht mehr verstehen”. Um dem Abhilfe zu schaffen, versuchen einige Forscher seit einigen Jahren, die Einführung automatischer Beweissysteme als Grundlage moderner mathematischer Forschung zu etablieren. Während diese Versuche lange Zeit wenig Beachtung fanden, scheint sich mit neueren Erfolgen, von denen Bischoff auch im Detail berichtet, allmählich ein Forschungskreis zu bilden, der automatische Beweisführung ernst nimmt und trotz der großen Widerstände, die vom Spott traditionell orientierter Kollegen bis zur riesigen Varianz von Beweisführungen aufgrund fehlender Standards reichen. Inzwischen scheint es tatsächlich erste Programme zu geben, die erfolgreich verschiedene Beweise formalisieren und überprüfen konnten, auch wenn es anscheinend als sehr aufwendig herausgestellt hat, einzelne Beweise von den Axiomen ausgehend formal zu verfassen (ibid.). Obwohl ein Großteil der Forschung in der Mathematik nach wie vor manuell durchgeführt wird, mehren sich daher vor allem in letzter Zeit die Beispiele, wo automatisierte Beweisführung oder die explizite Zuhilfenahme von Computern vermehrt zu Erfolgen oder neuen Einsichten geführt haben. Während es mich schon lange überrascht, dass die automatische Beweisführung in der Mathematik nicht schon längst viel weiter verbreitet ist (List 2020), befing mich beim weiteren Lesen des Textes diesmal ein komisches Gefühl von von _déjà vu_. Ich kenne diese menschlichen und technischen Probleme, die das Entwickeln von automatisierten Methoden zur Beweisführung mit sich bringt, nämlich nur allzu gut aus meiner eigenen täglichen Arbeit. Denn in der historischen Linguistik ist die Situation am Ende gar nicht so unterschiedlich zur Mathematik. Wir haben _scheinbar_ formale Methoden, die wir _scheinbar_ formal anwenden, um zu erkennen, welche Sprachen miteinander verwandt sind und wie sich die Lautsysteme von den Ursprachen in die Tochtersprachen entwickelt haben. Diese Methoden werden jedoch nicht von Computern gegengeprüft, sondern von den jeweiligen Experten individuell angewandt und dann zu Papier gebracht. Um zu prüfen, ob die Lautwandelprozesse und die Protoformen, die jemand für eine Sprachfamilie postuliert, stimmen, muss man sich in mühseliger Kleinstarbeit zunächst in alle formalen und zuweilen auch nicht formalen Argumente einlesen, die zur _Rekonstruktion_ der Sprachfamilie gemacht wurden. Dazu muss man die Argumente vorangegangener Arbeiten kennen, und am besten auch ein relativ gutes passives Verständnis zumindest einiger Sprachen der Sprachfamilie vorweisen können. Bei mehr als 300 Sprachfamilien, die bisher identifiziert worden sind, haben wir auch in der Linguistik schon lange eine Situation erreicht, wo die Experten, die an unterschiedlichen Sprachfamilien arbeiten — und zuweilen sogar die Experten, die an denselben Sprachfamilien arbeiten — einander kaum noch verstehen. Während das Problem, welches intuitive Einblicke in der historischen Linguistik spielen, mir schon lange bekannt war, und zuweilen sogar in der Literatur diskutiert worden ist (Schwink 1991: 29), hatte ich von der Mathematik jedoch bisher einen ganz anderen Eindruck gehabt. Ich war immer davon ausgegangen, dass Beweise keine Fehler aufweisen und aufgrund der formalen Ausrichtung der Mathematik mit ihren Axiomen und Formeln eine Automatisierung derselben eigentlich gar nicht so schwer sein könnte. Dies scheint allerdings viel weniger der Fall zu sein, als ich angenommen hatte. Genauso wie in der Linguistik, wo ich relativ häufig offen angegangen werde, dass meine Versuche, die Methoden der Rekonstruktion zu automatisieren eine reine Zeitverschwendung seien, scheint das Formalisieren von Beweisen in der Mathematik mit Hilfe von Computern ebenfalls so “mühsam [zu sein], dass es in den Augen vieler Fachvertreter den Aufwand nicht lohnt” (Hartnett 2016: 61). Darüber hinaus scheint es auch in der Mathematik zuweilen zu _menscheln_ , wenn es um die Akzeptanz von Theoremen oder Beweisen geht geht: “in the end, it is a social process that determines whether mathematicians feel confident about a theorem” (De Millo et al. 1979: 171). Als ich vor Kurzem mal wieder eine größere Konferenz zur historischen Linguistik besuchte, wurde ich wieder auf eindrucksvolle Art und Weise damit konfrontiert, wie sehr unser Fach noch immer menschelt, ohne dass diese sozialen — und meiner Ansicht nach auch oft einfach unwissenschaftlichen Aspekte, die zur Akzeptanz oder Ablehnung von Theorien führen — wirklich ausreichend thematisiert werden. Dabei finde ich es immer wieder erschütternd, wie grob und unsachlich manche Kolleginnen und Kollegen dabei vorgehen. Da wird das Rekonstruktionssystem einer Sprachfamilie eines Kollegen A von einem Kollegen B vollständig abgelehnt, weil die Arbeit “komplett falsch” sei, obwohl sich bei einer Betrachtung der Arbeiten von A und B zeigt, dass sie sich in den meisten Fällen eigentlich nicht stark voneinander unterscheiden. Da reden die Kollegen, die zu denselben Sprachfamilien forschen, prinzipiell nicht miteinander, weil sie sich als Konkurrenz in einem Feld, das kleiner nicht sein könnte, ansehen, anstatt die Chance der Kollaboration zu ergreifen. Da werden automatisierte Lösungen, die den Vorgang der Rekonstruktion unterstützen und seine Transparenz erhöhen können, pauschal und ohne Begründung abgelehnt, weil man der eigenen Intuition ja ohnehin mehr vertraue. Während ich, wenn man mich mit der typischen Kritik an computergestützten Methoden konfrontiert, meist gute Miene zu einem Spiel mache, das ich inzwischen nur zu gut kenne, obwohl es mich schon lange nervt, wundert es mich doch immer wieder, mit welch unwissenschaftlichen Argumenten jegliche Bezugnahme auf Computer abgelehnt wird. Vor allem stört es mich, dass sich vor allem die lautesten Kritiker eigentlich kaum die Mühe geben, sich überhaupt mit den Lösungen, welche die Tools, die ich entwickle bieten, grundlegend vertraut zu machen. Die meisten vermuten in Tools wie der EDICTOR-Software (https://edictor.org, List et al. 2025) schlicht den Versuch, alle manuellen Schritte des Sprachvergleichs komplett zu automatisieren und werfen der Software dann vor, im Gegensatz zum Menschen schlechtere Ergebnisse zu liefern. Dabei geht es gar nicht um die Automatisierung des historischen Sprachvergleichs, sondern um die Steigerung seiner Transparenz und Wiederholbarkeit. Wer sich aktuelle Rekonstruktionen von unterschiedlichen Sprachfamilien wie der Mataco-Sprachen in Südamerika (Nikulin und Carlo 2024), der Tschadischen Sprachen in Afrika (Wolff 2022) oder der Sogeram-Sprachen in Neuginea (Daniels 2020) anschaut, wird feststellen, dass es kaum Gemeinsamkeiten in Bezug auf die Präsentation der Daten oder der Methoden, mit deren Hilfe die Daten erstellt wurden, gibt. Einzelne Rekonstruktionen von individuellen kognaten Wörtern in den Sprachfamilien werden zwar in allen Fällen mitsamt der _Reflexe_ , also der Belegwörter in den Einzelsprachen aufgelistet, man wird jedoch nahezu komplett allein gelassen, wenn man die Belege mit den Rekonstrukten in Beziehung setzen möchte. Obwohl wir von formalen Prozeduren, wie der Sequenzalinierung (List 2014) oder der Inferenz von Korrespondenzmustern (List 2019) ausgehen, ohne deren Hilfe die Wortvergleiche gar nicht aufgestellt werden könnten, finden wir diese in den Ergebnissen, die präsentiert werden, eigentlich nie vor. Auch werden die Rohdaten, die die Autoren nutzen, um ihre Rekonstruktionen zu erstellen, eigentlich so gut wie nie geteilt. Wer diese also nachvollziehen oder auf ihne aufbauen will, muss zunächst die Daten digitalisieren und dann die Methoden unabhängig neu anwenden. Wissenschaft sollte eigentlich nach höherer Transparenz, Nachvollziehbarkeit und Wiederholbarkeit streben, vor allem, wenn man erwartet, dass sie ernst genommen wird. Wenn ich Kollegen darauf hinweise, dass die Transparenz von Daten wichtig ist, um deren Weiterbearbeitung zu ermöglichen, ernte ich in vielen Fällen nur verständnislose Blicke. Zuweilen haben mir Kollegen sogar direkt gesagt, dass ihnen die Nachnutzung ihrer Arbeit eigentlich egal sei. Wenn sich Forschung aber nur auf die eigenen Interessen derer, die forschen, konzentriert und das Aufbereiten von Wissen und Erkenntnissen für die Nachnutzung vollständig ignoriert, dann verkommt sie zu einem komischen Selbstzweck, der überspitzt gesagt am Ende eigentlich nur einigen privilegierten Menschen die Ausübung ihrer Hobbies in ihrer Arbeitszeit finanziert. Ich habe jedoch eine gewisse Hoffnung, dass sich das — wenn auch langsamer als in der Mathematik — auch in der Linguistik allmählich ändern wird. Jüngere Menschen, die Linguistik betreiben, haben schon heute weitaus bessere Computerkenntnisse als die Generationen vor ihnen. Da computergestützte Ansätze und transparente Verfahren entgegen der Vorurteile, die einige Linguisten ihnen noch immer entgegenbringen, die konkrete Forschungsarbeit tatsächlich nicht nur transparenter, sondern auch effizienter gestalten können, besteht Hoffnung, dass wir von einem Fach mit wenigen Experten, die sich als Platzhirsche gerieren, zu einem Fach werden, in dem die wenigen Experten mehr Zeit haben, die spezifischen Probleme ihrer Vergleichsstudien im Team anzugehen. ## Literatur Bischoff, Manon Was passiert, wenn niemand mehr die Mathematik versteht? _Spektrum — Die Woche_ 2025.33. 21-35. https://www.spektrum.de/news/so-veraendern-computer-ki-und-beweispruefer-die-mathematik/2280992 Daniels, Don (2020): Grammatical reconstruction. The Sogeram languages of New Guinea. Boston and Berlin: De Gruyter Mouton. De Millo, Richard A. and Lipton, Richard J. and Perlis, Alan J. (1979): Social processes and proofs of theorems and programs. _Communications of the ACM_ 22.5. 271-280. List, Johann-Mattis and van Dam, Kellen Parker and Blum, Frederic (2025): EDICTOR 3. An Interactive Tool for Computer-Assisted Language Comparison [Software Tool, Version 3.1]. Passau: MCL Chair at the University of Passau. https://edictor.org Hartnett, Kevin (2016): Werden Computer das Wesen der Mathematik verändern? _Spektrum der Wissenschaft_ 12. https://www.spektrum.de/magazin/werden-computer-das-wesen-der-mathematik-veraendern/1427414 List, Johann-Mattis (2014): Sequence comparison in historical linguistics. Düsseldorf: Düsseldorf University Press. https://sequencecomparison.github.io List, Johann-Mattis (2019): Automatic inference of sound correspondence patterns across multiple languages. _Computational Linguistics_ 45.1. 137-161. https://doi.org/10.1162/COLI_a_00344 List, Johann-Mattis (2020): Von Handarbeit im digitalen Zeitalter [Of manual work in the digital age]. _Von Wörtern und Bäumen_ 4.9. https://doi.org/10.58079/vbqp Nikulin, Andrey and Carol, Javier (2024): Historical phonology of Mataguayan. Berlin: Language Science Press. Schwink, Frederick (1991): Linguistic typology, universality and the realism of reconstruction. Washington: Institute for the Study of Man. Wolff, H. Ekkehard (2022): A historical phonology of Central Chadic. Prosodies and lexical reconstruction. Cambridge: Cambridge University Press. * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (15. September 2025). Schon gesehen. _Von Wörtern und Bäumen_. Abgerufen am 15. September 2025 von https://wub.hypotheses.org/3018 * * * * * * * *

wub.hypotheses.org

September 15, 2025 at 8:33 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Already yesterday, my new post in our #calc in Practice Blog/Journal appeared, this time

Illustrating Data Curation in NoRaRe with the Help of Templates

https://calc.hypotheses.org/8723

Illustrating Data Curation in NoRaRe with the Help of Templates

calc.hypotheses.org

August 26, 2025 at 11:59 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Mein Blogbeitrag im August, via @dehypotheses befasst sich mit Ambiguitäten von bestimmten sprachlichen Konstruktionen.

Von subjektiven und objektiven Fällen

https://wub.hypotheses.org/?p=2928

August 7, 2025 at 4:24 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Our team's papers at SIGTYP@ACL Vienna are online now.

"Robustness of Concept Translations in the Compilation of Multilingual Wordlists" by Snee et al.
https://aclanthology.org/2025.sigtyp-1.3/

"Compositional Structures in Numeral Systems Across Languages" by Rubehn et al […]

Original post on hcommons.social

hcommons.social

July 27, 2025 at 5:42 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

‪
It is official, our two long papers at #acl2025 have now been published. Common work with Arne Rubehn (Concept Embeddings), and Frederic Blum and
Steffen Herbold
(Automated Language Affiliation).

https://aclanthology.org/2025.acl-long.1004/

https://aclanthology.org/2025.acl-long.876/

Partial Colexifications Improve Concept Embeddings

Arne Rubehn, Johann-Mattis List. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025.

aclanthology.org

July 23, 2025 at 10:41 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

New blog post in our CALCiP journal. Kellen Parker van Dam presents a CLDF version of legacy material on Muishaung, a Sino-Tibetan language.

https://doi.org/10.15475/calcip.2025.2.1

https://calc.hypotheses.org/8624

Digitizing Legacy Lexical Data of Muishaung for Computer-Assisted Language Comparison

This study describes the process of digitizing legacy materials into a computer-readable format for the purposes of computational typology and computer-assisted historical reconstruction. It presents a comparative wordlist that is made available in the formats recommended by the Cross-Linguistic Data Formats initiative. # 1 Needham’s “ _A collection of a few Môshâng Nâgâ words”_ The original publication, _A collection of a few Môshâng Nâgâ words_ (Needham 1897) provides the first written account of Muishaung (Glottolog: mosa1240), a Tibeto-Burman language spoken Arunachal Pradesh, India as well as neighbouring regions of Sagaing Region, Myanmar. Data were collected during a trip made by Needham to the Muishaung area in 1881. Today Muishaung is estimated to have around 2000 speakers in India, with an uncertain population size in Myanmar. This is one of a handful of texts written by Needham at the time. The others include similar descriptions of Tai Khamti and Singpho. Needham’s text includes 264 concepts — although with some minor misunderstandings around which concepts were actually being provided by speakers — along with basic grammatical notes on topics such as gender, verbal morphology and the pronominal system. Aside from being the earliest known account of any Tangsa-Nocte variety, Needham’s text provides valuable insights into historical sound change in the region; Muishaung is one of over two-dozen closely related language varieties within Tangsa-Nocte, but significantly it is the most phonologically divergent of the group. For example, it has innovative dental stops, including a split between /n/ and /n̪/ not seen elsewhere in the group, analogous to the /t/ and /t̪/ pair as reflexes of _*t_ and _*ð_ respectively. It also shows a split between /g/ and /ɣ/ as reflexes of *ɣ, and finally, Muishaung has been undergoing a process of vowel fracture not seen elsewhere among the closely related varieties. Access to historical texts such as Needham’s allow us to better understand the timing of such changes and the possible mechanisms behind them. For this reason, proper analysis of such descriptions is important. By developing computer-readable versions of such data sets, we are better able to include them in comparative work. With somewhat inconsistent orthographic conventions (many of which are never described by the author) along with some clear mistakes in the data which were elicited, the full value of Needham’s text is not apparent without a more in-depth investigation. This was done in van Dam & Mossang (2025), which analyzed the entirety of the text. This study undertook careful investigation into the terms given through comparison to modern-day forms of the concepts and reconstructed proto-forms. The full study is available as an open-access publication in the _Journal of Asian and African Studies_ published by the Tokyo University of Foreign Studies. # 2 Data Availability as a CLDF Data Set In the process of analyzing the text, a digital version of the lexical data along with terms found in the grammatical notes was created in a flat tabular format. These were transcribed exactly as they occurred in the original text, including the use of circumflexes for marking distinctions in vowel quality and an underlined ⟨n⟩ for vowel nasalization. Needham’s transcription was then converted to IPA and paired with modern-day pronunciations for cases in which cognates are attested today. In those instances where no modern-day cognate was found, the term which replaced the form in Needham’s time was given. In an additional step, the data from the flat tabular format were converted to the formats recommended by the Cross-Linguistic Data Formats (CLDF) initiative (Forkel et al. 2018, https://cldf.clld.org), using the workflow for the handling of comparative wordlists developed for the Lexibank repository (List et al. 2022, Blum et al. 2025, https://lexibank.clld.org). The CLDF dataset also includes all comments given in the original text, of which where were a few, along with notes by the authors of the 2025 study indicated cases where Needham may have elicited a term other than what was intended. For example in eliciting ‘flea’, the term given was actually one for ‘cat’, perhaps the result of gesturing toward a flea-infested feline at the time of elicitation. An example of the Forms table, with some columns removed here for the sake of saving space, is seen here: Local_ID | Form | Segments | Comment | Source ---|---|---|---|--- MuishaungNeedham-1_above-1 | rʌŋ | r ʌ ŋ | Shâng´gê is distant from Môshâng about 20 miles, much less as the crow flies. J.N. | Needham1897 MuishaungModern-1_above-1 | rɐuŋ₂ | r ɐu ŋ ₂/²³¹ | | VanDam2025 MuishaungNeedham-2_acid-1 | ɑ.hiˀ | ɑ + h i ˀ/ʔ | | Needham1897 MuishaungModern-2_acid-1 | ə₀hi₂ | ə ₀/⁰ h i ₂/²³¹ | | VanDam2025 MuishaungNeedham-3_all-1 | wʌ.tɒŋ | w ʌ + t ɒ ŋ | | Needham1897 MuishaungModern-3_all-1 | βə₀tɐuŋ₂ | β ə ₀/⁰ t ɐu ŋ ₂/²³¹ | | VanDam2025 An orthography profile was also created, and all concepts were mapped to the corresponding CONCEPTICON IDs (List et al 2025) where applicable. Language varieties are also linked to their corresponding Glottocodes (Hammarström et al 2025) to facilitate language identification. # 3 Next Steps In addition to forms given for Muishaung, the original text also includes a number of words from the Shecyü variety under the name Shâng´gê, Needham’s representation of the common exonym Shangke (Glottolog: sank1250). Occasionally forms are also given for Singpho, a distantly related Tibeto-Burman language, as well as Tai Hkamti, a Kra-Dai variety. In addition to Needham’s Muishaung description, he also published texts on Singpho and Tai Hkamti, and was thus knowledgable about both. He regularly included reference to these languages in cases where he felt the term in Muishaung was borrowed from one or the other, although in some cases with Singpho he was simply identifying cognate terms. In a future version of the data set, these forms will be fully encoded with both Needham’s orthographic representation and its corresponding IPA form, as well as the modern-day equivalents. This is intended to be published as an update to the current dataset in order to further support computer-assisted cross-linguistic comparative work. # References Blum, Frederic, Carlos Barrientos, Johannes Englisch, Robert Forkel, Simon Greenhill, Christoph Rzymski, and Johann-Mattis List (2025): Lexibank 2: pre-computed features for large-scale lexical data [version 2; peer review: 3 approved]. _Open Research Europe_ 5.126. 1-19. https://doi.org/10.12688/openreseurope.20216.2 van Dam, Kellen Parker and Kelim Mossang, Wanglung. (2025a). A Classified Account of J. F. Needham’s A Collection of A Few Môshâng Naga Words. In: Journal of Asian and African Studies 2025 (109), 111-145. https://doi.org/10.57275/ilcaajaas.2025.109_111 van Dam, Kellen Parker and Kelim Mossang, Wanglung (2025b). Supplementary materials for van Dam & Kelim Mossang 2025 [Data set, Version 1.0.0]. In Journal of Asian and African Studies (Vol. 109, pp. 111–145). Zenodo. https://doi.org/10.5281/zenodo.14053893 Forkel, Robert, Johann-Mattis List, Simon Greenhill, Christoph Rzymski, Sebastian Bank, Michael Cysouw, Harald Hammarström, Martin Haspelmath, Gereon Kaiping, and Russell D. Gray (2018): Cross-Linguistic Data Formats, advancing data sharing and re-use in comparative linguistics. _Scientific Data_ 5.180205. 1-10. https://doi.org/10.1038/sdata.2018.205 Hammarström, Harald, Robert Forkel, Martin Haspelmath, and Sebastian Bank (2025): Glottolog [Dataset, Version 5.2], Leipzig: Max Planck Institute for Evolutionary Anthropology. https://glottolog.org List, Johann Mattis, Annika Tjuka, Frederic Blum, Alžběta Kučerová, Carlos Barrientos, Christoph Rzymski, Simon Greenhill, and Robert Forkel (2025): _CLLD Concepticon_ [Data set, Version 3.4.0]. Leipzig: Max Planck Institute for Evolutionary Anthropology. https://concepticon.clld.org List, Johann-Mattis, Robert Forkel, Simon Greenhill, Christoph Rzymski, Johannes Englisch, and Russell D. Gray (2022): Lexibank, A public repository of standardized wordlists with computed phonological and lexical features. _Scientific Data_ 9.316. 1-31. https://doi.org/10.1038/s41597-022-01432-0 Needham, J. F. (1897). _A collection of a few Moshang Naga words_. Shillong: Assam Secretariat Printing Office. https://archive.org/details/collectionoffewm00needrich **Cite this article as:****** van Dam, Kellen Parker (2025): “Digitizing Legacy Lexical Data of Muishaung for Computer-Assisted Language Comparison” in _Computer-Assisted Language Comparison in Practice_ , 8.2: +++ [first published on 23/07/2025], URL: https://calc.hypotheses.org/8624, DOI: 10.15475/calcip.2025.2.1. **Download the article as PDF:** calcip-08-2-1.pdf **Copyright information** : This is an open access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. **Supplementary Materials** : Code and data are curated on GitHub (https://github.com/phonemica/needhammuishaung, Version 1.0.0) and archived with Zenodo (https://doi.org/10.5281/zenodo.14053893). * * * OpenEdition suggests that you cite this post as follows: Kellen Parker van Dam (July 23, 2025). Digitizing Legacy Lexical Data of Muishaung for Computer-Assisted Language Comparison. _Computer-Assisted Language Comparison in Practice_. Retrieved July 23, 2025 from https://calc.hypotheses.org/8624 * * * * * * * *

calc.hypotheses.org

July 23, 2025 at 9:09 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Mein Blogbeitrag im Juli via @dehypotheses geht auf die Grundeinstellung zur Sinnhaftigkeit der eigenen Forschung bei Geistes- und Naturwissenschaften ein und berichtet ein bisschen von meinen eigenen Erfahrungen.

"Von der Einstellung"

https://wub.hypotheses.org/2895

Von der Einstellung

Von meiner Grundeinstellung her bin ich eigentlich immer ein gut gelaunter Mensch gewesen. Es gibt Tage, an denen ich ein bisschen mies drauf bin, aber meist freue ich mich beim Aufstehen, egal wie früh das ist, einfach darauf, eine Tasse Kaffee trinken zu können, und beim Schlafen gehen freue ich mich dann oft auf die nächste Tasse Kaffee am Morgen. Was mir Freude macht ist dabei nicht beschränkt auf den Kaffee allein. Auch ein Morgen ohne Kaffee muss nicht zwangsläufig meine Stimmung senken. Vielmehr sind es die vielen kleinen und etwas größeren Probleme, die mir der Tag in Form von wissenschaftlichen Problemchen bereithält, von denen ich hoffe, dass ich sie wenigstens in Teilen lösen kann. Ich habe diese Freude eigentlich immer für meine Arbeit empfunden, auch wenn es nicht einfach war, diesem Karriereweg zu folgen. Als ich begann, Indogermanistik zu studieren, da verkündete der Lehrstuhlleiter, dass der Lehrstuhl mit seiner Pensionierung in einigen Jahren geschlossen werden würde. Dies gefährdete meinen Abschluss nicht, aber es war klar, dass das Studium eines Faches, welches die Universität nicht weiter fortführen möchte, vielleicht nicht die beste Idee ist, wenn man den Wunsch hegt, eine wissenschaftliche Karriere darauf zu begründen. Gleich mit dem Beginn meines Studiums wurde mir also schon sehr deutlich vor Augen geführt, dass die Welt an den Erkenntnissen in diesem Bereich — mögen sie nun von mir oder anderen Menschen gemacht werden — im Moment zumindest nicht besonders viel Interesse zu haben schien. Dass kaum jemand verstehen konnte, was ich eigentlich erforschte, wenn ich zu den Sanskritkursen der Indologen ging, oder versuchte, bei den Gräzisten Inschriften uralter griechischer Dialekte zu übersetzen, machte die Situation für mich nicht unbedingt leichter. Ich sah mich viel zu oft dem Zwang ausgesetzt, zu rechtfertigen, warum ich mich für etwas so Abgehobenes und Unsinniges interessierte, wie die Geschichte von Sprachen. Hätte ich nicht nebenbei noch Sinologie studiert und in Shànghǎi Chinesisch gelernt — ein Fach, das damals einen relativen Boom erlebte, weil alle fasziniert waren von den schönen Schriftzeichen und der endlos wachsenden chinesischen Wirtschaft — dann wäre es mir wohl wirklich schlecht ergangen als Student eines Fachs, das als Berufsperspektive nur die wissenschaftliche Karriere anzubieten hat und dazu im Begriff ist, aus den Universitäten zu verschwinden. Auch nach dem Studium wurde es zunächst nicht leichter für mich. Trotz einer Vielzahl von Bewerbungen, die ich versandte, schaffte ich es einfach nicht, eine Stelle zu finden, um meinen Doktor zu machen. So musste ich mich ein halbes Jahr mit Lektorenjobs in einer Übersetzungsagentur und Jonglierauftritten auf Weihnachstmärkten über Wasser halten, bis ich dann über reichlich Umwege eine Doktorstelle in Düsseldorf fand, die mein wissenschaftliches Leben entscheidend verändern sollte. Denn für diese Stelle wurde zum ersten Mal wirklich jemand gesucht, der nicht schon am selben Lehrstuhl studiert hatte. Zuvor hatte ich rasch bemerkt, dass viele Stellene einfach nur ausgeschrieben worden waren, um interne Kandidaten zu besetzen. Da war es am Ende ganz egal, wie viel Mühe man sich gab, oder wie gut man sich in die chinesische Dialektologie eingelesen hatte. In Düsseldorf war der interne Kandidate aber anderweitig eingestellt worden, weshalb die Stelle plötzlich wirklich frei war. Darüber hinaus suchte man eine Person, die sich mit Sprachgeschichte auskannte, und dabei vor allem wusste, wie man methodologisch vorgehen muss, um Sprachen zu vergleichen. Das war genau das Thema, mit dem ich mich in meiner Magisterarbeit auseinandergesetzt hatte (List 2008). Als ich die Stelle in Düsseldorf nach einigem Hin-und-Her am Ende dann doch mit großer Freude annahm und mich dort auch begeistert in meine Arbeit stürzte, änderte sich mein Leben als Forscher auf entscheidende Art. Nicht nur fühlte ich mich in meinen Fähigkeiten, die ich mitbrachte, endlich anerkannt, ich lernte auch, diese rasch auf eine ganz entscheidende Art weiter auszubauen: ich lernte, zu programmieren. Während meine ersten Versuche noch holprig waren und ich — zum Schock meines programmiererfahrenen Cousins — Codezeilen redundant mehrere tausende Male leicht verändert in dasselbe Skript schrieb, weil ich nicht wusste, wie man einen _Loop_ schreibt, so merkte ich doch rasch, wie sehr mich die Welt der Bits und Bytes faszinierte. Bald schlief ich mit dicken Lehrbüchern zur Shellprogrammierung auf dem Bauch ein, die man heute — wenn überhaupt — wohl nur noch auf dem Tablet lesen würde. Ich las Einführungsbücher zur Datenbankprogrammierung, beschäftigte mich mit dem Terminal und begann vor allem meine Fähigkeiten in der Programmiersprache Python immer weiter auszubauen. Meine erste wirkliche Publikation, die ich im Jahr 2010 veröffentlichte, beinhaltete schon die Grundlagen des Codes, der später in die LingPy-Bibliothek einfließen sollte, die zum Kernbeitrag meiner Dissertation wurde (List 2014) und inzwischen in Version 2.6.13 erschienen ist (List und Forkel 2024). Aber trotz des vermeintlichen Tempos, das ich beim Programmierenlernen vorlegte, sind meine Kenntnisse eigentlich immer noch gefühlt sehr rudimentär geblieben. Zumindest gibt es noch immer eine Menge Menschen, zu denen ich voller Ehrfurcht aufschaue, weil sie so viel mehr vom Programmieren verstehen als ich. Dieses Gefühl ist aber im Grunde ein sehr Schönes, denn es heißt, dass es für mich noch viel zu lernen gibt, und die faszinierende Reise in die Welt des Programmierens noch nicht am Ende angekommen ist. Es heißt auch, dass ich trotz meines wachsenden akademischen Alters immer noch Mentoren finden kann, die mir in meiner Arbeit helfen und denen ich vertrauen kann, dass sie mehr wissen als ich. Das Programmieren lehrte mich, anders zu denken. Ich begann meine Studien anders zu strukturieren, ich orientierte mich mehr daran, auf die Lösung von Problemen in meiner Forschung abzuzielen, anstatt Probleme lediglich zu beschreiben oder zu zerreden. Ich habe — zumindest für meine eigene Arbeit — eine gewisse Abneigung gegenüber dem entwickelt, was man in der Linguistik zuweilen als “theoretische Arbeiten” bezeichnet. Wenn etwas nur scheinbar formal ist und theoretische Arbeiten die konkrete Umsetzung in Code nicht anstreben, sondern sich ihr zuweilen sogar sperren, dann erinnert es mich einfach viel zu sehr an die Besinnungsaufsätze, die wir in der Schule schreiben mussten. Auch denen, die bei mir studieren und eine Hausarbeit schreiben sollten, rate ich seitdem grundlegend, ein empirisches Thema zu wählen, in dessen Rahmen sie selbst etwas tun können, anstatt mir nur den langweiligen Forschungsstand zu einem Thema zusammenzutragen. Was mich zusätzlich prägte in dieser Zeit, war, dass ich begann, Vertrauen in meine Forschung aufzubauen. Während meines Studiums hatte mich immer die Angst geplagt, es vielleicht nicht zu schaffen, mein Ziel, eine Doktorarbeit zu schreiben und Wissenschaftler zu werden, zu verwirklichen. In den Monaten der inoffiziellen Arbeitslosigkeit nach der Beendigung meines Studiums, die geprägt waren von Absagen auf gefühlt unzählige Bewerbungen, hatte ich die Hoffnung, Wissenschaftler werden und bleiben zu können, zwar nicht aufgegeben, ich war jedoch sehr ernüchtert von meinen eigenen Fähigkeiten und fühlte mich grundlegend nutzlos. Im Studium hatte ich zwar gelernt, Russisch und Chinesisch zu sprechen und die Aussprache des Altchinesischen zu rekonstruieren. Ich hatte es aber eben nicht geschafft, mich für einen normalen Job jenseits der Wissenschaft zu qualifizieren. Nicht mal ein wirklicher Übersetzer war ich, und als Straßenkünstler konnte man in Berlin kaum etwas verdienen. Durch das Programmieren hatte ich das Gefühl, endlich etwas zu lernen, was man vielleicht auch außerhalb der Wissenschaft würde nutzen können (auch wenn ich das gar nicht wollte). Als Doktorand in Düsseldorf fiel mir allmählich auf, dass ich nicht der einzige Linguist war, der sich zeitweise nutzlos fühlte. Es zeigte sich, dass fast alle, die zu dem Zeitpunkt an ihren Doktorarbeiten arbeiteten, eine relativ große Skepsis gegenüber der eigenen Disziplin hatten. Die Frage, warum man bestimmte linguistische und philosophische Probleme untersuchen sollte, verfolgte viele von uns. Sie schwebte über uns im Raum und zeigte sich immer dann, wenn mal wieder jemand beim Eintippen von Daten oder beim Lesen von Artikeln neidisch auf die Bauarbeiter oder Gärtner vor dem Fenster schaute und frustriert und manchmal auch feierlich und sehnsuchtsvoll anmerkte, dass die am Ende des Tages ja viel glücklicher sein müssten, da sie sehen könnten, was sie geschafft haben. Da unser Projekt aber interdisziplinär ausgerichtet war und ich im Team mit Biologen arbeitete, die uns helfen sollten, Computermethoden aus der Bioinformatik auf die Linguistik anzuwenden, lernte ich gleichzeitig eine ganz andere Seite der Wissenschaft kennen. Während die Linguisten mit ihren Theorien haderten, schienen mir die Biologen eigentlich immer fröhlich zu sein. Obwohl sie sich mit Fragen beschäftigten, deren Potenzial, Konsequenzen für die Welt zu haben, sicher genauso gering war, wie das Potenzial der Fragen der Sprachwissenschaftler, schien sie das eigentlich nie wirklich zu jucken. Sie zweifelten nicht an sich. Sie programmierten fröhlich vor sich hin, lachten über ihren Code, grillten den ganzen Sommer auf dem Balkon ihres Instituts und tranken dabei Bier, und freuten sich, wenn jemand einen Artikel in einer großen Zeitschrift landen konnte. Ich weiß nicht woran es lag, dass die Biologen immer so fröhlich waren, aber als ich nach meiner ersten Post-Doc-Stelle ein Stipendium in Paris antrat, wo ich in zwei “Labs” arbeitete, einem linguistischen und einem biologischen, da war es nicht groß anders. Wenn jemand eine ernste Miene machte, über die Arbeit stöhnte und unzufrieden herumlief, dann war es mit großer Wahrscheinlichkeit eine Linguistin oder ein Linguist. Wenn jemand fröhlich pfeifend im viel zu engen Büro vor seinem Computer saß und die Kolleginnen und Kollegen zur Seite mit nerdigen Witzen ablenkte, dann war es mit großer Wahrscheinlichkeit eine Biologin oder ein Biologe. Heute denke ich, dass der Unterschied zwischen Biologen und Linguisten (oder allgemeiner vielleicht sogar der Unterschied zwischen Natur- und Geisteswissenschaftlern) im Selbstverständnis der Disziplinen liegt. In den Naturwissenschaften zweifelt man selten daran, dass das, was man tut, sinnvoll ist. Man scheint auf die Kumulativität von Wissen zu vertrauen. Wer eine Amöbe erforscht, rettet damit keine Elefanten, aber das Wissen trägt dazu bei, unser Wissen um Lebewesen zu steigern und kann indirekt oder direkt nicht nur zu neuen Erkenntnissen, sondern auch zu neuen Innovationen führen. In den Geisteswissenschaften, die ja oft weniger Forschungsgelder einwerben, weniger prominent publizieren, und auch von der Geselleschaft weniger wohlwollend beobachtet werden, scheinen die Zweifel am eigenen Tun dagegen besonders ausgeprägt zu sein. Man zweifelt an sich selbst, man zweifelt am Tun der anderen, und man hadert darüber hinaus mit der Ungerechtigkeit des deutschen Wissenschaftssystems, welches sich bharrlich weigert, die geisteswissenschaftlichen Zweifler und Nörgler angemessen zu fördern. Dank meiner Begegnungen in Düsseldorf ist mir dieser Weg der Zweifel am eigenen Tun weitestgehend erspart geblieben. Ich habe mich von der guten Laune, die die Biologen verbreiteten, einfach mittreiben lassen und schon im ersten Jahr meiner Doktorarbeit mit mir persönlich vereinbart, dass ich mir fortan meine Forschung von niemandem mehr kaputtmachen lasse, ganz besonders nicht von mir selbst. In meinem Werdegang hat mir das unwahrscheinlich geholfen. Da ich auch nach meiner Doktorarbeit mit meinem komischen Forschungsprofil, das Bioinformatik, Sprachtypologie und historische Linguistik vereinte, kaum an normale linguistische Institute vermittelt werden konnte, musste ich die Gelder selbst einwerben, um mich zu finanzieren. Dies gelang mir dann zunächst über ein Forschungsstipendium der DFG in den Jahren 2015 und 2016, dem sich ein ERC Starting Grant anschloss, der es mir erlaubte, von 2017 bis 2022 meine eigene Nachwuchsgruppe zu leiten (List 2017). Dem Schloss sich ein Forschungsgrant der Max-Planck-Gesellschaft von 2022 bis 2024 an, und schließlich ein ERC Consolidator Grant, an dem ich seit 2023 forsche (List 2023). Dies mag den Anschein erwecken, als wäre ich vom Erfolg verwöhnt worden. Meine Erfolgsrate beim Einwerben von Projekten liegt aber wohl nicht höher als 20%. Ich habe also pro gefördertem Projekt im Schnitt mindestens fünf Projekte beantragt, zuweilen sogar mehr, immer zu unterschiedlichen Themen. Dass ich nie in den Genuss der berüchtigten _Kettenverträge_ kam, die einen an derselben Universität verharren lassen, mit Verträgen, die selten länger als 12 Monate dauern, war am Ende vielleicht sogar ein Vorteil. Wenn man mit dem Rücken zur Wand steht, und nicht einmal auf die nächste Verlängerung des Vertrages um einige Monate hoffen kann, dann setzt man eben alles daran, sich aus eigener Kraft oben zu halten und lernt, sich auf so gut wie niemanden wirklich zu verlassen. Dass ich mich einmal mit meiner Forschung um die kompetitivsten Fördermittel des Europäischen Forschungsrats würde erfolgreich bewerben können, hätte ich direkt nach dem Abschluss meines Magisterstudiums wohl kaum geglaubt. Ich bin sicher, dass es am Ende die Stimmung bei den Biologen war, die mir half, meine wissenschaftliche Karriere auf meine ganz individuelle Weise zu verfolgen. Ich hatte einfach gelernt, zu vertrauen, dass das, was ich tue, ein grundlegendes Potenzial hat, das ich nicht ständig selbst anzweifeln müsste. Ohne diese positive Grundeinstellung hätte ich mit meinem Außenseiterstatus und meinem ungewöhnlichen Forschungsprofil wohl nie in der Wissenschaft bleiben können. Sie trägt mich heute noch immer. ## Literatur List, Johann-Mattis and Forkel, Robert (2023): LingPy. A Python library for quantitative tasks in historical linguistics [Software Library, Version 2.6.13]. Passau: MCL Chair at the University of Passau. https://pypi.org/project/lingpy List, Johann-Mattis (2008): Rekonstruktion der Aussprache des Mittel- und Altchinesischen. Vergleich der Rekonstruktionsmethoden der indogermanischen und der chinesischen Sprachwissenschaft [Reconstruction of the pronunciation of Middle and Old Chinese. Comparison of reconstruction methods in Indo-European and Chinese linguistics]. Magister thesis. Freie Universität Berlin: Berlin. https://hal-hprints.archives-ouvertes.fr/hprints-00742552/file/list-2008-magisterarbeit.pdf List, Johann-Mattis (2014): Sequence comparison in historical linguistics. Düsseldorf:Düsseldorf University Press. https://sequencecomparison.github.io List, Johann-Mattis (2017): Computer-Assisted Language Comparison. Reconciling computational and classical approaches in historical linguistics [Research Project, 2017–2022]. Leipzig:Max Planck Institute for Evolutionary Anthropology. https://cordis.europa.eu/project/rcn/206320_en.html List, Johann-Mattis (2023): Productive Signs. A Computer-Assisted Analysis of Evolutionary, Typological, and Cognitive Dimensions of Word Families. Passau:Chair of Multilingual Computational Linguistics. https://cordis.europa.eu/project/id/101044282/de * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (10. Juli 2025). Von der Einstellung. _Von Wörtern und Bäumen_. Abgerufen am 10. Juli 2025 von https://wub.hypotheses.org/2895 * * * * * * * *

wub.hypotheses.org

July 10, 2025 at 8:34 PM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Now published, our study presenting Lexibank 2.

Blum et al. @fblum (2025) in Open Research Europe.

https://doi.org/10.12688/openreseurope.20216.1

June 23, 2025 at 7:59 PM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Mein Blogbeitrag zum Juni handelt "Von der Vorläufigkeit der Erkenntnisse" via @dehypotheses

https://wub.hypotheses.org/2853

Von der Vorläufigkeit der Erkenntisse

Ich habe vor zwei Wochen, im Rahmen eines Oberseminars, für das ich eine neue Idee zu einer neuen Studie vorbereitethatte, mal wieder festgestellt, wie extrem man sich vertun kann, wenn man ohne groß nachzudenken, drauf los programmiert und sich wenig Gedanken darum macht, was einzelne Blöcke im Code, den man über längere Zeiträume geschrieben hat, eigentlich bedeuten. Am Ende hatte ich zwar nicht durch Null geteilt (wenn das passiert, streiken Computer ohnehin freundlicherweise sofort), aber eben doch vollkommen falsche Ergebnisse zu einer neuen Idee vorgestellt, an der ich im Laufe der letzten Jahre eher halbherzlich gearbeitet hatte. Während ich die Probleme in meinem Computercode inzwischen beheben konnte, und mir derartige Fehler auch gut verzeihen kann, ohne mich zu sehr darüber zu schämen oder zu grämen, wurde mir im Zusammenhang mit diesem Fauxpas wieder einmal klar, wie vorläufig die Erkenntnisse in der Wissenschaft eigentlich sind. Verantwortlich für diese Vorläufigkeit wissenschaftlicher Erkenntnisse sind zwei grundlegende Aspekte. Zum einen gehen wir ja davon aus, dass wir in unseren Erkenntnissen immer weiter voranschreiten. Solange ein Wissensfeld nicht komplett abgegrast ist, werden wir immer die Möglichkeit finden, Erkenntnisse präziser zu fassen, oder differenzierter zu sehen. Das ist in dem heutigen Verständnis wissenschaftlicher Forschung ja direkt so angelegt. Zum anderen sind wir als Menschen auch einfach fehlbar. Wir gehen von falschen Grundannahmen aus, verallgemeinern auf falsche Weise, oder schauen nicht mehr nach rechts und links, wenn wir der Meinung sind, den Weg zu kennen. Unserer Fehlbarkeit und unserem Anspruch, dass wir unser Wissen verbessern und weiterentwickeln, ist kein Peer-Review-Verfahren gewachsen. Es gibt aus dieser langfristigen Perspektive tatsächlich keine gesicherten Kenntnisse, wie sie von unbedachten Menschen oft propagiert oder gefordert werden. Dies heißt jedoch auch nicht, das alle wissenschaftlichen Kenntnisse falsch sind, oder man sie pauschal in Zweifel ziehen kann. In vielen Bereichen sind die Erkenntnisse, die wir im Moment haben, so gut gesichert, dass es sehr unwahrscheinlich wäre, davon auszugehen, dass sie sich in den nächsten Jahrzehnten radikal ändern werden. Im Bereich der Medizin haben wir eine Vielzahl von Behandlungsmethoden oder Präventionsverfahren, die in den meisten Fällen die beste Wahl sind, weshalb es sehr dumm wäre, sie anzuzweifeln und das Vertrauen in sie systematisch zu zerstören. Wenn wir Gebäude bauen, dann gehen wir auch davon aus, dass die Schwerkraft und die allgemeinen Eigenschaften von Materialien wissenschaftlich gut genug beschrieben sind, um zu verhindern, dass alles binnen kürzester Zeit in sich zusammenfällt. Wenn wir eine Sprache lernen wollen, dann tun wir gut daran, der Lernergrammatik, die wissenschaftlich geschulte Linguisten erstellt haben, erst mal unser Vertrauen zu schenken, bevor wir anfangen, Kasusendungen und Satzbau, die dort beschrieben werden, mit Misstrauen zu behandeln. Natürlich trifft diese relativ große Sicherheit, die wir sicher in allen wissenschaftlichen Disziplinen antreffen können, nicht auf alle Fragestellungen zu. Ich würde um keinen Preis eine Wette auf das Alter der indogermanischen Ursprache abgeben, nicht nur, weil es in den letzten 20 Jahren zahlreiche Studien gab, die mit Computermethoden zu unterschiedlichen Ergebnissen gekommen sind (vgl. bspw. Gray und Atkinson 2003 mit Bouckaert et al. 2012, Chang et al. 2015 und Heggarty2023), sondern auch weil ich selbst an Studien beteiligt war, die zeigen, dass es eine ganze Menge an Faktoren gibt, die diese Analysen mitunter recht stark beeinflussen können (vgl. Geisler und List 2010 und Snee et al. 2025). Ich verzichte in meiner Arbeit auf die Nutzung von Sprachmodellen, die mir meine Texte generieren könnten, nicht nur aus wissenschaftsethischen Gründen, oder weil ich an der Qualität generierter Texte zweifle, sondern auch deshalb, weil ich denke, dass uns gesicherte Erkenntnisse fehlen, um die Wirkung dieser Tools auf unseren Geist abzuschätzen (vgl. die noch nicht begutachtete Studie von Kosmyna et al. 2025 zum Einfluss intensiver Chatbotnutzung auf unsere mentalen Fähigkeiten). Ich halte auch alle Debatten um die sogenannte _linguistische Relativität_ , insbesondere die starke Sapir-Whorf-Hypothese (Whorf 1950), für grundlegend sinnlos. Denn die Hypothese, dass unsere Sprachen in ihrer Unterschiedlichkeit oder ihren spezifischen Strukturen unser Denken so sehr beeinflussen, dass sie zu Verhaltensweisen der Sprecherinnen und Sprecher führen, die mit anders strukturierten Sprachen nicht auftreten würden, wurde bisher vorwiegend fern von jeglichen Daten zu den Sprachen der Welt diskutiert. Neuere Studien haben zwar gezeigt, dass bestimmte Aspekte menschlicher Kognition, wie die Farbwahrnehmung, auf komplexe Wechselwirkungen mit Umgebung und Sprache zurückgehen können (Dediu et al. 2023, Twomey et al. 2021), aber in welche Richtung die Wechselwirkung geht, ist dabei alles andere als klar. Es scheint vielmehr so zu sein, dass Sprachen sich in bestimmten Aspekten (wie zum Beispiel der Benennung von primären Farben, vgl. Berlin und Kay 1969) relativ klar ähneln, egal wo und von wem sie gesprochen werden, während wir in anderen Fällen, wie zum Beispiel in den Ausdrücken für Emotionen (Jackson et al. 2019) oder der Benennung von Körperteilen (Tjuka et al. 2024) relativ große Unterschiede vorfinden können. Sprache kann das Denken beeinflussen, ja, aber genauso kann unser Denken auch unsere Sprachen beeinflussen. Eine klare Richtung gibt es hier wohl einfach nicht und wir stochern, was die individuellen Wechselwirkungen zwischen Sprache und Denken betrifft, weitestgehend im Trüben. Wenn wir den Erkenntnisstand zum Alter und Ursprung des Indogermanischen, zu den Folgen der exzessiven Verwendung von Sprachmodellen, oder zur Plausibilität der Hypothese, dass Sprache unser Denken unmittelbar beeinflusst, wissenschaftlich bewerten wollen, so kann man wohl sagen, dass bei der Evidenzlage, die zu diesen Fragen vorliegt, keine Kommission eine Handlungsempfehlung für die Politik aussprechen würde. Impfstoffe, deren Wirkung und Nebenwirkung so gut verstanden werden, wie diese drei umstrittenen Forschungsfragen, würden wohl nicht über das Stadium der Tierversuche hinauskommen, vielleicht würde man Tierversuche nicht mal gestatten. Im Zusammenhang mit dem, was die Wissenschaftlichkeit von Forschung ausmacht, wurden in den letzten Jahren, insbesondere seit der Pandemie, hitzige Diskussionen geführt. Der Tenor in diesen Diskussionen stört mich persönlich extrem. Auf der einen Seite haben wir die Wissenschaftler oder auch die Journalisten, die die Wissenschaft als eine Methode darstellen, die über jeden Zweifel erhaben ist. Wer es wagt, bestimmte Erkenntnisse, von denen behauptet wird, sie seien durch Studien gesichert oder gar wissenschaftlich erwiesen, in Zweifel zu ziehen, wird von diesen Menschen hart angegangen und mit Personen, die jede Verschwörungstheorie und jede Falschnachricht für unbestreitbare Wahrheiten halten, in einen Topf geworfen. Auf der anderen Seite haben wir die Demagogen, Populisten, und von Internet und sozialen Medien mental geschädigten Menschen, welche die Fehlbarkeit und Vorläufigkeit wissenschaftlicher Erkenntnisse, aus denen redliche Vertreter der Wissenschaft nie einen Hehl gemacht haben, als Anlass nehmen, um die Wissenschaft an sich zu diskreditieren. Während es sicher nicht so schwer wäre, sich freundlich mit den Wissenschaftsgläubigen und den Wissenschaftsleugnern getrennt voneinander auseinanderzusetzen, hat die Rhetorik zwischen beiden Lagern eine Dynamik entfacht, welche die wissenschaftliche Forschung im Ganzen zu bedrohen beginnt und sie zum Spielball politischer Interessen degenieriert. Den absurdesten Auswuchs dieser unheilvollen Dynamik stellt für mich die unlängst geäußerte Kritik an Wissenschaftlern und Studien dar, die in der Vergangenheit versucht haben, Schwächen in der wissenschaftlichen Praxis aufzuzeigen. Dass Forscher im Zusammenhang mit der _Replikationskrise_ in der Psychologie (Muthukrishna and Henrich 2019) rigoros versucht haben, alte Studien zu wiederholen und Verfahren zu entwickeln, die Fehler in psychologischen Studien minimieren, wird nun als der Grund angeführt, warum das Vertrauen in die Wissenschaft in den letzten Jahren erodiert sei (O’Grady 2025). Das absurde Argument der Verfechter dieser Idee ist, dass das offene Zurschaustellen der Schwächen des wissenschaftlichen Systems und der Vorläufigkeit wissenschaftlicher Erkenntnisse demagogischen Populisten die argumentatorischen Waffen geliefert hätte, mit den verhassten Eliten in ihren Elfenbeintürmen überhaupt erst abzurechnen. Diese Argumentation macht mich unglaublich wütend, da sie in ihrer argumentatorischen Struktur selbst einen der Hauptgründe für den Vertrauensverlust in die Wissenschaft liefert. Denn die arrogante Haltung einiger Wissenschaft betreibender oder rezipierender Personen, dass nur die Wissenschaft _wahre_ Erkenntnisse liefern könne, und wissenschaftliche Erkenntnisse scheinbar absolut über jeglichen Zweifel erhaben seien, hat doch erst dazu geführt, dass sich ein von Populisten angetriebenes Gegenlager gegen diese religiös anmutende Haltung formieren konnte. Diese Haltung besagt ja eigentlich nichts anderes, als dass es besser gewesen wäre, diese Erkenntnisse — dass man vielen Studien in der Psychologie besser nicht trauen sollte — unter dem Tisch zu halten. Wenn man Forschungsergebnisse zurückhält, die der eigenen Theorie zuwiderlaufen, dann macht man sich jedoch des wissenschaftlichen Fehlverhaltens schuldig. Wer solches Handel für die Wissenschaft propagiert, zieht der Wissenschaft ihre eigenen Grundprinzipien unter den Füßen weg. Wissenschaft beruht auf dem Zweifeln, Wissenschaft beruht auf dem Vertrauen in die Vorläufigkeit der Erkenntnisse, Wissenschaft beruht auf absoluter Transparenz und Offenheit. Wer davon ausgeht, dass es bestimmte Wahrheiten gibt, die man den “normalen Menschen” besser vorenthalten sollte, um ihr Vertrauen in die Wissenschaft nicht zu sehr zu erschüttern, der nimmt der wissenschaftlichen Methode das Fundament, auf dem sie steht: das Recht, an der Endgültigkeit von Erkenntnissen zu zweifeln und sie aktiv zu überprüfen. ## Literatur Brent Berlin and Paul Kay (1969): Basic color terms: Their universality and their evolution. Berkeley: University of California Press. Bouckaert, Remco and Lemey, Philippe and Dunn, Michael and Greenhill, Simon J. and Alekseyenko, Aalexander V. and Drummond, Alexei J. and Gray, Russell D. and Suchard, Marc A. and Atkinson, Quentin D. (2012): Mapping the origins and expansion of the Indo-European language family. _Science_ 337.6097. 957-960. https://doi.org/10.1126/science.1219669 Chang, Will and Cathcart, Chundra and Hall, David and Garret, Andrew (2015): Ancestry-constrained phylogenetic analysis ssupport the Indo-European steppe hypothesis. _Language_ 91.1. 194-244. Dan Dediu (2023): Ultraviolet light affects the color vocabulary: evidence from 834 languages. _Frontiers in Psychology_ 14. https://doi.org/10.3389/fpsyg.2023.1143283 Geisler, Hans and List, Johann-Mattis (2010): Beautiful trees on unstable ground. Notes on the data problem in lexicostatistics. https://hal.archives-ouvertes.fr/hal-01298493 Gray, Russell D. and Atkinson, Quentin D. (2003): Language-tree divergence times support the Anatolian theory of Indo-European origin. _Nature_ 426.6965. 435-439. Paul Heggarty and Cormac Anderson and Matthew Scarborough and Benedict King and Remco Bouckaert and Lechos\law Jocz and Martin Joachim Kümmel and Thomas Jügel and Britta Irslinger and Roland Pooth and Henrik Liljegren and Richard F. Strand and Geoffrey Haig and Martin Mac\’ak and Ronald I. Kim and Erik Anonby and Tijmen Pronk and Oleg Belyaev and Tonya Kim Dewey-Findell and Matthew Boutilier and Cassandra Freiberg and Robert Tegethoff and Matilde Serangeli and Nikos Liosis and Krzysztof Stro\’nski and Kim Schulte and Ganesh Kumar Gupta and Wolfgang Haak and Johannes Krause and Quentin D. Atkinson and Simon J. Greenhill and Denise Kühnert and Russell D. Gray (2023): Language trees with sampled ancestors support a hybrid model for the origin of Indo-European languages. _Science_ 381.6656. https://doi.org/10.1126/science.abg0818 Joshua Conrad Jackson and Joseph Watts and Teague R. Henry and List, Johann-Mattis and Peter J. Mucha and Robert Forkel and Simon J. Greenhill and Russell D. Gray and Kristen Lindquist (2019): Emotion semantics show both cultural variation and universal structure. _Science_ 366.6472. 1517-1522. https://doi.org/10.1126/science.aaw8160 Nataliya Kosmyna and Eugene Hauptmann and Ye Tong Yuan and Jessica Situ and Xian-Hao Liao and Ashly Vivian Beresnitzky and Iris Braunstein and Pattie Maes (2025): Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task. _arXiv_ 2506.08872. 1-206. https://arxiv.org/abs/2506.08872 Michael Muthukrishna and Joseph Henrich (2019): A problem in theory. _Nature Human Behaviour_ . 1-9. https://doi.org/10.1038/s41562-018-0522-1 O’Grady, Cathleen (2025): Science’s reform movement should have seen Trump’s call for ‘gold standard science’ coming, critics say. _Science_ June.10. https://doi.org/10.1126/science.zlwoaxz Snee, David and Ciucci, Luca and Rubehn, Arne and van Dam, Kellen Parker and List, Johann-Mattis (2025): Unstable Grounds for Beautiful Trees? Testing the Robustness of Concept Translations in the Compilation of Multilingual Wordlists. In: Proceedings of the 7th Workshop on Research in Computational Linguistic Typology and Multilingual NLP (SIGTYP 2025). 1-12. https://doi.org/10.48550/arXiv.2503.00464 Tjuka, Annika and Forkel, Robert and List, Johann-Mattis (2024): Universal and cultural factors shape body part vocabularies. _Scientific Reports_ 14.10486. 1-12. https://doi.org/10.1038/s41598-024-61140-0 Twomey, C. R. and Roberts, G. and Brainard, D. H. and Plotkin, J. B. (2021): What we talk about when we talk about colors. _Proceedings of the National Academy of Sciences United States of America_ 118.39. . Benjamin Lee Whorf (1950): An American Indian Model of the Universe. _International Journal of American Linguistics_ 16.2. 67-72. https://doi.org/10.1073/pnas.2109237118 * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (19. Juni 2025). Von der Vorläufigkeit der Erkenntisse. _Von Wörtern und Bäumen_. Abgerufen am 19. Juni 2025 von https://wub.hypotheses.org/2853 * * * * * * * *

wub.hypotheses.org

June 20, 2025 at 4:45 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

‪Just learned that our study introducing Lexibank 2 (Blum et al. @fblum ) has passed peer review with Open Research Europe. We will revise with reviewers' comments, but the study is accepted, Lexibank 2 is now official.

Lexibank 2: pre-computed features for large-scale lexical data […]

Original post on hcommons.social

hcommons.social

June 4, 2025 at 5:13 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

New contribution to our CALCiP blog /journal

Extracting Transparent Compounds from Lexibank

https://doi.org/10.15475/calcip.2025.1.5

https://calc.hypotheses.org/8526

Extracting Transparent Compounds from Lexibank | Computer-Assisted Language Comparison in Practice

ojs3.uni-passau.de

May 26, 2025 at 8:54 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Mein Blogbeitrag im Mai behandelt das Modellieren und das Jonglieren. Konkret geht es dabei um die Siteswap-Notation beim Jonglieren und die Rolle von Modellen für die Wissenschaft.

Vom Modellieren

https://wub.hypotheses.org/2822

Vom Modellieren

Ich bin seit 2023 Leiter des Lehrstuhls für Multilinguale Computerlinguistik an der Universität Passau. Unabhängige Forschung — im Sinne von Forschung, die ich eigenständig betreibe, weil ich die Forschungsgelder selbst in kompetitiven Verfahren eingeworben habe — betreibe ich seit inzwischen zehn Jahren. Seit mehr als 20 Jahren fasziniert mich die Wissenschaft, insbesondere die Sprachwissenschaft, aber seit langer Zeit auch alles, was man mit Computern machen kann. Was mich allerdings noch viel länger als die Wissenschaft in meinem Leben begleitet, ist die Jonglierkunst. Mit Bällen, Keulen, Ringen und anderen Gegenständen hantiere ich begeistert seit inzwischen 30 Jahren. Von ersten zaghaften Versuchen mit 3 Bällen gelang es mir über 4 Bälle, 5 Bälle und 6 Bälle bis zum Üben von 7 Bällen heranzukommen. Mehr habe ich in den 30 Jahren dann aber auch nicht gelernt. Das zeigt zum einen, dass die Lernkurve in Bezug auf die Zunahme neuer Bälle beim Jonglieren unglaublich steil ist. Zum anderen zeigt es aber auch schön, dass es beim Jonglieren eben nicht immer nur auf dieses kapitalistische Element des “Größer”, “Weiter” und “Schneller” ankommt. Manche Dinge kann man auch 30 Jahre lang betreiben, ohne sich ungesunden Ambitionen nach Zuwachs jeder Art hinzugeben. Das Jonglieren gehört definitiv dazu. Was am Jonglieren aber auch besonders ist, ist die allgemeine Geisteshaltung, die damit verbunden ist. Menschen, die jonglieren, teilen oft eine ganze Reihe von Eigenschaften. Sie lösen gern Geschicklichkeitsprobleme, sie treten gern vor anderen Menschen auf, sie widmen sich einem steten Kampf gegen die Schwerkraft. Es ist daher vielleicht nicht ganz verwunderlich, dass viele Menschen, die jonglieren, auch Physik, Mathematik, oder Informatik studieren oder studiert haben. Ich selbst bin da eher eine Ausnahme mit meinem Studium der Vergleichenden Sprachwissenschaften, auch wenn das Fach natürlich auch einige nerdhafte Züge aufweist. Die große Dichte an Mathematik- und Informatikbegeisterten erklärt vielleicht auch, warum Jongleure schon vor mehr als zwei Jahrzehnten anfingen, sich Gedanken darum zu machen, wie man Jonglierkunststücke denn eigentlich modellieren könnte. Die Idee war, ein formales Modell zu entwerfen, das in der Lage sein sollte, eine Reihe von Tricks zu generieren. Durch die Implementierung eines solchen Modells wäre man dann in der Lage, kleine Programme zu schreiben, die Tricks simulieren und somit sichtbar machen könnten, an die vielleicht vorher keiner gedacht hatte. Diese Idee fand ihre Realisierung in der Siteswap-Notation. Darunter versteht man unter Jongleuren eine spezifische Notation, die es erlaubt, bestimmte Jongliermuster (nicht alle), systematisch als eine Folge von Zahlen zu beschreiben, wobei eine Zahl jeweils für einen Wurf steht. Den Zahlen selbst liegt dabei eine Systematik zugrunde. Ungerade Zahlen stehen für Würfe von einer Hand zur anderen. Gerade stehen für Würfe, die nach oben gehen, ohne die Hand zu kreuzen (sogenannte _Säulen_). Eine 3 beschreibt dabei einen Wurf von einer Hand zur anderen mit der Höhe, die man benötigt, um drei Bälle zu jonglieren. Die Zahlenfolge `3 3 3` kodiert das klassische Dreiballmuster im Rahmen der Kaskade. Die Zahlenfolge `5 5 5 5 5` beschreibt das Muster für fünf Bälle, `4 4 4 4` steht für die klassische Vierballjonglage (wobei in jeder Hand zwei Bälle getrennt voneinander jongliert werden). Meine erste Reaktion, als man mir von der Siteswap-Notation erzählte, war sehr ablehnend. Ich war der Meinung, dass es sich beim Jonglieren um eine gewisse Form von Kunst handelt und dachte, dass Zahlen und Notationssysteme daher dort nichts zu suchen haben. Tricks sollten auf Basis menschlicher Kreativität entwickelt werden. Die Idee, Jongliermuster mit Hilfe von Formel zu generieren, stieß mich ab. Sie war mir viel zu nerdig und ihr mangelte es auch das, was das Jonglieren für mich bedeutete: einen Raum, in dem ich meine eigenen Ideen ausleben konnte, die mir so kreativ zu sein schienen, dass sie nie in Zahlenfolgen passen würden. Diese Einstellung hat sich — auch wenn ich selbst das System nur unzureichend verstehe — inzwischen jedoch stark geändert. Der Grund ist, dass die Siteswapmacher nicht nur geliefert haben, was sie versprachen, sondern eigentlich auch weit darüber hinausgegangen sind. Siteswaps, also Muster, die mit Hilfe der Notation generiert wurden oder sich in der Notation darstellen lassen, gehören inzwischen zum guten Ton, nicht nur in der Jonglierszene, sondern auch im Mainstream, in dem Jongleure im Varieté oder im Zirkus auftreten. Das Versprechen, ein _implementierbares Modell_ zu liefern im Sinne von Bröker und Ramscar (2021) haben die Siteswapmacher gehalten. Aus der informellen Notation, wie sie in einem Prosatext beschrieben wurde (Phillips 2001) haben Informatikbegeisterte Jongliernerds rasch ganze Computerprogramme implementiert, die es ermöglichen, eine Webseite zu öffnen und beliebige Tricks animiert jonglieren zu lassen. Das kann jede interessierte Person selbst ausprobieren, indem sie Muster wie `531` oder `441` auf den entsprechenden Webseiten eingibt, um dann die Ergebnisse direkt anschauen zu können. Dadurch, dass Menschen heutzutage fünf Bälle und mehr um ein vielfaches besser jonglieren können also noch vor 20 Jahren, hat die Anzahl von ungewöhnlichen Mustern, die auch ästhetisch fein anzusehen sind, rapide zugenommen. Ob Straßenkünstler, Varietéjongleur, oder Zirkusartist. Wer ordentlich jonglieren kann, wird zwangsläufig den einen oder anderen _Siteswap_ auf der Bühne zeigen. Als Beispiel für ein besonders schönes Muster, empfehle ich das Muster `97531` in der Simulation anzuschauen. Das ist ein Trick, der mit fünf Bällen jongliert wird, die man gestaffelt in die Höhe wirft. Der erste Ball auf die Höhe von neun Bällen, der zweite auf die Höhe von sieben Bällen, dann fünf, dann drei, und bei der eins muss man einfach von einer Hand in die andere übergeben. Ich denke, ich lehne mich nicht zu weit aus dem Fenster, wenn ich sage, dass vor der Einführung der Notation kaum einer daran gedacht hatte, solche Muster zu werfen. Was die Popularität der Siteswaps betrifft, sind diese jedoch streng auf die Jonglierszene begrenzt. Normale Menschen, die Jongliermuster sehen, können oft den Unterschied zwischen einem einfachen `55555` mit fünf Bällen (normales Jongliermuster) und dem komplexeren `645` (einem Trick mit fünf Bällen, bei dem zwei Bälle jeweils senkrecht geworfen werden, und einer kreuzt) unterscheiden. Zumindest ernte ich auch nach 20 Jahren, in denen ich relativ regelmäßig Straßenauftritte durchgeführt habe, nach wie vor keine große Begeisterung, wenn ich einen `645` jongliere. Die richtige Stimmung kommt ohnehin erst dann auf, wenn man drei Fackeln anzündet. Ob man vorher fünf Bälle, sieben Bälle, oder komplexe Siteswaps geworfen hat, ist den meisten Menschen egal. Ich finde, dass die Siteswaps auf eindrucksvolle Weise zeigen, warum wir in der Wissenschaft modellieren wollen und sollten. Wir können mit Hilfe formaler Modelle eben systematisch bestimmte Bereiche des Lebens und der Welt systematisch ausleuchten und durch die engen Vorgaben der Modelle dadurch Dinge entdecken, die uns beim modellunabhängigen Betrachten der Realität vielleicht nicht aufgefallen wären. Daher ist mir die Modellierung auch in meiner eigenen Forschung so wichtig geworden. Wie bei den Siteswaps erhoffe ich mir davon keineswegs, eine realistische Beschreibung von so komplexen Phänomenen wie dem Sprachwandel zu erlangen. Es geht vielmehr darum, durch die Modelle _neue Aspekte_ an dem Untersuchungsbereich zu entdecken, die man ohne die Modelle nicht gesehen hätte. Wissenschaft wie Kunst brauchen aber neben den Modellen auch zuweilen die kleinen Funken der Erleuchtung. Sei es, um das richtige Modell zu finden, oder um bestimmte Aspekte zu entdecken, die zuvor verborgen geblieben sind und daher nicht modelliert werden konnten. In Wissenschaft wie Kunst kommt es daher wohl am Ende auf das richtige Zusammenspiel zwischen dem Bilden von Modellen und dem Empfangen oder Erzeugen von Geistesblitzen an. Ich habe mir den Hang zur Modellierung vor allem für die Wissenschaft aufgehoben. Beim Jonglieren bewundere ich die Siteswapnotation und Menschen, die damit nahezu spontan neue Muster jonglieren können, ohne selbst dazu in der Lage zu sein. In der Wissenschaft setze ich Modelle dafür an die erste Stelle. Ein Trick, den ich mit großem Enthusiasmus seit einem Jahr übe, und der garantiert nicht mit Hilfe eines Zahlenmodells erzeugt wurde, beginnt damit, dass man fünf Bälle normal jongliert, bis dass ein Ball ein wenig höher in die Luft geworfen wird, während man die übrigen vier Bälle zu jeweils zwei Bällen in der linken und rechten Hand auffängt. Danach werden zwei Bälle aus der rechten Hand rasch in die linke Hand übergeben, wobei der zuerst hoch abgeworfene Ball noch immer in der Luft ist und sich langsam im Sinkflug befindet. Nach oder während der Übergabe dreht man sich dann rasch in einer halben Drehung um die eigene Achse und beugt sich nach vorn, um den fünften Ball mit der leeren rechten Hand zu fangen, die zwischen die Beine nach hinten greift. Er gelingt mir immer besser und es macht einfach nur Freude, diesen Trick zu werfen, weil er so viele unterschiedliche Elemente miteinander vereint. Jongleure nutzen keine Zahl, um ihn zu bezeichnen. Unter ihnen firmiert er einfach nur als _Arschfang_. ## Literatur Bröker, Franziska and Ramscar, Michael (2021): Representing absence of evidence: Why algorithms and representations matter in models of language and cognition. _Language, Cognition and Neuroscience_ 37.1. 1-24. Phillips, Greg (2001): Understanding Siteswap juggling patterns. A guide for the perplexed. https://www.jugglingedge.com/pdf/siteswap-notes-a4.pdf * * * OpenEdition schlägt Ihnen vor, diesen Beitrag wie folgt zu zitieren: Johann-Mattis List (19. Mai 2025). Vom Modellieren. _Von Wörtern und Bäumen_. Abgerufen am 19. Mai 2025 von https://wub.hypotheses.org/2822 * * * * * * * *

wub.hypotheses.org

May 19, 2025 at 4:48 PM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Fantastic to see in the morning that not only our paper on automated language affiliation with Frederic Blum and
Steffen Herbold
was accepted for the ACL main conference in Vienna, but also our study with Arne Rubehn on concept embeddings.

https://doi.org/10.48550/arXiv.2502.11688 […]

Original post on hcommons.social

hcommons.social

May 16, 2025 at 8:10 AM

Johann-Mattis List

@lingulist.hcommons.social.ap.brid.gy

Our study introducing Lexibank², the second installation of the Lexibank repository, just appeared online with Open Research Europe (with @fblum as our first author, who led this project bravely.

https://doi.org/10.12688/openreseurope.20216.1