Martin Jaggi
@mjaggi.bsky.social
810 followers 160 following 35 posts
Prof at EPFL AI • Climbing
Posts Media Videos Starter Packs
mjaggi.bsky.social
apertus also! (september release, same mission but multilingual)
mjaggi.bsky.social
Several open positions at EPFL Lausanne and ETH Zurich and, as part of the Swiss AI Initiative. We cover the entire stack of foundation model training. And we're open to international applicants of course (no H-1B required ;))
mjaggi.bsky.social
We're hiring again for AI research engineering roles: Join the team behind the Apertus LLM, if you share our passion to work on impactful AI that's truly open.

careers.epfl.ch/job/Lausanne...
AI Research Engineers - Swiss AI Initiative
AI Research Engineers - Swiss AI Initiative
careers.epfl.ch
Reposted by Martin Jaggi
bayazitdeniz.bsky.social
1/🚨 New preprint

How do #LLMs’ inner features change as they train? Using #crosscoders + a new causal metric, we map when features appear, strengthen, or fade across checkpoints—opening a new lens on training dynamics beyond loss curves & benchmarks.

#interpretability
mjaggi.bsky.social
funktioniert schon seit letzter woche im neusten LM Studio (mit MLX) huggingface.co/models?searc...

GGUF kommt auch bald die tage
mjaggi.bsky.social
no. the commercial models like chatGPT and gemini still can do better swiss german than apertus.
Reposted by Martin Jaggi
sungkim.bsky.social
Hugging Face's FinePDFs

The largest publicly available corpus sourced exclusively from PDFs, containing about 3 trillion tokens across 475 million documents in 1733 languages.

- Long context
- 3T tokens from high-demand domains like legal and science.
- Heavily improves over SoTA
mjaggi.bsky.social
the 70b should work too if enough ram, you can just replace 8 by 70 in the swiss ai huggingface repo
mjaggi.bsky.social
MLX provides already many quantizations. But yes still working on gguf github.com/ggml-org/lla...
mjaggi.bsky.social
or this quantized version of the model, which is faster and is even easier as it requires no huggingface login:

pip install mlx-lm

mlx_lm.generate --model mlx-community/Apertus-8B-Instruct-2509-8bit --prompt "who are you?"
mjaggi.bsky.social
you can run the new apertus LLMs fully locally on your (mac) laptop with just 2 lines of code:

pip install mlx-lm
mlx_lm.generate --model swiss-ai/Apertus-8B-Instruct-2509 --prompt "wer bisch du?"

(make sure you have done huggingface-cli login before)
Apertus LLM - a swiss-ai Collection
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
Reposted by Martin Jaggi
adfichter.bsky.social
Am Schluss müssen sich die Medienverlage eine gesonderte Lösung überlegen, da sie kaum für alle Schweizer Blogger, Firmenwebsites, Künstler:innen,Gesundheitsportalen, eCommerce-Plattformen sprechen können.

WBK N will weder Opt Out noch Opt In festschreiben.
Schutz des geistigen Eigentums vor KI-Missbrauch: WBK-N nimmt Motion Gössi in abgeänderter Form an
Die Kommission hat sich an ihrer Sitzung mit der Motion Gössi (24.4596) befasst. In diesem Zusammenhang hat sie Vertreterinnen und Vertreter der Wirtschaft, Forschung, Medien und Kultur sowie Fachleute für Immaterialgüterrecht angehört.

Die Kommission anerkennt, dass beim Schutz des geistigen Eigentums vor Missbrauch durch künstliche Intelligenz (KI) Handlungsbedarf besteht, weshalb sie das Motionsanliegen unterstützt. Sie hält es für wichtig, dass die Schweiz die für den Erhalt der Wettbewerbsfähigkeit ihres Wirtschaftsstandorts und ihrer Innovationskraft notwendigen Bedingungen aufrechterhält, ist aber der Ansicht, dass die Motion in ihrer ursprünglichen Fassung den Handlungsspielraum zu sehr einschränkt. Sie möchte, dass auch andere Lösungsansätze geprüft werden, um sich an künftige Entwicklungen anpassen zu können und sicherzustellen, dass der Schweizer Ansatz mit den Regulierungsbemühungen anderer Staaten und der EU in Einklang steht. Sie hat daher mit 18 zu 6 Stimmen bei 1 Enthaltung beschlossen, ihrem Rat die Annahme der Motion in einer abgeänderten Fassung zu empfehlen. Diese enthält keine konkreten Vorgaben zur Umsetzung der Massnahmen und schafft so mehr Spielraum für die Erarbeitung nachhaltiger Lösungen. Die Minderheit beantragt die Ablehnung der Motion.
mjaggi.bsky.social
volle transparenz der KI modelle inkl. ihrer trainingsdaten ist hier sehr wichtig, damit man solche biases indentifizieren und nachvollziehen kann (audit). dies ist bei llama & qwen modellen (die nur open weights sind) klar nicht möglich., bei apertus aber schon
mjaggi.bsky.social
propaganda von russischen und auch anderen akteuren ist klar auf dem web vorhanden und kann trainingsdaten reinfliessen: www.newsguardtech.com/wp-content/u...
www.newsguardtech.com
mjaggi.bsky.social
'wahrheitsgehalt' zu verifizieren ist nicht ganz einfach. grok war ja auch nicht grad so erfolgreich damit.

was wir machen ist dass russisch (und die anderen top 20 sprachen) nach den gleichen kriterien nach qualität der daten gefiltert werden. github.com/epfml/finewe...
Reposted by Martin Jaggi
abosselut.bsky.social
The next generation of open LLMs should be inclusive, compliant, and multilingual by design. That’s why we @icepfl.bsky.social @ethz.ch @cscsch.bsky.social ) built Apertus.
icepfl.bsky.social
EPFL, ETH Zurich & CSCS just released Apertus, Switzerland’s first fully open-source large language model.
Trained on 15T tokens in 1,000+ languages, it’s built for transparency, responsibility & the public good.

Read more: actu.epfl.ch/news/apertus...
mjaggi.bsky.social
Die maschine ist eigentlich immer fast vollständig ausgelastet. Vom LLM projekt her haben wir aber jetzt fast keine grösseren workloads mehr momentan.
mjaggi.bsky.social
Das LLM training hat nur für eine relativ kurze Zeit (ca einen Monat) 4096 GPUs benutzt (das sind rund 40% der Maschine). Für den Rest des Trainings maximal 20%.

Hier noch der Link zum detailierteren tech report
github.com/swiss-ai/ape...
github.com