Camille Marchet ⚡
@camillemrcht.bsky.social
1K followers 170 following 450 posts
Researcher in @BonsaiSeqBioinfo Lille, France. Bioinformatics, data-structures for DNA/RNA.
Posts Media Videos Starter Packs
camillemrcht.bsky.social
Oui je pense que @fingels.bsky.social a travaillé sur ça ou tout proche en thèse
camillemrcht.bsky.social
C'est la plante modèle par excellence ! Avec un génome plutôt petit.
camillemrcht.bsky.social
Oui nous les bioinformaticiens on a plein de plantes dans nos bureaux :-)
Reposted by Camille Marchet ⚡
Reposted by Camille Marchet ⚡
agros.bsky.social
La saison 2025 des #NobelPrize est lancée. Compte de la parité :
♂️ 2
♀️ 1
Prix Nobel de physiologie/médecine à Mary Brunkow, Fred Ramsdell & Shimon Sakaguchi pour leurs découvertes concernant le contrôle du système immunitaire pour lutter contre les microbes tout en évitant les maladies auto-immunes.
camillemrcht.bsky.social
Oh bien sûr des gens essaient. Mais ici pour stocker de manière très efficace, d'autres techniques fonctionnent très bien (avec pas ou peu de machine learning jusqu'ici). Si je ne me trompe pas, le projet de Pasteur intègre par contre un LLM pour faire assistant de requêtes.
camillemrcht.bsky.social
Les U un peu timides avancent masqués 😎
Reposted by Camille Marchet ⚡
davidho.bsky.social
Hey US scientists, the NY Times wants to hear from you if you've had your funding cut. 🌊🧪
Has Your Scientific Work Been Cut? We Want to Hear.
www.nytimes.com
camillemrcht.bsky.social
Mais aussi les collègues de Pasteur, ont un navigateur de l'amplitude de celui publié aujourd'hui, axé sur davantage de performances (ça se comprend vu les échelles !). Il existe sous forme de pré-publcation. Affaire à suivre ;-)
camillemrcht.bsky.social
Petit moment cocorico, sachez qu'en Europe et en France on se place bien dans ce créneau, avec des équivalents de navigateurs spécialisés pour des génomes bactériens, pour des données environnementales (à Rennes) et pour les ARNs (par bibi and colleagues).
camillemrcht.bsky.social
couplées à une bonne connaissance des spécificités de ces données, qui sont très différentes du texte produit par les humains (ça serait franchement bien plus facile sinon) qu'ils ont réussi ce tour de force.
camillemrcht.bsky.social
C'est par des méthodes algorithmiques, de compression, de mise à disposition et de structuration des données, (pas de LLM là dedans je vous vois venir)
camillemrcht.bsky.social
Dix ans plus tard les collègues Suisses en mettent à disposition des millions !
camillemrcht.bsky.social
C'est le cœur du papier édité aujourd'hui. C'est une question qui a commencé à nous intéresser il y a dix ans, avec notamment une proposition de collègues de Pennsylvanie, qui à l'époque avaient réussi à rendre disponible à la requêtes un peu plus de 2000 jeux de données.
camillemrcht.bsky.social
Ici on ne chercherait pas "chat" mais par exemple "ACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGCAGGGCCATCAGGCACCAA", et on aimerait bien savoir dans quels échantillons, et donc quelles espèces, peut-être quelles conditions, ce "mot" apparaît.
camillemrcht.bsky.social
Quelque chose que vous ne pouvez *pas* faire sur ce site, c'est chercher dans tous ces échantillons un "mot", comme vous chercheriez "chat" dans un moteur de recherche.
camillemrcht.bsky.social
(j'en profite pour faire passer le message que ces structures sont abondamment subventionnées et pourraient évidemment tomber un jour sous la menace de politiques publiques périlleuses et aveuglées, c'est arrivé pour de plus petits serveurs)
camillemrcht.bsky.social
Vous pouvez aller voir vous même : www.ebi.ac.uk/ena/browser/... Vous y trouverez des séquençage humains, de la bactérie E coli sous toutes ces formes, de levures, de molécules d'ARN, même d'extraits d'eau de mer
ENA Browser
ENA Browser
www.ebi.ac.uk
camillemrcht.bsky.social
Pour le dire autrement, ce sont des dizaines de Pétabases qui sont stockés, environ un ordre de grandeur seulement de moins que les flux vidéos de Youtube, et beaucoup plus que tout le texte indexé sur internet !
camillemrcht.bsky.social
La diminution des coûts, couplée à une volonté -remarquable je voudrais quand même le dire- de science ouverte, aujourd'hui nous disposons de centaines de millions de milliards de ces bases A,C,G,T sur des serveurs publics comme SRA ou l'ENA en Europe.
camillemrcht.bsky.social
C'est du même séquençage que vous avez entendu parler avec le Covid-19. Il en existe un grand nombre de raffinements.
camillemrcht.bsky.social
Depuis, les techniques ont beaucoup progressé, dans le sens où on peut séquencer à relativement bas coût un génome humain "en routine" aujourd'hui (c'est tout de même un peu plus de 3 milliards de A,C,G,T).