Konark 🐍
banner
konark.bsky.social
Konark 🐍
@konark.bsky.social
Python Web Developer 🐍

Бот з статистикою хороших руських: https://t.me/RussiansRipBot
по таким в школі лазили
October 6, 2025 at 2:18 PM
В них спочатку місяць, потім день, ні?
February 16, 2025 at 12:10 AM
Пішоходів поки не зрозуміло чи треба пропускати, хоча вони наче не особливо питають, переходять де зручно. Але звикаєш, і просто насолоджуєшся красою країни 🇦🇱
February 11, 2025 at 8:57 PM
Неприємно
January 28, 2025 at 8:32 PM
“Чи програють США війну в галузі штучного інтелекту?” Я так не думаю. DeepSeek зробили кілька великих проривів, а ми — сотні невеликих. Якщо ми приймемо архітектуру DeepSeek, наші моделі стануть кращими. Тому що в нас більше обчислювальних потужностей і даних.
January 28, 2025 at 4:51 PM
Крім того, експортні обмеження не нашкодили їм настільки, як ми очікували. Ймовірно, тому, що наші експортні обмеження були, відверто кажучи, доволі паршивими. H800 гірші за H100 лише з точки зору пропускної здатності між чипами.
January 28, 2025 at 4:51 PM
Є ще низка дрібних інновацій, але ці є найважливішими.
Я не думаю, що тут є щось магічне. Справді, вони просто зробили дві величезні інновації для зниження витрат, що дозволило їм проводити більше експериментів і швидше зворотно розробити o1.
January 28, 2025 at 4:51 PM
Як вони повторили o1?
Використовуючи навчання з підкріпленням. Вони брали складні запитання, які легко перевірити (наприклад, математичні задачі або код), і оновлювали модель, якщо відповідь була правильною.
January 28, 2025 at 4:51 PM
Чому інференс у DeepSeek обходиться настільки дешевше?
Вони стиснули KV-кеш. (Це був прорив, якого вони досягли деякий час тому.)
January 28, 2025 at 4:51 PM
Як DeepSeek тренувався настільки ефективніше?
Вони використовували формули (наведені нижче), щоб «передбачити», які токени модель активує. Потім вони тренували лише ці токени. Вони потребували на 95% менше GPU, ніж Meta, бо для кожного токена вони тренували лише 5% параметрів.
January 28, 2025 at 4:51 PM
Як DeepSeek обійшов експортні обмеження?
Ніяк. Вони просто експериментували з чипами, щоб максимально ефективно використовувати пам’ять. Їм пощастило, і їхній ідеально оптимізований низькорівневий код не обмежувався пропускною здатністю чипів.
January 28, 2025 at 4:51 PM
З Лондону?
January 24, 2025 at 2:13 PM
Нетфлікс одразу наче випускає всі ))
January 24, 2025 at 2:12 PM
Так і не скажеш
January 24, 2025 at 2:10 PM
Я теж думав, а потім такий... Я ж всеодно окрім масажу серця і дефібрілятора нічого не вмію
January 17, 2025 at 1:56 AM
Також використовую search.brave.com щоб визирнути з бульбашки. Але локально краще google досі нічого немає 🤷
Brave Search
Search the Web. Privately. Truly useful results, AI-powered answers, & more. All from an independent index. No profiling, no bias, no Big Tech.
search.brave.com
November 13, 2024 at 12:49 AM
November 11, 2024 at 4:24 AM