Konark 🐍
@konark.bsky.social
по таким в школі лазили
October 6, 2025 at 2:18 PM
по таким в школі лазили
В них спочатку місяць, потім день, ні?
February 16, 2025 at 12:10 AM
В них спочатку місяць, потім день, ні?
Пішоходів поки не зрозуміло чи треба пропускати, хоча вони наче не особливо питають, переходять де зручно. Але звикаєш, і просто насолоджуєшся красою країни 🇦🇱
February 11, 2025 at 8:57 PM
Пішоходів поки не зрозуміло чи треба пропускати, хоча вони наче не особливо питають, переходять де зручно. Але звикаєш, і просто насолоджуєшся красою країни 🇦🇱
“Чи програють США війну в галузі штучного інтелекту?” Я так не думаю. DeepSeek зробили кілька великих проривів, а ми — сотні невеликих. Якщо ми приймемо архітектуру DeepSeek, наші моделі стануть кращими. Тому що в нас більше обчислювальних потужностей і даних.
January 28, 2025 at 4:51 PM
“Чи програють США війну в галузі штучного інтелекту?” Я так не думаю. DeepSeek зробили кілька великих проривів, а ми — сотні невеликих. Якщо ми приймемо архітектуру DeepSeek, наші моделі стануть кращими. Тому що в нас більше обчислювальних потужностей і даних.
Крім того, експортні обмеження не нашкодили їм настільки, як ми очікували. Ймовірно, тому, що наші експортні обмеження були, відверто кажучи, доволі паршивими. H800 гірші за H100 лише з точки зору пропускної здатності між чипами.
January 28, 2025 at 4:51 PM
Крім того, експортні обмеження не нашкодили їм настільки, як ми очікували. Ймовірно, тому, що наші експортні обмеження були, відверто кажучи, доволі паршивими. H800 гірші за H100 лише з точки зору пропускної здатності між чипами.
Є ще низка дрібних інновацій, але ці є найважливішими.
Я не думаю, що тут є щось магічне. Справді, вони просто зробили дві величезні інновації для зниження витрат, що дозволило їм проводити більше експериментів і швидше зворотно розробити o1.
Я не думаю, що тут є щось магічне. Справді, вони просто зробили дві величезні інновації для зниження витрат, що дозволило їм проводити більше експериментів і швидше зворотно розробити o1.
January 28, 2025 at 4:51 PM
Є ще низка дрібних інновацій, але ці є найважливішими.
Я не думаю, що тут є щось магічне. Справді, вони просто зробили дві величезні інновації для зниження витрат, що дозволило їм проводити більше експериментів і швидше зворотно розробити o1.
Я не думаю, що тут є щось магічне. Справді, вони просто зробили дві величезні інновації для зниження витрат, що дозволило їм проводити більше експериментів і швидше зворотно розробити o1.
Як вони повторили o1?
Використовуючи навчання з підкріпленням. Вони брали складні запитання, які легко перевірити (наприклад, математичні задачі або код), і оновлювали модель, якщо відповідь була правильною.
Використовуючи навчання з підкріпленням. Вони брали складні запитання, які легко перевірити (наприклад, математичні задачі або код), і оновлювали модель, якщо відповідь була правильною.
January 28, 2025 at 4:51 PM
Як вони повторили o1?
Використовуючи навчання з підкріпленням. Вони брали складні запитання, які легко перевірити (наприклад, математичні задачі або код), і оновлювали модель, якщо відповідь була правильною.
Використовуючи навчання з підкріпленням. Вони брали складні запитання, які легко перевірити (наприклад, математичні задачі або код), і оновлювали модель, якщо відповідь була правильною.
Чому інференс у DeepSeek обходиться настільки дешевше?
Вони стиснули KV-кеш. (Це був прорив, якого вони досягли деякий час тому.)
Вони стиснули KV-кеш. (Це був прорив, якого вони досягли деякий час тому.)
January 28, 2025 at 4:51 PM
Чому інференс у DeepSeek обходиться настільки дешевше?
Вони стиснули KV-кеш. (Це був прорив, якого вони досягли деякий час тому.)
Вони стиснули KV-кеш. (Це був прорив, якого вони досягли деякий час тому.)
Як DeepSeek тренувався настільки ефективніше?
Вони використовували формули (наведені нижче), щоб «передбачити», які токени модель активує. Потім вони тренували лише ці токени. Вони потребували на 95% менше GPU, ніж Meta, бо для кожного токена вони тренували лише 5% параметрів.
Вони використовували формули (наведені нижче), щоб «передбачити», які токени модель активує. Потім вони тренували лише ці токени. Вони потребували на 95% менше GPU, ніж Meta, бо для кожного токена вони тренували лише 5% параметрів.
January 28, 2025 at 4:51 PM
Як DeepSeek тренувався настільки ефективніше?
Вони використовували формули (наведені нижче), щоб «передбачити», які токени модель активує. Потім вони тренували лише ці токени. Вони потребували на 95% менше GPU, ніж Meta, бо для кожного токена вони тренували лише 5% параметрів.
Вони використовували формули (наведені нижче), щоб «передбачити», які токени модель активує. Потім вони тренували лише ці токени. Вони потребували на 95% менше GPU, ніж Meta, бо для кожного токена вони тренували лише 5% параметрів.
Як DeepSeek обійшов експортні обмеження?
Ніяк. Вони просто експериментували з чипами, щоб максимально ефективно використовувати пам’ять. Їм пощастило, і їхній ідеально оптимізований низькорівневий код не обмежувався пропускною здатністю чипів.
Ніяк. Вони просто експериментували з чипами, щоб максимально ефективно використовувати пам’ять. Їм пощастило, і їхній ідеально оптимізований низькорівневий код не обмежувався пропускною здатністю чипів.
January 28, 2025 at 4:51 PM
Як DeepSeek обійшов експортні обмеження?
Ніяк. Вони просто експериментували з чипами, щоб максимально ефективно використовувати пам’ять. Їм пощастило, і їхній ідеально оптимізований низькорівневий код не обмежувався пропускною здатністю чипів.
Ніяк. Вони просто експериментували з чипами, щоб максимально ефективно використовувати пам’ять. Їм пощастило, і їхній ідеально оптимізований низькорівневий код не обмежувався пропускною здатністю чипів.
Нетфлікс одразу наче випускає всі ))
January 24, 2025 at 2:12 PM
Нетфлікс одразу наче випускає всі ))
Я теж думав, а потім такий... Я ж всеодно окрім масажу серця і дефібрілятора нічого не вмію
January 17, 2025 at 1:56 AM
Я теж думав, а потім такий... Я ж всеодно окрім масажу серця і дефібрілятора нічого не вмію
Також використовую search.brave.com щоб визирнути з бульбашки. Але локально краще google досі нічого немає 🤷
Brave Search
Search the Web. Privately. Truly useful results, AI-powered answers, & more. All from an independent index. No profiling, no bias, no Big Tech.
search.brave.com
November 13, 2024 at 12:49 AM
Також використовую search.brave.com щоб визирнути з бульбашки. Але локально краще google досі нічого немає 🤷