DeepSeek-R1: Китайски AI модел с висока ефективност и достъпност ВИДЕО

26 Януари, 2025 15:43 1 181 9

  • deepseek-r1-
  • ai модел

Той предизвика вълнение в научните среди като достъпна и отворена алтернатива на други усъвършенствани модели

DeepSeek-R1: Китайски AI модел с висока ефективност и достъпност ВИДЕО - 1
Снимка: YouTube

На 20 януари 2025 г. китайската компания DeepSeek пусна на пазара новия си голям езиков модел DeepSeek-R1, който предизвика вълнение в научните среди като достъпна и отворена алтернатива на други усъвършенствани модели като OpenAI o1. Тези нови "логически" модели генерират отговори стъпка по стъпка, наподобявайки човешкото мислене, което ги прави по-способни в решаването на научни задачи, пише Nature.com.

Постиженията на DeepSeek-R1

Първоначалните тестове показват, че моделът има резултати, сравними с тези на o1, особено в области като химия, математика и програмиране. Например, DeepSeek-R1 постигна впечатляващ резултат от 97.3% върху набора от математически задачи MATH-500, създаден от Калифорнийския университет в Бъркли, и надмина 96.3% от човешките участници в програмния конкурс Codeforces.

"Това е невероятно и напълно неочаквано," коментира Елвис Саравия, изследовател в областта на изкуствения интелект и съосновател на DAIR.AI, базирана във Великобритания.

Една от ключовите характеристики на DeepSeek-R1 е неговата "отвореност". Моделът е публикуван с лиценз MIT, който позволява свободно използване и доразвиване на алгоритъма, въпреки че тренировъчните данни не са предоставени. Това го отличава от конкурентите му като o1 и o3 на OpenAI, които са "черни кутии", твърди д-р Марио Крен, ръководител на лабораторията Artificial Scientist към Института Макс Планк в Германия.

DeepSeek-R1 също така е значително по-достъпен финансово. Компанията предлага интерфейс за използване на модела, който е около 30 пъти по-евтин от o1. Освен това, DeepSeek е създала "дистилирани" версии на R1, които изискват по-малка изчислителна мощност, позволявайки на учени с ограничени ресурси да работят с модела.

Според изчисления на Марио Крен, експеримент, който би струвал над £300 с o1, струва под $10 с R1. "Това е драматична разлика, която със сигурност ще повлияе на бъдещото му приемане," допълва той.

Интелигентен подход към ограничени ресурси

DeepSeek-R1 е създаден в условия на ограничен достъп до най-добрите чипове за AI обработка, наложени от ограниченията за износ на САЩ. Въпреки това, DeepSeek успява да компенсира с иновативен алгоритмичен подход.

Един от основните методи, използвани при обучението на модела, е така нареченият "chain of thought" (верига на мислене), който му помага да решава по-сложни задачи, като понякога се връща назад и преоценява своя подход. За това фирмата използва метод за подсилващо обучение (reinforcement learning), при който моделът се възнаграждава за правилни отговори и ясно обяснени стъпки на мислене.

Допълнително, екипът е използвал "миксове от експерти" (mixture-of-experts) - архитектура, която активира само релевантните части на модела за всяка задача, което съществено намалява разходите за обучение.

DeepSeek-R1 представлява не само технологично, но и стратегическо предизвикателство за останалите играчи в индустрията, включително и за Nvidia - основният доставчик на чипове за американските конкуренти като OpenAI и Meta. Успехът на DeepSeek показва, че високоефективни AI модели могат да бъдат създавани дори с ограничени хардуерни ресурси и без най-съвременните чипове, което поставя под въпрос необходимостта от скъпоструваща инфраструктура. Това намалява зависимостта на китайските компании от Nvidia и подкопава тяхната доминираща позиция в глобалния пазар на AI хардуер. Докато Nvidia продължава да снабдява американските гиганти с мощни графични процесори, успехът на DeepSeek демонстрира, че интелигентните алгоритми и ефективността на ресурсите могат да изместят фокуса от чистата изчислителна мощ към иновациите в софтуера.

Историята на DeepSeek

DeepSeek е дъщерно дружество на компанията High-Flyer, която е известна като изключително успешна фирма за количествени изчисления (quant firm). Според Han Xiao, изследовател в областта на изкуствения интелект, фирмата е създадена от изключително умни професионалисти с дълбоки познания в математиката и от години използва мощни GPU за търговия и добив на криптовалути. "DeepSeek е техен страничен проект, с който се опитват да оптимизират използването на тези GPU," споделя Han Xiao в X.

Научно и практическо приложение

Въпреки че R1 леко изостава спрямо o1 в оценяването на изследователски идеи, той демонстрира по-добри резултати при изчисления в квантовата оптика, споделя Крен. "Това е доста впечатляващо," добавя той.

Освен това, откритостта на модела позволява на учените да изучават неговата "логика", което подобрява разбирането и интерпретацията на процесите.

DeepSeek-R1 е част от бързо развиващата се вълна на китайски езикови модели, които съкращават разликата с водещите разработки в САЩ. Успехът на модела подчертава значението на ефективното използване на ресурсите, като същевременно откроява необходимостта от международно сътрудничество в областта на изкуствения интелект.

Недостатъци

Въпреки иновативните си характеристики и впечатляващите си резултати, DeepSeek-R1 има и някои вградени ограничения, които подчертават влиянието на контекста, в който е създаден. Моделът избягва да отговаря на въпроси, които Китай счита за чувствителни, включително теми като Тайван, ситуацията с уйгурите, събитията на площад Тянанмън или всякаква критика към президента Си Дзинпин и други бивши лидери на Китайската комунистическа партия. В такива случаи R1 или заявява, че темата е извън неговия обхват, или изтрива отговора, след като го е започнал. Това създава съмнения относно способността на модела да бъде наистина отворен и универсален инструмент, като същевременно подчертава влиянието на националните политики върху развитието на изкуствения интелект. Подобни ограничения могат да доведат до недоверие извън Китай, особено в академични и изследователски среди, които изискват прозрачност, неутралност и свобода на изразяване при работата с чувствителни исторически и политически теми.

Източник: money.bg


Поставете оценка:
Оценка 5 от 5 гласа.


Напиши коментар:

ФAКТИ.БГ нe тoлeрирa oбидни кoмeнтaри и cпaм. Нeкoрeктни кoмeнтaри щe бъдaт изтривaни. Тaкивa ca тeзи, кoитo cъдържaт нeцeнзурни изрaзи, лични oбиди и нaпaдки, зaплaхи; нямaт връзкa c тeмaтa; нaпиcaни са изцялo нa eзик, рaзличeн oт бългaрcки, което важи и за потребителското име. Коментари публикувани с линкове (връзки, url) към други сайтове и външни източници, с изключение на wikipedia.org, mobile.bg, imot.bg, zaplata.bg, bazar.bg ще бъдат премахнати.

КОМЕНТАРИ КЪМ СТАТИЯТА

  • 1 Сталин

    8 1 Отговор
    Гумен Крадев ще обясни ли какъв пакт приеха в ООН ,така наречения Пакт за бъдещето,аз ще ви обясня,в този пакт се приема че всички трябва да имат биометрично дигитално ID не само за държавата от която е ,но и като глобален гражданин също,и ако някой противоречи на политиките на правителството ,ще му бъдат наложени наказания като блокирани банкови сметки,няма да може да пътува с кола или самолет ,няма да може да купува определени стоки и други подобни наказания и всичко това ще бъде контролирано от Изкуствен интелект,този пакт изрично беше наложен да се разгледа на срещата на ООН от СЗО , единствено Русия и още няколко държави имаха възражение за този пакт в сегашния му вид,сега още някой с половин мозък не може да разбере войната срещу Русия от глобалния банков кабал

    Коментиран от #5

  • 2 Факт

    3 0 Отговор
    Решаващи не са ресурсите, а идеите!
  • 3 Име

    3 0 Отговор
    Истината е в сърцето!
  • 4 Тръмп

    0 0 Отговор
    Все още не е умен за България.
  • 5 ВъпроZ

    2 1 Отговор

    До коментар #1 от "Сталин":

    Чудно ми е тогаз защо Русия вкара дигиталната рубла даже по рано от Брюксел и до средата на тая година руските банки трябва да са готови с дигиталната си инфраструктура за да могат клиентите им да откриват дигитален портфейл. Дигиталната валута е проект на световната банка! Защо Русия взе участие в този проект? Освен това Инфраструктурата в Русия за лицево разпознаване е много по напред от Запада.
  • 6 Оракула от Делфи

    1 3 Отговор
    И на края какво се оказа, че " супер интелектът" не разрешава да мислите за свобода на словото , печата
    и душата !
    То затова зетя на Си Дзипин е собственик на "Волво каарс АБ"!
    А останалата част от Китайците се "учат да смятат" !
  • 7 БеГемот

    2 1 Отговор
    Никакъв изкуствен интелект не може да победи хората с анцузите от панелките...това е друга вселена където тъмната енергия е в такова количество че законите на физиката не важат...
  • 8 Иванчо l-ви

    0 0 Отговор
    Засега безплатната версия отстъпва значително на CHAT GPT
  • 9 Град Козлодуй

    1 0 Отговор
    браво