Недавние заявления эстонских исследователей, таких как Меэлис Кулл из Тартуского университета, ставят на повестку дня важный вопрос о китайской языковой модели DeepSeek-R1, которая неожиданно оказалась на уровне с мировыми флагманами вроде ChatGPT от OpenAI. Особое внимание привлекло то, как китайцы смогли достичь таких результатов при гораздо меньших затратах, как в финансовом плане, так и по времени, несмотря на ограничения на чипы, наложенные США. Исходя из тестов, проведенных Куллом, модель DeepSeek-R1 выглядит вполне сопоставимой с одной из самых мощных моделей на рынке, ChatGPT o1, доступной на данный момент. Однако, несмотря на явное сходство, существуют важные различия. В отличие от ChatGPT, где внутренние механизмы работы остаются скрытыми, R1 привлекает внимание своей прозрачностью. Это не значит, что специалисты полностью понимают, как она работает, но её открытая архитектура позволяет более глубоко изучить её принципы. Важным моментом остаётся и доступность модели. В отличие от более закрытых решений в западных странах, DeepSeek-R1 может быть загружена и запущена пользователем, что предоставляет несомненные преимущества для исследователей и разработчиков. При этом Kулл подчеркивает, что для полноценных вычислений с моделью R1 требуется мощное оборудование, включая несколько графических процессоров, что ограничивает её использование широким кругом пользователей. В то же время, это не мешает тем, кто заинтересован в её функционале, запускать модель на собственных серверах, минимизируя риски утечек. Кроме того, публикация исходного кода R1 стала предметом обсуждения. Китайские разработчики, похоже, решили сделать свою модель доступной в отличие от большинства аналогичных продуктов западных компаний. Однако, несмотря на доступность, неясно, как именно китайская сторона обучала свою модель, и в чем заключаются её методические особенности. По словам Меэлиса Кулла, для обучения DeepSeek-R1 было использовано 2,788 млн GPU-часов, что составляет более 300 GPU-лет. Несмотря на то, что в OpenAI, например, не публикуют аналогичные данные, есть основания полагать, что затраты времени на обучение R1 оказались существенно ниже, чем у ChatGPT. Такое развитие событий не может оставить равнодушными мировые технологические гиганты, таких как Meta, Google и OpenAI, особенно в свете усиливающихся ограничений, накладываемых на Китай. Мнения специалистов, таких как Танель Таммет из Таллиннского технического университета, говорят о том, что китайские компании и университеты, несмотря на финансовые ограничения, активно экспериментируют с новыми методами обучения и тем самым добиваются интересных и инновационных результатов. Китайский подход к обучению ИИ оказался на удивление эффективным, что отражает не только технологический прогресс, но и способность китайской стороны действовать на грани политических и экономических реалий. Тем временем в США продолжают развивать свои модели ИИ, но, по мнению экспертов, с меньшей скоростью, что не способствует бурным инновациям. Ожидать каких-либо революционных изменений в ближайшее время вряд ли стоит. | |
NarvaNews
29.01.2025
|