DeepSeek-R1، آخرین مدل از سری مدل های توسعه یافته با تراشه های کم و با هزینه کم، سلطه غول هایی مانند OpenAI، Google و Meta را به چالش می کشد.
مدل زبان بزرگ (LLM) آزمایشگاه هوش مصنوعی چینی DeepSeek با تبدیل شدن به یکی از بزرگترین رقبای ChatGPT شرکت آمریکایی OpenAI، سیلیکون ولی را شگفتزده کرد.
گفته می شود جدیدترین مدل های DeepSeek که در این ماه منتشر شده اند، بسیار سریع و کم هزینه هستند.
DeepSeek-R1، جدیدترین مدل توسعه یافته با تراشه های کمتر، سلطه غول هایی مانند OpenAI، Google و Meta را به چالش می کشد.
در اینجا DeepSeek در هشت سوال آمده است:
1.DeepSeek از کجا آمده است؟
این شرکت مستقر در هانگژو چین در ژوئیه 2023 توسط لیانگ ونفنگ، مهندس کامپیوتر و الکترونیک و فارغ التحصیل دانشگاه ژجیانگ تاسیس شد. این بخشی از برنامه انکوباسیون High-Flyer بود، صندوقی که به لطف لیانگ در سال 2015 ایجاد شد. لیانگ، مانند سایر نامهای پیشرو در این بخش، به دنبال سطحی از "هوش عمومی مصنوعی" است که قادر به دستیابی یا پیشی گرفتن از انسان در کارهای مختلف است. .
مدل تامین مالی DeepSeek که به طور مستقل عمل می کند، به آن اجازه می دهد پروژه های هوش مصنوعی بلندپروازانه را بدون فشار سرمایه گذاران خارجی دنبال کند و تحقیق و توسعه بلندمدت را در اولویت قرار دهد. تیم DeepSeek متشکل از فارغ التحصیلان جوان و با استعداد از دانشگاه های برتر چین است و فرهنگ نوآوری را پرورش می دهد. فرآیند استخدام شرکت، مهارت های فنی را بر تجربه کاری ترجیح می دهد. به طور خلاصه، اعتقاد بر این است که دیدگاه جدیدی در روند توسعه مدلهای هوش مصنوعی دارد.
سفر DeepSeek در نوامبر 2023 با راه اندازی DeepSeek Coder، یک الگوی متن باز طراحی شده برای کارهای کدنویسی آغاز شد . DeepSeek LLM به دنبال آن بود که قصد داشت با دیگر مدل های زبان اصلی رقابت کند. DeepSeek-V2 که در ماه مه 2024 منتشر شد، به دلیل عملکرد عالی و هزینه کم، مورد توجه قرار گرفته است. همچنین سایر غول های فناوری چینی مانند ByteDance، Tencent، Baidu و Alibaba را مجبور کرده است که قیمت مدل های هوش مصنوعی خود را کاهش دهند.
2. ظرفیت مدل های DeepSeek چقدر است؟
DeepSeek-V2 بعدها با DeepSeek-Coder-V2 جایگزین شد، مدلی پیشرفته تر با 236 میلیارد پارامتر. این مدل که برای درخواست های کدنویسی پیچیده طراحی شده است، دارای یک پنجره زمینه بزرگ، تا 128000 توکن است. یک پنجره زمینه 128000 توکن حداکثر طول متن ورودی است که مدل می تواند به طور همزمان پردازش کند.
یک پنجره زمینه بزرگتر به مدل اجازه می دهد تا متون طولانی تر را بفهمد، خلاصه کند یا تجزیه و تحلیل کند. این یک مزیت بزرگ است، برای مثال، هنگام کار بر روی اسناد طولانی، کتاب ها یا دیالوگ های پیچیده.
نشانه یک واحد در یک متن است. اغلب این واحد می تواند یک کلمه، یک ذره (مانند "مصنوعی" و "هوش") یا حتی یک کاراکتر باشد. به عنوان مثال: "هوش مصنوعی عالی است!" می تواند از چهار نشانه تشکیل شود: "مصنوعی"، "هوش"، "بزرگ"، "!".
آخرین مدلهای DeepSeek-V3 و DeepSeek-R1 موقعیت این شرکت را بیشتر تثبیت کردهاند . با مدل 671000 پارامتری، DeepSeek-V3 به منابع کمتری نسبت به همتایان خود نیاز دارد، در حالی که هنوز نتایج چشمگیری در تستهای بنچمارک مختلف با برندهای دیگر به دست میآورد. DeepSeek-R1 که در ژانویه 2025 راه اندازی شد، بر کارهای پیچیده ای مانند استدلال، کدنویسی و ریاضیات تمرکز دارد. به لطف قابلیت های خود در این زمینه، o1، یکی از جدیدترین مدل های ChatGPT را به چالش می کشد.
اگرچه DeepSeek در مدت زمان کوتاهی به موفقیت چشمگیری دست یافته است، فوربس نوشت که این شرکت در درجه اول بر جستجو متمرکز است و هیچ برنامه دقیقی برای تجاری سازی در آینده نزدیک ندارد.
3. آیا برای کاربر نهایی رایگان است؟
یکی از دلایل اصلی که DeepSeek موفق به جلب توجه شده است رایگان بودن آن برای کاربران نهایی است. در واقع، این اولین سیستم هوش مصنوعی پیشرفته ای است که به صورت رایگان در اختیار کاربران قرار می گیرد. سایر سیستم های قدرتمند مانند OpenAI o1 و Claude Sonnet به اشتراک پولی نیاز دارند. برخی از اشتراک ها حتی سهمیه هایی را برای کاربران اعمال می کنند.
Google Gemini نیز به صورت رایگان در دسترس است، اما نسخه های رایگان محدود به مدل های قدیمی تر است. DeepSeek در حال حاضر هیچ محدودیتی ندارد.
4. چگونه استفاده می شود؟
کاربران می توانند به رابط چت کاربر نهایی DeepSeek در "chat.deepseek" دسترسی داشته باشند . به سادگی دستورات را در صفحه چت وارد کنید و دکمه "جستجو" را فشار دهید تا در اینترنت جستجو کنید.
یک گزینه "فکر عمیق" برای دریافت اطلاعات دقیق تر در مورد هر موضوعی وجود دارد. در حالی که این گزینه پاسخ های دقیق تری به درخواست های کاربر ارائه می دهد، می تواند سایت های بیشتری را در موتور جستجو جستجو کند. با این حال، برخلاف ChatGPT که فقط از منابع خاصی جستجو می کند، این ویژگی می تواند اطلاعات نادرست را در برخی از سایت های کوچک نیز آشکار کند. بنابراین کاربران باید اطلاعات به دست آمده را با این ربات چت تایید کنند.
5. ایمن است؟
سوال مهم دیگر در مورد استفاده از DeepSeek این است که آیا آن بی خطر است یا خیر. DeepSeek مانند سایر سرویس ها به داده های کاربر نیاز دارد که احتمالاً در سرورهای چین ذخیره می شود.
مانند هر LLM، مهم است که کاربران داده های حساسی را در اختیار چت بات قرار ندهند.
از آنجایی که DeepSeek نیز منبع باز است، محققان مستقل میتوانند کد مدل را بررسی کرده و بیخطر بودن آن را تعیین کنند. انتظار می رود در روزهای آینده اطلاعات دقیق تری در مورد مسائل امنیتی منتشر شود.
6. متن باز به چه معناست؟
مدلها، از جمله DeepSeek-R1، عمدتاً منبع باز منتشر شدهاند. این بدان معنی است که هر کسی می تواند به کد ابزار دسترسی داشته باشد و از آن برای سفارشی کردن LLM استفاده کند . داده های آموزشی اختصاصی است.
از طرف دیگر OpenAI مدل بسته شده o1 را منتشر کرده بود و در حال حاضر آن را فقط به کاربران حتی کاربران با بسته های 20 تا 200 دلاری در ماه می فروشد.
7. چگونه با وجود محدودیت های آمریکا موفق به تولید چنین مدلی شدید؟
این شرکت همچنین مشارکت های استراتژیک خود را برای افزایش قابلیت های تکنولوژیکی و دسترسی به بازار ایجاد کرده است. یکی از قابل توجه ترین همکاری ها با شرکت آمریکایی تراشه AMD بود . به گفته فوربس، DeepSeek از پردازندههای گرافیکی AMD Instinct (واحدهای پردازش گرافیکی) و نرمافزار ROCM در مراحل کلیدی توسعه مدل، بهویژه برای DeepSeek-V3 استفاده کرده است.
بررسی فناوری MIT گزارش داد که لیانگ منابع قابل توجهی از تراشههای Nvidia A100 را خریداری کرده است، نوعی تراشه که در حال حاضر صادرات آن به چین ممنوع است، قبل از تحریمهای آمریکا علیه چین. رسانه چینی 36Kr تخمین می زند که این شرکت بیش از 10000 واحد در انبار دارد. برخی می گویند این رقم 50000 واحد است. لیانگ با درک اهمیت این لوازم برای آموزش هوش مصنوعی، DeepSeek را تأسیس کرد و شروع به استفاده از آنها همراه با تراشه های کم مصرف برای بهبود مدل های خود کرد.
اما نکته مهم این است که لیانگ راهی برای ساخت مدل های شایسته با منابع کم پیدا کرده است . محدودیتهای صادرات تراشه به ایالات متحده، توسعهدهندگان DeepSeek را مجبور کرده است تا الگوریتمهای هوشمندتر و کارآمدتری برای جبران کمبود قدرت محاسباتی ایجاد کنند. اعتقاد بر این است که ChatGPT برای پردازش داده های آموزشی به 10000 پردازنده گرافیکی Nvidia نیاز دارد. مهندسان DeepSeek می گویند که تنها با 2000 GPU به نتایج مشابهی دست یافته اند.
8. تکنیک های نوآورانه DeepSeek چیست؟
موفقیت DeepSeek را می توان به چندین نوآوری مهم نسبت داد.
یادگیری تقویتی : به گفته Janakiram MSV فنآور، برخلاف روشهای سنتی، که به شدت بر تنظیم دقیق نظارت شده متکی هستند، DeepSeek از RL خالص استفاده میکند. در تنظیم نظارت شده، مدل معمولاً قبل از تنظیم بر روی یک مجموعه داده بزرگ آموزش داده می شود . استفاده از RL خالص به این معنی است که یک سیستم هوش مصنوعی تنها با استفاده از روش های یادگیری تقویتی آموزش دیده است. این بدان معناست که مدل فقط از طریق مکانیسمهای پاداش و تنبیه، بدون دادههای استخراجشده توسط انسان یا روشهای یادگیری تحت نظارت، یاد میگیرد. این رویکرد به ویژه برای بهبود قابلیت های استدلال DeepSeek-R1 موثر است.
معماری MOE : معماری ترکیبی از متخصصان سیستمی نوآورانه از متخصصان مختلف در مدلهای هوش مصنوعی است. در اینجا چندین متخصص به عنوان مناسب ترین برای ورودی کاربر انتخاب می شوند و فقط آنها کار می کنند. این باعث افزایش عملکرد مدل های بزرگ و کاهش هزینه های پردازش می شود . می توانید به تیمی از متخصصان فکر کنید که هر کدام در زمینه های متفاوتی تخصص دارند. هنگام پرداختن به یک کار، فقط از کارشناسان مربوطه دعوت می شود که استفاده کارآمد از منابع و تخصص را تضمین می کنند.
توجه نهفته چند سر : این روش به مدل اجازه می دهد تا روابط بین بازنمایی های نهفته و ورودی ها را با استفاده از سرهای توجه متعدد بیاموزد. برای پردازش اطلاعات به شیوه ای انعطاف پذیرتر، قدرتمندتر و دقیق تر استفاده می شود. میتوانید این روش را بهعنوان «سرهای توجه» متعددی در نظر بگیرید که میتوانند روی بخشهای مختلف دادههای ورودی تمرکز کنند و به مدل اجازه میدهند اطلاعات را کاملتر درک کند.
تقطیر : DeepSeek از تکنیک های تقطیر برای انتقال دانش و قابلیت های مدل های بزرگتر به مدل های کوچکتر و کارآمدتر استفاده می کند . این شبیه به انتقال دانش توسط معلم به دانش آموز است. به این ترتیب دانش آموز می تواند وظایفی در سطح مشابه، اما با تجربه یا منابع کمتر انجام دهد. فرآیند تقطیر DeepSeek به مدلهای کوچکتر اجازه میدهد تا تواناییهای استدلال و پردازش زبان پیشرفتهتر همتایان بزرگتر خود را به ارث ببرند و آنها را همهکارهتر و در دسترستر میسازد.
به طور خلاصه، با استفاده از معماری های کارآمد مانند RL و MoE، DeepSeek به طور قابل توجهی منابع محاسباتی مورد نیاز برای آموزش را کاهش می دهد و می تواند آن را با هزینه کمتر تکمیل کند. به عنوان مثال، DeepSeek-V3 با کسری از هزینه مدل های متا آموزش داده شد.
الکساندر وانگ، مدیرعامل ScaleAI که دادههای آموزشی را به مدلهای هوش مصنوعی از بازیگران اصلی مانند OpenAI و Google ارائه میکند، محصول DeepSeek را در سخنرانی خود در مجمع جهانی اقتصاد (WEF) در داووس، سوئیس، به عنوان "الگویی تغییر دهنده بازی" توصیف کرد.
:: بازدید از این مطلب : 6
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0