DeepSeek AI: Những gì bạn cần biết

Deepseek: những điều bạn cần biết - Blog Chuyển đổi . số

DeepSeek, một công ty AI (trí tuệ nhân tạo) của Trung Quốc, đang gây chấn động ngành công nghệ với các mô hình ngôn ngữ lớn (LLM) mã nguồn mở, chi phí thấp, thách thức các gã khổng lồ công nghệ Hoa Kỳ.

Bài viết của tác giả Sean Michael Kerner đăng trên TechTarget vào ngày 30/01/2025, và được hỗ trợ dịch bởi AI.

Bối cảnh chung

Thế giới AI đã tồn tại một quan niệm phổ biến rằng việc phát triển các mô hình ngôn ngữ lớn (LLM, viết tắt của Large Language Models) hàng đầu đòi hỏi nguồn lực kỹ thuật và tài chính đáng kể. Đó là một trong những lý do chính khiến chính phủ Hoa Kỳ cam kết hỗ trợ Dự án Stargate trị giá 500 tỷ đô la do Tổng thống Donald Trump công bố.

Nhưng công ty phát triển AI Trung Quốc DeepSeek đã phá vỡ hoàn toàn quan niệm đó. Vào ngày 20/01/2025, DeepSeek đã phát hành LLM R1 với chi phí chỉ bằng một phần nhỏ so với chi phí mà các nhà cung cấp khác đã bỏ ra trong quá trình phát triển của họ. DeepSeek cũng cung cấp các mô hình R1 của mình dưới bản quyền dạng mã nguồn mở (open source), cho phép sử dụng miễn phí.

Trong vòng vài ngày sau khi phát hành, trợ lý AI DeepSeek - một ứng dụng di động cung cấp giao diện chatbot cho DeepSeek R1 - đã đứng đầu bảng xếp hạng App Store của Apple, vượt qua ứng dụng di động ChatGPT của OpenAI. Sự nổi lên như sao băng của DeepSeek về mặt sử dụng và độ phổ biến đã kích hoạt đợt bán tháo trên thị trường chứng khoán vào ngày 27/01/2025, khi các nhà đầu tư nghi ngờ về giá trị của các công ty AI lớn có trụ sở tại Hoa Kỳ, bao gồm Nvidia. Microsoft, Meta Platforms, Oracle, Broadcom và các gã khổng lồ công nghệ khác cũng chứng kiến sự sụt giảm đáng kể khi các nhà đầu tư đánh giá lại các định giá AI.

DeepSeek là gì?

DeepSeek là một công ty phát triển AI có trụ sở tại Hàng Châu, Trung Quốc. Công ty được thành lập bởi Liang Wenfeng (tạm dịch là Lương Văn Phong), một cựu sinh viên Đại học Chiết Giang, vào tháng 5/2023. Wenfeng cũng là đồng sáng lập của High-Flyer, một quỹ đầu tư phòng hộ định lượng của Trung Quốc sở hữu DeepSeek. Hiện tại, DeepSeek hoạt động như một phòng thí nghiệm nghiên cứu AI độc lập dưới sự bảo trợ của High-Flyer. Tổng số tiền tài trợ và định giá của DeepSeek chưa được công bố công khai.

DeepSeek tập trung vào phát triển các LLM mã nguồn mở. Mô hình đầu tiên của công ty được phát hành vào tháng 11/2023. Công ty đã lặp đi lặp lại nhiều lần trên LLM cốt lõi của mình và đã xây dựng một số biến thể khác nhau. Tuy nhiên, mãi đến tháng 1/2025 sau khi phát hành mô hình suy luận R1, công ty mới trở nên nổi tiếng toàn cầu.

Công ty cung cấp nhiều dịch vụ cho các mô hình của mình, bao gồm giao diện web, ứng dụng di động và truy cập API.

OpenAI và DeepSeek

DeepSeek dường như là thách thức mới nhất đối với OpenAI, công ty đã thiết lập vị thế dẫn đầu trong ngành AI với sự ra mắt của ChatGPT vào năm 2022. OpenAI đã giúp thúc đẩy ngành công nghiệp AI tạo sinh phát triển với các dòng mô hình GPT của mình, cũng như các mô hình suy luận lớp o1.Mặc dù cả hai công ty đều đang phát triển các LLM tạo sinh, họ có những cách tiếp cận rất khác nhau.

Bảng so sánh giữa OpenAI và Deepseek trên Chuyển đổi số

Đổi mới trong Huấn luyện tại DeepSeek

DeepSeek sử dụng một cách tiếp cận khác để huấn luyện các mô hình R1 của mình so với cách được OpenAI sử dụng. Quá trình huấn luyện tốn ít thời gian, ít bộ tăng tốc AI và tốn ít chi phí phát triển hơn. Mục tiêu của DeepSeek là đạt được trí tuệ nhân tạo tổng quát, và những tiến bộ của công ty trong khả năng suy luận thể hiện sự tiến triển đáng kể trong phát triển AI.

Trong một bài nghiên cứu, DeepSeek phác thảo nhiều đổi mới mà họ đã phát triển như một phần của mô hình R1, bao gồm:

Học tăng cường (Reinforcement learning).

DeepSeek sử dụng phương pháp học tăng cường quy mô lớn tập trung vào các nhiệm vụ suy luận.

Kỹ thuật phần thưởng (Reward engineering).

Các nhà nghiên cứu đã phát triển một hệ thống phần thưởng dựa trên quy tắc cho mô hình, vượt trội hơn các mô hình phần thưởng nơ-rôn được sử dụng phổ biến hơn. Kỹ thuật phần thưởng là quá trình thiết kế hệ thống khuyến khích hướng dẫn việc học tập của mô hình AI trong quá trình huấn luyện.

Chắt lọc.

Sử dụng các kỹ thuật chuyển giao kiến thức hiệu quả, các nhà nghiên cứu DeepSeek đã thành công trong việc nén các khả năng vào các mô hình nhỏ chỉ với 1.5 tỷ tham số.

Mạng hành vi nổi lên.

Đổi mới về hành vi nổi lên của DeepSeek là khám phá rằng các mẫu suy luận phức tạp có thể phát triển tự nhiên thông qua học tăng cường mà không cần lập trình rõ ràng.

Các mô hình ngôn ngữ lớn (LLM) của DeepSeek

Kể từ khi công ty được thành lập vào năm 2023, DeepSeek đã phát hành một loạt mô hình AI tạo sinh. Với mỗi thế hệ mới, công ty đã nỗ lực thúc đẩy cả khả năng và hiệu suất của các mô hình:

DeepSeek Coder

Phát hành tháng 11/2023, đây là mô hình mã nguồn mở đầu tiên của công ty được thiết kế đặc biệt cho các nhiệm vụ liên quan đến lập trình.

DeepSeek LLM

Phát hành vào tháng 12/2023, đây là phiên bản đầu tiên của mô hình đa năng của công ty.

DeepSeek-V2

Phát hành vào tháng 5/2024, đây là phiên bản thứ hai của LLM của công ty, tập trung vào hiệu suất mạnh mẽ và chi phí huấn luyện thấp hơn.

DeepSeek-Coder-V2

Phát hành vào tháng 7/2024, đây là mô hình 236 tỷ tham số cung cấp cửa sổ ngữ cảnh 128.000 token, được thiết kế cho các thách thức lập trình phức tạp.

DeepSeek-V3

Phát hành vào tháng 12/2024, DeepSeek-V3 sử dụng kiến trúc kết hợp-các-chuyên gia, có khả năng xử lý nhiều nhiệm vụ khác nhau. Mô hình có 671 tỷ tham số với độ dài ngữ cảnh 128.000.

DeepSeek-R1.

Phát hành vào tháng 1/2025, mô hình này dựa trên DeepSeek-V3 và tập trung vào các nhiệm vụ suy luận nâng cao cạnh tranh trực tiếp với mô hình o1 của OpenAI về hiệu suất, trong khi duy trì cấu trúc chi phí thấp hơn đáng kể. Giống như DeepSeek-V3, mô hình có 671 tỷ tham số với độ dài ngữ cảnh 128.000.

Janus-Pro-7B

Phát hành vào tháng 1/2025, Janus-Pro-7B là mô hình thị giác có thể hiểu và tạo ra hình ảnh.

Tại sao Deepseek lại gây báo động ở Hoa Kỳ

Việc phát hành DeepSeek-R1 đã gây báo động ở Hoa Kỳ, kích hoạt lo ngại và đợt bán tháo cổ phiếu công nghệ trên thị trường chứng khoán. Hôm thứ hai, ngày 27/01/2025, chỉ số Nasdaq Composite đã giảm 3,4% khi mở cửa thị trường, với cổ phiếu của Nvidia giảm 17% và mất khoảng 600 tỷ đô la vốn hóa thị trường.

DeepSeek đang gây báo động ở Hoa Kỳ vì một số lý do, bao gồm:

Phá vỡ cấu trúc chi phí.

DeepSeek tuyên bố đã phát triển mô hình R1 với chi phí dưới 6 triệu đô la. Việc phát triển chi phí thấp đe dọa mô hình kinh doanh của các công ty công nghệ Hoa Kỳ đã đầu tư hàng tỷ đô la vào AI. DeepSeek cũng rẻ hơn cho người dùng so với OpenAI.

Thành tựu kỹ thuật bất chấp hạn chế.

Việc xuất khẩu các chip tăng tốc AI và GPU hiệu suất cao nhất từ Hoa Kỳ sang Trung Quốc bị hạn chế. Tuy nhiên, bất chấp điều đó, DeepSeek đã chứng minh rằng phát triển AI hàng đầu là có thể mà không cần truy cập vào công nghệ tiên tiến nhất của Hoa Kỳ.

Đe dọa mô hình kinh doanh.

Trái ngược với OpenAI, sử dụng công nghệ độc quyền, DeepSeek là mã nguồn mở và miễn phí, thách thức mô hình doanh thu của các công ty Hoa Kỳ đang tính phí hàng tháng cho dịch vụ AI.

Lo ngại địa chính trị.

Có trụ sở tại Trung Quốc, DeepSeek thách thức sự thống trị công nghệ của Hoa Kỳ trong lĩnh vực AI. Nhà đầu tư công nghệ Marc Andreessen gọi đây là "thời khắc Sputnik" của AI, so sánh nó với bước đột phá trong cuộc đua không gian của Liên Xô vào những năm 1950.

Tấn công mạng nhắm vào DeepSeek

Sự phổ biến của DeepSeek không qua mắt được các tin tặc.

Vào ngày 27/01/2025, DeepSeek báo cáo các cuộc tấn công độc hại quy mô lớn vào dịch vụ của mình, buộc công ty phải tạm thời hạn chế đăng ký người dùng mới. Thời điểm của cuộc tấn công trùng với việc ứng dụng trợ lý AI của DeepSeek vượt qua ChatGPT để trở thành ứng dụng được tải xuống nhiều nhất trên Apple App Store.

Bất chấp cuộc tấn công, DeepSeek vẫn duy trì dịch vụ cho người dùng hiện tại. Vấn đề kéo dài đến ngày 28/01, khi công ty báo cáo đã xác định được vấn đề và triển khai bản sửa lỗi.

DeepSeek chưa nêu rõ bản chất chính xác của cuộc tấn công, mặc dù suy đoán rộng rãi từ các báo cáo công khai cho thấy đó là một hình thức tấn công DDoS nhắm vào API và nền tảng trò chuyện web của công ty.

Dữ liệu DeepSeek bị lộ

Wiz Research - một nhóm thuộc công ty bảo mật đám mây Wiz Inc. - đã công bố phát hiện vào ngày 29/01/2025 về một cơ sở dữ liệu back-end có thể truy cập công khai đang rò rỉ thông tin nhạy cảm lên web. Thông tin bao gồm lịch sử trò chuyện DeepSeek, dữ liệu back-end, luồng nhật ký, khóa API và chi tiết hoạt động. DeepSeek đã ngắt kết nối cơ sở dữ liệu ngay sau khi được thông báo. Chưa rõ cơ sở dữ liệu đã bị lộ trong bao lâu.

Về tác giả

Sean Michael Kerner là một cố vấn CNTT, người đam mê công nghệ và người thích nghiên cứu. Ông đã từng làm việc với Token Ring, cấu hình NetWare và được biết đến với việc tự biên dịch nhân Linux của riêng mình. Ông tư vấn cho các tổ chức công nghiệp và truyền thông về các vấn đề công nghệ.

Nguồn tham khảo:

DeepSeek explained: Everything you need to know https://www.techtarget.com/whatis/feature/DeepSeek-explained-Everything-you-need-to-know