GPT-3 - “kẻ” thay đổi cuộc chơi
Khi GPT-3 xuất hiện vào 6/2020 nó đã lập tức thu hút chú ý khi biết cách vận dụng ngôn ngữ con người, tạo văn bản và phản hồi trôi chảy và tự nhiên bằng tiếng Anh. Nó tiên tiến hơn những trợ lý ảo như Siri của Apple hay Alexa của Amazon vì có thể bắt chước nhiều phong cách viết chỉ với một click chuột.
GPT-3 khiến thế giới vừa thán phục vừa lo sợ trước sự thông minh của nó. (Ảnh minh họa)
Sức ảnh hưởng của GPT-3 đã thể hiện rõ ràng hơn vào năm 2021, khi nhiều tập đoàn công nghệ và phòng thí nghiệm công bố những mô hình AI có kích thước và năng lực vượt trội GPT-3.
GPT-3 thu hút sự chú ý của thế giới không chỉ vì những gì nó có thể làm, mà bởi cách nó đã làm như thế nào? Bước nhảy vọt về hiệu suất, đặc biệt là khả năng tổng quát hóa các tác vụ ngôn ngữ của nó.
Năng lực của GPT-3 không đến từ thuật toán, mà bởi kích thước mô hình của chính nó. Kích thước mô hình đào tạo AI được đo bằng lượng tham số sở hữu. Đây là những biến số có thể điều chỉnh liên tục trong quá trình huấn luyện AI, giúp xây dựng năng lực dự đoán. AI càng nhiều tham số sẽ càng tiếp nhận được nhiều thông tin từ dữ liệu đào tạo, cho phép nó dự đoán và phản ứng chính xác hơn với những dữ liệu mới.
Jared Kaplan, một nhà nghiên cứu tại OpenAI và là một trong những nhà thiết kế của GPT-3 cho biết trong hội thảo NeurIPS tháng trước: “Chúng tôi cần một ý tưởng mới, nhưng chúng tôi đã đạt được điều đó theo quy mô”.
GPT-3 có 175 tỷ tham số cấu thành, gấp 10 lần hệ thống tiền nhiệm GPT-2. Tuy nhiên, niềm tự hào này đã liên tục bị vượt mặt vào cuối 2021.
Cuộc đua giữa các siêu AI đã bắt đầu
Đầu tiên phải kể đến PCL-BAIDU Wenxin, một mô hình với 280 tỷ thông số mà Baidu đang sử dụng trong nhiều ứng dụng, bao gồm tìm kiếm trên internet, nguồn cấp dữ liệu tin tức và loa thông minh. Và Học viện AI Bắc Kinh đã công bố Wu Dao 2.0, có 1.750 tỷ thông số.
Startup Mỹ AI21 Labs hồi tháng 9 năm ngoái công bố Jurassic-1, mô hình ngôn ngữ đã được thương mại hóa, với 178 tỷ tham số. Gopher, mô hình đào tạo được DeepMind cho ra mắt sau đó ba tháng, có 280 tỷ tham số. Còn Megatron-Turing NLG, dự án hợp tác của Microsoft và Nvidia, có 530 tỷ tham số. Google cũng tung ra Switch-Transformer và GLaM với con số lần lượt là 1.000 và 1.200 tỷ.
Cuộc đua siêu AI vẫn chưa có hồi kết. (Ảnh: Minh họa – Technologyreview)
"Chúng ta đang tiếp tục chứng kiến tỷ lệ thuận giữa kích thước mô hình AI với hiệu năng và điều này chưa có điểm dừng", hai nhà nghiên cứu của Microsoft đã đưa ra nhận định.
Xu hướng này không chỉ giới hạn tại Mỹ, Trung Quốc. Tại Hàn Quốc, tập đoàn Naver cuối năm ngoái giới thiệu HyperCLOVA có 204 tỷ tham số. Tất cả những sản phẩm này đều được giới công nghệ coi là thành tựu kỹ thuật. Xây dựng mô hình đào tạo trên 100 tỷ tham số là quá trình rất phức tạp. Hàng trăm bộ xử lý đồ họa GPU - phần cứng được ưa thích để đào tạo mạng neuron sâu - cần được kết nối và đồng bộ. Dữ liệu huấn luyện cũng phải được chia nhỏ thành từng khối, phân bổ cho các GPU theo đúng thứ tự và thời điểm.
Tuy nhiên, bất chấp kết quả ấn tượng, các nhà nghiên cứu vẫn không hiểu chính xác lý do tại sao việc tăng số lượng tham số lại dẫn đến hiệu suất tốt hơn. Họ cũng chưa tìm ra cách xử lý vấn đề ngôn ngữ độc hại và phát tán tin giả mà các mô hình này "học" được trong quá trình đào tạo.
"Huấn luyện nhờ Internet sẽ đi kèm những thiên kiến của Internet", nhóm phát triển GPT-3 thừa nhận.
Đối với tất cả những nỗ lực dành cho việc xây dựng các mô hình ngôn ngữ mới trong năm nay, AI vẫn bị mắc kẹt trong cái bóng của GPT-3. “Trong 10 hoặc 20 năm nữa, các mô hình quy mô lớn sẽ là tiêu chuẩn”, Kaplan nói trong hội thảo NeurIPS. Nếu đúng như vậy, đã đến lúc các nhà nghiên cứu không chỉ tập trung vào kích thước của một mô hình mà còn vào những gì họ làm với nó.
GPT-3 là mô hình tạo văn bản bằng AI, được phát triển bởi Open AI, phòng nghiên cứu có trụ sở tại San Francisco do tỷ phú Elon Musk tài trợ. Công cụ này đang làm chấn động Thung lũng Silicon với khả năng tự học và viết văn chuyên nghiệp như con người. Sự ra đời của GPT-3 đã mở ra cuộc đua về siêu AI trên toàn thế giới, để tạo ra những AI với những tính năng vượt trội.
Một loạt các vấn đề chưa được giải quyết với các mô hình kiểu GPT-3 như các rủi ro tiềm ẩn liên quan đến việc phát triển chúng và các chiến lược để giảm thiểu những rủi ro này vẫn là câu hỏi làm đau đầu các nhà khoa học.