Deepstack Poker là gì
Thậm chí người nào poker DeepStack còn có thể phán đoán những lá bài của người chơi mà ko cần dựa vào nét mặt của họ như con người.
Vào cuối tháng Một mới đây, các nhà công nghệ máy tính của trường Carnegie Mellon đã đem đến một bước tiến quan trọng về AI: thuật toán của họ Libratus đã đánh bại hàng loạt các những người chơi poker chuyên nghiệp trong một cuộc thi với 120.000 người tham dự, luôn nhớ chọn các nhà cái uy tín để đặt cược an toàn.
.
Cho dù trước đây con người đã từng thất bại nhiều lần trước máy tính trong các trò chơi khác, poker lại là một sự khác biệt đơn thuần. Ở đây, người chơi không mang lại thông tin về những người chơi còn lại. Khác biệt cơ bản này đòi hỏi người nào của poker phải có khả năng ứng phó được với loại trường hợp thông tin ko hoàn hảo.
tuy nhiên trong tuần này, một đội ngũ nghiên cứu khác đã thông báo về thuật toán chơi poker của riêng họ, có khả năng đánh bại con người, DeepStack. Không những vậy, cả 2 hàng ngũ đều cho biết cách tiếp cận của mình không chỉ dành riêng cho môn poker mà còn với cả các trò chơi dạng thông báo không tuyệt vời khác, những môn con người đang cai trị.
Các chiến lược ko hoàn hảo
Một trò chơi thông báo hữu hiệu khá đơn giản: số đông người chơi đều có thể biết trông thấy phần lớn trạng thái của trò chơi, thường chỉ diễn ra trên một bàn cờ. Không chỉ vậy những trò chơi này cũng có các lệ luật, luật lệ riêng. Vậy nên, việc tính toán mọi nước đi có thể trong một lần chơi cụ thể là khá đơn giản. Với đủ sức mạnh điện toán, máy tính có thể tính toán tất cả quốc gia đi có thể - quá đủ để chấm dứt bất kỳ trò chơi nào.
Đối với một trò chơi đơn giản như Checkers (cờ Đam), điều ấy có tức là máy tính có thể dự báo được cả những bước đi lâu dài. Còn với những môn cờ phức tạp hơn, như cờ Vua, thường máy tính sẽ dự báo tương đối chuẩn xác 10 nước đi sắp đến.
nếu một máy tính có thể ấn định trị giá cho mỗi thao tác đi lâu dài trên bàn cờ, việc nó nó có thể thực hiện một bước đi tối ưu trong bất kỳ trường hợp nào là hoàn toàn có thể. Vào khi đấy, Mong rằng tốt nhất dành cho người chơi chỉ có thể là một ván hòa.
khi mà đó, poker hoàn toàn khác biệt. Trong mỗi biến thể của trò chơi này, xoành xoạch có những quân bài mà ko người chơi nào khác thấy được, gồm những cả những quân bài đã được cầm lên tay và những quân bài vẫn chưa chia. Điều này tạo ra một thách thức điện toán to hơn phổ biến so với các trò chơi khác.
Để giải quyết các trò chơi thông báo ko hữu hiệu này, các nghiên cứu trước đây hội tụ vào cách tiếp cận có xuất xứ từ lý thuyết trò chơi. Các máy tính sẽ chọn một chiến thuật nào đấy và tính toán khả năng nó sẽ phải ân hận vì đã dùng lúc trò chơi đang diễn ra.
tình trạng lý tưởng của cách tiếp cận này có nghĩa là những người chơi khác sẽ chẳng thể thường xuyên khai thác được các nhược điểm trong chiến lược của nó để ăn tiền. Tuy nhiên, điều này ko có nghĩa là máy tính sẽ thắng trong mọi ván đấu 1 vài tình huống chỉ đơn giản là chẳng thể làm theo cách này, bởi vì việc thường xuyên tìm kiếm cách đi mới để chiến thắng trong dài hạn là quá khó.
Chiến lược của Libratus
Như thế nên, ai poker sẽ vừa phải có khả năng tính toán xem chiến lược của mình sẽ hoạt động như thế nào đối với mỗi trường hợp cụ thể của ván đấu (quân bài rút được và lịch sử đặt cược), vừa phải có khả năng chọn được một chiến lược chung phù hợp nhất với mỗi ván đấu mà nó tham dự.
khung cảnh trận đấu giữa Libratus với các chuyên gia poker bậc nhất toàn cầu.
Đối với Libratus, nó làm được điều này dựa phổ biến vào việc tính toán trước và sau đấy cập nhật mỗi ngày khi mà giải đấu vẫn đang diễn ra. Khi mà, những người chơi vẫn còn đang bàn bạc về các điểm yếu trong chiến lược của nó mà họ mua ra, hàng ngũ Libratus lại đang sử dụng các phần cứng điện toán với tốc độ phổ quát Petaflop để vá lại những lỗ hổng này.
Mỗi ngày sau lúc ván đấu kết thúc, một siêu thuật toán (meta-algorithm) sẽ phân tách những lỗ hổng nào trong chiến lược của Libratus mà người chơi đã phát hiện và khai thác. Tuomas Sandholm, nhà nghiên cứu tại Carnegie Mellon cho biết. Sau đó trí tuệ nhân tạo này sẽ ưu tiên siêu máy tính cho việc vá các lỗ hổng và thuật toán vào mỗi tối.
Do vậy nên, các chuyên gia poker đã phải nhận xét rằng. Mỗi lúc chúng tôi tìm ra một điểm yếu nào ấy, nó học được điều ấy và điểm yếu đấy biến mất vào ngày hôm sau. Jimmy Chou một trong các chuyên gia đấu với Libratus cho biết. Kết quả rút cục là một thắng lợi đằm thắm cho Libratus khi nó dẫn trước với số tiền 1,75 triệu đô la.
DeepStack - phán đoán thái độ của người chơi mà ko cần nhìn mặt
khi mà đó, DeepStack là sự cộng tác giữa một vài nhà nghiên cứu người Séc với đội ngũ Trước tiên hình dung ra thuật toán tiếp cận dừng với trò Texas Holdem. Cũng giống như Libratus, đó là một cách tiếp cận chung để giải quyết các trò chơi có thông tin ko hữu hiệu. Tuy nhiên, các chi tiết về cách tiếp cận điện toán của DeepStack rất khác biệt so với Libratus: nó chơi một cách hữu hiệu nhờ việc xem mỗi lượt lên bài như một ván đấu hoàn toàn mới.
Một đoạn tài liệu dưới đây về DeepStack giảng giải vì sao việc đưa ra quyết định dựa trên hồ hết lịch sử của ván đấu lại khó có thể mang đến hiệu quả:
Quyết định đúng đắn tại một thời khắc cụ thể phụ thuộc vào phân phối xác suất về thông tin riêng mà đối phương đang nắm giữ (các lá bài của đối phương), vốn chỉ được tiết lộ qua các hành động của họ trong dĩ vãng. Tuy thế, việc hành động của đối phương bật mí thông báo đấy như thế nào, lại phụ thuộc vào hiểu biết của họ về thông tin riêng mà chúng tôi đang nắm giữ và hành động của chúng tôi tiết lộ nó như thế nào. Loại hàm đệ quy này là lý do tại sao người ta chẳng thể tiện dụng giải thích các tình trạng trò chơi một cách độc lập.
Để giảm thiểu bị mắc kẹt vào một hàm đệ quy vô biên, DeepStack chỉ cần bỏ qua quá khứ. mục tiêu của chúng tôi là giảm thiểu duy trì một chiến lược cho cả ván đấu. Các nhà vững mạnh ai này cho biết. Thay vào đó, mỗi khi đến lượt chơi của mình, DeepStack tiến hành một phép tìm kiếm nhanh để chọn ra chiến lược dựa trên tình trạng hiện tại của ván đấu. Kết quả tìm kiếm phụ thuộc vào 2 thao tác rút gọn chính.
Ban đầu là nó chỉ coi xét 1 số lượng ngừng các hành động. Người nào có thể FOLD (bỏ bài), CALL (cược bằng người chơi trước), ALL-IN (đặt hết số tiền) hoặc chỉ đặt cược gấp hai hay 3 lần. Điều này giúp ngừng một cách đáng kể số lượng các hiện trạng của mai sau cần phải được xem xét chỉ còn khoảng 140 cách xếp bài dựa trên những quân mà nó có. Nó cũng sẽ ko tìm kiếm tiếp rất nhiều các khả năng có thể xảy ra.
Kết quả là người nào này chỉ mất 5 giây để hoàn tất phép tính với một card đồ họa NVIDIA GeForce GTX 1080 duy nhất.
Thứ 2 là giới hạn các khả năng lên bài của đối phương. Gần như công việc trên vẫn đòi hỏi phải kiếm tìm các trị giá có thể của những lần lên bài lâu dài. Tuy nhiên, nhờ vào việc sử dụng hai mạng lưới thần kinh nhân tạo Deep Learning (học sâu), 2 bản sao của cộng một mạng lưới: một dành cho 3 lá bài chung Đầu tiên, mạng lưới thứ 2 dành cho hai lá bài riêng chung cục. Về cơ bản, ai này có khả năng suy đoán các lá bài của đối phương mà không cần Nhìn vào mặt họ.
hoàn hảo của DeepStack
Để thử nghiệm ai này, phê duyệt Liên đoàn Poker Quốc tế, nhóm nghiên cứu thuê 33 người chơi để chơi đối đầu với nó. Nhưng trị giá tiền mặt của giải thưởng không đủ để thu hút những người chơi tốt nhất cho thí điểm này, và 1 vài người trong số họ chỉ hoàn thành 1 vài ít ván đấu.
Chỉ có hai người chơi kết thúc ván đấu với việc dẫn trước DeepStack, và cả hai người đấy đều chơi rất ít ván, Do đó rất khó dự báo được những lá bài rút được sẽ là gì. Với 11 người chơi đã trải qua số đông 3.000 ván đấu với DeepStack, gần như đều kết thúc với việc xếp sau nó, 10 người trong số họ thậm chí còn thua với một khoảng cách rất đáng kể, luôn nhớ tham khảo siêu máy tính dự đoán bóng đá trước khi đặt cược.
Do các cách tiếp cận của 2 nhóm Libratus và DeepStack rất khác biệt, nên có rất ít cơ hội để hai đội ngũ nghiên cứu có thể sáp nhập với nhau dù họ muốn. Tuy nhiên, cách tiếp cận của DeepStack đang cho thấy tổng quát hơn, vì nó ko dựa vào một siêu máy tính để cập nhật hệ thống chỉ cần khoảng nghỉ.
Nhưng điều quan trọng là liệu phần mềm này có thể mở mang ra bên ngoài các trò chơi hay không. Cả hai đội ngũ đều tuyên bố sẽ đưa ra một cách tiếp cận tổng quát cho các trường hợp thông tin không hoàn hảo: Đối với DeepStack, phần code dành riêng cho poker dường như đơn thuần là việc dùng các màng lưới thần kinh nhân tạo để tính toán giá trị của tình trạng ván đấu trong khoảng thời gian dài và ra quyết định tùy vào các giá trị ấy.
giả dụ những đoạn code này được chuyển đổi sang các ngành khác, nó có thể ứng dụng được cho các vấn đề trong toàn cầu thực. Các tác giả của DeepStack quan niệm rằng nó sẽ rất có giá trị trong việc ra các quyết định về y tế và quốc phòng.
tuy thế, bước Tiếp theo của nghiên cứu này chỉ đơn giản là cho phần mềm này chơi khi có phổ biến hơn một đối thủ. Cả 2 người nào này hiện tại mới được thiết kế dành cho các trận đối đầu một một, việc bổ sung thêm người chơi trên bàn sẽ làm gia tăng cường tính phức tạp và tăng thách thức điện toán.