返回網站

擊中大獎的玩家心得分享:如何在線上轉盤賭遊戲中贏取豐厚獎金?【目前麻将的人工智能研究到了什么地步?】

 文章目錄 擊中大獎的玩家心得分享:如何在線上轉盤賭遊戲中贏取豐厚獎金? 目前麻将的人工智能研究到了什么地步? 德州撲克大小順序:探索遊戲中的策略與技巧 擊中大獎的玩家心得分享:如何在線上轉盤賭遊戲中贏取豐厚獎金? 在線上轉盤賭遊戲中贏取豐厚獎金的心得分享 線上轉盤賭遊戲是一種受歡迎的賭博娛樂方式,玩家可以透過這種遊戲希望運氣女神的庇護,贏得豐厚的獎金。然而,要在這種遊戲中贏取獎金並不容易,需要一些策略與技巧。以下是一些我在玩線上轉盤賭遊戲時的心得分享: 了解遊戲規則:在開始玩線上轉盤賭遊戲之前,一定要熟悉遊戲的規則。不同的遊戲可能有不同的玩法和贏取獎金的方式,仔細閱讀和瞭解遊戲規則將有助於你制定策略並提升贏的機會。 設定預算:在進行任何形式的賭博時,設定一個合理的預算至關重要。根據自己的經濟能力和風險承受能力,確定一個適合自己的賭博預算。這樣可以避免過度賭博並且保護你的經濟狀況。 選擇適合的賭注:在線上轉盤賭遊戲中,賭注的選擇對於贏取獎金至關重要。小賭怡情,但贏得的獎金也相對較小。大賭大贏,但同時也帶來更高的風險。根據自己的預算和風險承受能力,選擇適合的賭注,平衡風險和潛在獎金。 採用策略:一些玩家在線上轉盤賭遊戲中使用各種策略來提高贏的機會。例如,負監控策略是一種根據過去的結果選擇賭注的策略;倍投策略是在連續輸贏時增加或減少賭注的策略。你可以嘗試不同的策略,找到適合自己的方法。 管理情緒:在賭博過程中,情緒管理是非常重要的。當你贏得獎金時,不要過於興奮;當你輸掉賭注時,也不要氣餒。保持冷靜和理智的心態,不要讓情緒影響你的決策和遊戲品質。 合理分配時間:線上轉盤賭遊戲充滿樂趣,但過度沉迷賭博是不可取的。合理分配時間,避免長時間連續玩賭博遊戲。懂得與家人和朋友保持社交,並關注其他興趣和活動,以保持身心健康。 選擇可靠的網站:最後,選擇一個可靠的線上轉盤賭遊戲網站是非常重要的。確保所選的網站有合法的遊戲牌照,提供安全和公平的遊戲環境。同時,評估網站的用戶評價和評價,找到一個可信賴的平臺。 結論而言,要在線上轉盤賭遊戲中贏取豐厚獎金需要運氣和策略的結合。透過了解遊戲規則、設定預算、選擇適合的賭注、採用策略、管理情緒、合理分配時間和選擇可靠的網站,你可以提升贏的機會並享受這種刺激的娛樂方式。 目前麻将的人工智能研究到了什么地步? 目前麻將的人工智能研究到了什麼地步? - 知乎 首頁 知乎知學堂 發現 等你來答 切換模式 登錄/註冊 人工智能 計算機 目前麻將的人工智能研究到了什麼地步? 是否達到了人類頂尖高手的水平? 關注者 被瀏覽 關注問題 寫回答邀請回答好問題 71 條評論分享 8 個回答 默認排序 微軟亞洲研究院 人工智能話題下的優秀答主 關注 久 等 了! 還記得去年夏天,在麻將界異軍突起的「科學麻將」新秀——微軟麻將AI Suphx嗎? 最近,微軟亞洲研究院Suphx研發團隊已將相關論文發在arXiv上啦,就讓我來為大家解讀一下Suphx背後技術的核心內容吧~ 論文傳送門:月9日下午15:30-16:15,麻將AI研究團隊將在Bilibili直播中詳解Suphx技術細節,也會在Q&A環節中答疑解惑。 更新:直播視頻已上傳,錯過的朋友可以收藏回看啦微軟研發團隊揭秘麻將AI Suphx先花一點點時間回顧一下背景! 2019年8月,我們在世界人工智能大會上正式宣佈由微軟亞洲研究院研發的麻將AI系統Suphx成為首個在國際知名專業麻將平台「天鳳」上榮升十段的AI 系統,其實力超越該平台公開房間頂級人類選手的平均水平。 作為大家喜聞樂見的娛樂項目,麻將僅在亞洲地區就擁有上億玩家。極高的普及度使得很多人都認為麻將是一項十分容易的棋牌類遊戲。但麻將雖然入門容易,要真正打好麻將、精通麻將卻十分困難。以國際知名專業麻將平台天鳳()為例,平台上超過35萬的活躍玩家中,只有不到1%的玩家達到了專業7段及以上的高手水平。 麻將AI 到底有哪些難點?Suphx這一在遊戲AI領域具有跨越性的突破具體是如何實現的?下面的回答中將詳細解答。 圖1:天鳳玩家段位分佈以及 Suphx 排名,Suphx 成績超過了99.99%的天鳳玩家 麻將 AI 面臨的挑戰 麻將 AI 系統 Suphx 主要基於深度強化學習技術。儘管深度強化學習在一系列遊戲 AI 中取得了巨大的成功,但想要將其直接應用在麻將 AI 上殊為不易,面臨着若干挑戰。 挑戰一:麻將的計分規則通常都非常複雜,在如天鳳平台等競技麻將中,計分規則更加複雜。 首先,一輪麻將遊戲通常有8局甚至更多,每一局結束後四位玩家都會有這一局的得分(可能為正,可能為負)。當一輪遊戲的所有8局(或更多局)都結束後,四位玩家按照所有局的累計得分排名,計算這一輪遊戲的點數獎勵。在天鳳平台上,排在一二名的玩家會得到一定數目的點數,排在第三位的玩家點數不變,排在第四位的玩家會被扣去一定數目的點數 。 wabo娛樂線上賭博app 。因此,為了提高段位,玩家需要儘量多的排在第一位或者第二位,儘量避免被排在第四位。 由於一輪遊戲的最終點數是由多局的累計得分決定,所以高手可能會策略性地輸掉一些局。例如,如果一位玩家已經在前面7局大比分領先,那麼他可能會故意輸掉第8局讓排在第三或四位的玩家贏得此局,從而確保自己的總分排在第一,最終獲得這一輪遊戲的最大點數。也就是説,某一局的輸贏並不能直接代表玩家打的好不好,所以我們並不能直接使用每局的得分來作為強化學習的獎勵反饋信號。 其次,天鳳平台上每一輪遊戲的計分規則都需要根據贏家手裏的牌型來計算得分,牌型有非常多的可能,例如清一色、混一色、門清等等,不同牌型的得分會相差很大。這樣的計分規則比象棋、圍棋等遊戲要複雜得多。麻將高手需要謹慎選擇牌型,以在胡牌的概率和胡牌的得分上進行平衡,從而取得第一、二位或者擺脱第四位。 挑戰二:從博弈論的角度來看,麻將是多人非完美信息博弈。 麻將一共有136張牌,每一位玩家只能看到很少的牌,包括自己的13張手牌和所有人打出來的牌,更多的牌是看不到,包括另外三位玩家的手牌以及牆牌。面對如此多的隱藏未知信息,麻將玩家很難僅根據自己的手牌做出一個很好的決策(詳見「 哪類遊戲AI難度更高?用數學方法來分析一下 」,文中對各種遊戲隱藏信息及複雜度進行了分析)。 挑戰三:麻將除了計分規則複雜之外,打法也比較複雜,需要考慮多種決策類型。 例如,除了正常的摸牌、打牌之外,還要經常決定是否吃牌、碰牌、槓牌、立直以及是否胡牌。任意一位玩家的吃碰槓以及胡牌都會改變摸牌的順序,因此我們很難為麻將構建一棵規則的博弈樹(game tree)。即使我們去構建一棵博弈樹,那麼這棵博弈樹也會非常龐大,並且有不計其數的分支,導致以前一些很好的方法,如蒙特卡洛樹搜索(MCTS)、蒙特卡洛反事實遺憾最小化(MCCFR)算法等都無法直接被應用。 Suphx 的決策流程及模型架構 Suphx 的打牌策略包含5個需要訓練的模型,以應對麻將複雜的決策類型——丟牌模型、立直模型、吃牌模型、碰牌模型以及槓牌模型。另外 Suphx 還有一個基於規則的贏牌模型決定在可以贏牌的時候要不要贏牌。 Suphx 的具體決策流程如下圖所示: 圖2:Suphx 決策流程 Suphx 的5個模型都基於深度殘差卷積神經網絡,它們的大體結構(如圖3、圖4所示)相似,主要不同在於輸入的維度和輸出的維度。其中丟牌模型輸出有34個節點,代表丟34張牌中任何一張牌的概率,其他的4個模型輸出層只有2個節點,代表是否立直、吃牌、碰牌、槓牌的概率。 圖3:丟牌模型結構 圖4:立直、吃牌、碰牌、槓牌模型結構 這些模型的輸入包含了兩大類信息: 1. 當前可觀測的信息,例如玩家自己的手牌、公開牌(包括丟出來的牌、碰的牌、明槓的牌),以及每個玩家的累計得分、座位、段位等等。 2. 對將來進行預測的信息,比如打某張牌還需要拿幾張牌才能胡牌、能夠贏多少分、胡牌概率有多大,等等。 需要指出的是,卷積神經網絡 CNN 比較適合處理圖像數據,但是麻將本身並不是天然的圖像數據,因此我們需要對麻將的這些信息進行編碼,使得 CNN 能夠進行處理。圖5展示了我們用一個4x34的矩陣來編碼玩家的手牌。 圖5:手牌信息的矩陣表達 實際上,在 Suphx 研發的初期,我們採用了決策樹算法 LightGBM,其在監督學習模仿人類玩家的行為上表現的不錯,但是不適合強化學習,因此後來我們轉而使用 CNN。 Suphx 訓練算法 Suphx 訓練過程分為三個主要步驟:首先使用來自天鳳平台的高手打牌記錄,通過監督學習來訓練這5個模型,然後使用自我博弈強化學習以及我們設計的兩個技術解決麻將本身的獨特性所帶來的挑戰,最後我們在實戰時採用在線策略自適應算法來進一步提高 Suphx 的能力。 下面我們將重點介紹 Suphx 學習算法中的一些關鍵環節: 分佈式強化學習 Suphx 的整個訓練過程十分複雜,需要多 GPU 和多 CPU 協同,因此我們採用了分佈式架構(圖6所示)。架構包括一個參數伺服器以及多個自我博弈節點,每個節點裏包含了多個麻將的模擬器以及多個推理引擎來進行多個策略之間的博弈(即打麻將)。每個自我博弈節點定期將打牌的記錄發送給參數伺服器,參數伺服器會利用這些打牌記錄來訓練提高當前策略。每過一段時間,自我博弈節點就會從參數伺服器拿回最新的策略,用來進行下一階段的自我博弈。 圖6:分佈式訓練 我們發現,強化學習訓練對策略的熵很敏感。如果熵太小,強化學習訓練收斂速度快,自我博弈並不能顯著提高策略;如果熵太大,強化學習訓練就會變得不穩定,訓練過程中的策略變化會很劇烈。所以,我們對強化學習訓練過程中的策略熵進行了正則化處理,要求熵既不能太大又不能太小。 全局獎勵預測 如前文所述,麻將的計分規則很複雜——玩家每局有得分,一輪遊戲根據多局累計分數的排名計算點數。然而,無論是每局得分還是一輪遊戲的最終點數都不適合用來做強化學習訓練的反饋信號。 由於一輪遊戲中有多局,以一輪遊戲結束的最終獎勵點數作為反饋信號不能區分打得好的局和打得差的局。因此,我們需要對每局都單獨提供強化學習的訓練信號。 然而,即使每局分數都是單獨計算的,也未必能反映出一局打的好壞,特別是對於頂級職業選手來説。例如,在一輪遊戲的最後一兩局中,累計得分排位第一的選手在累計分數領先較大的情況下,通常會變得比較保守,會有意識地讓排位第三或第四的選手贏下這一局,不讓排第二位的玩家贏,這樣就可以穩穩地保住總排位第一。也就是説,某一局得分為負不一定意味着策略不好。 因此,為了給強化學習訓練提供有效的信號,我們需要將最終的遊戲獎勵適當地歸因到每一輪的遊戲中。為此,我們引入了一個全局獎勵預測器,它可以基於本局的信息和之前的所有局信息預測出最終的遊戲獎勵。在 Suphx 中,獎勵預測器是一個遞歸神經網絡 (GRU),如圖7所示。 圖7:全局獎勵預測器 該獎勵預測器的訓練數據來自於高手玩家在天鳳平台的歷史記錄,而訓練過程則是最小化預測值和最終遊戲獎勵之間的平方誤差。預測器訓練好後,對於自我博弈生成的遊戲,我們用當前局預測的最終獎勵和上一局預測的最終獎勵之間的差值作為該局強化學習訓練的反饋信號。 先知教練 麻將中存在着豐富的隱藏信息,如其他玩家的手牌、牆牌等,如果不能獲得這些隱藏信息,那麼就很難確保某個動作(例如丟三萬)的好壞,這也是麻將之所以很難的一個根本原因。在這種情況下,雖然 Suphx 可以通過強化學習來提高策略,但學習速度會非常慢。 為了加快強化學習訓練的速度,我們引入了一個「先知」,它可以看到所有的信息,包括(1)玩家自己的私有手牌,(2)所有玩家的公開牌,(3)其他公共信息, (4)其他三個玩家的私有手牌,(5)牆牌。只有(1)(2)和(3)是正常的玩家可以獲得的,而(4)和(5)是只有「先知」才能獲得的額外的 完美 信息。 有了這些「不公平」的完美信息,「先知」在經過強化學習訓練後,很容易成為麻將超級高手,安定段位也很容易就可以超過20段。這裏的挑戰是,如何利用「先知」來引導和加速 AI 的訓練。實驗表明,簡單的知識萃取(knowledge distillation)或者模仿學習(imitation learning)並不能很好地把「先知」的「超能力」轉移到 AI 系統上——對於一個只能獲取有限信息的正常 AI 來説,它很難模仿一個訓練有素的「先知」的行為,因為「先知」的能力太強,遠遠超出了普通 AI 的能力。比如,「先知」看到了其他玩家的手牌,知道每個玩家胡什麼牌,所以它可以打出絕對安全的牌,避免因為丟牌使得其他玩家胡牌,然而正常的 AI 並沒有這些信息,它可能完全不能理解為什麼「先知」會打這張牌,所以也不能學到這種行為。因此,我們需要一個更聰明的方法,用「先知」來引導正常 AI 的訓練。 在 Suphx 中,我們的做法如下: 首先,通過強化學習訓練「先知」,使用包括完美信息在內的所有特徵來訓練「先知」。在這一過程中需要控制「先知」的學習進度,不能讓其過於強大。 然後,我們通過加 mask 逐漸丟掉完美特徵,使「先知」最終過渡到正常 AI。 接着,我們繼續訓練正常 AI,並進行一定數量的迭代。持續訓練的過程中採用了兩個技巧:一,將學習率衰減到十分之一;二,我們採用了拒絕採樣,即如果自我博弈生成的樣本和當前模型的行為相差太大,我們便會拋棄這些樣本。根據我們的實驗,如果沒有這些技巧,持續訓練會不穩定,也不會帶來進一步的改進。 參數化的蒙特卡洛策略自適應 對一個麻將高手來説,初始手牌不同時,他的策略也會有很大的不同。例如,如果初始手牌好,他會積極進攻,以獲得更多的得分;如果初始手牌不好,他會傾向防守,放棄胡牌,以減少損失。這與此前的圍棋 AI 和星際爭霸等遊戲 AI 有很大的不同。所以,如果我們能夠在對戰過程中對線下訓練的策略進行調整,那麼我們就可以得到更強的麻將 AI。 蒙特卡洛樹搜索(MCTS)是圍棋等遊戲 AI 中一種成熟的技術,以提高對戰時的勝率。然而遺憾的是,如前所述,麻將的摸牌、打牌順序並不固定,很難建立一個規則的博弈樹。因此,MCTS 不能直接應用於麻將 AI。在 Suphx 中, https://www.instagram.com/wabo_hk (pMCPA)。 當初始的手牌發到麻將 AI 手中時,我們會調整離線訓練好的策略,使其更適應這個給定的初始手牌,具體過程為: 模擬:隨機採樣三個對手的手牌和牆牌,然後利用離線訓練的策略將這一局模擬打完。總共做 K 次。 調整:利用這 K 次打牌的過程和得分進行梯度更新,微調策略。 打牌:使用微調後的策略與其他玩家進行對戰。 我們的實驗表明,相對麻將隱藏信息集的平均大小10的48+次方倍而言,模擬的次數 K 的數量不需要很大,pMCPA 也並不需要為這一局手牌收集所有可能後續狀態的統計數據。由於 pMCPA 是一種參數化的方法,所以微調更新後的策略可以幫助我們將從有限的模擬中獲得的知識推廣泛化到未見過的狀態。 在線實戰 Suphx 已在天鳳平台特上房和其他玩家對戰了5000多場,達到了該房間目前的最高段位10段,其安定段位達到了8.7段(如圖8所示),超過了平台上另外兩個知名 AI 的水平以及頂級人類選手的平均水平。 圖8:天鳳平台「特上房」安定段位對比 下表展示了 Suphx 在這些對戰中的一些統計數據,包括1/2/3/4位率、胡牌率以及點炮率。我們發現 Suphx 特別擅長防守,它的4位率和點炮率(deal-in rate)尤其低。 註:上表格中的 Bakuuchi 即東京大學/HEROZ 研發的麻將 AI 「爆打」 Suphx 可以説是「另闢蹊徑」, 具有鮮明的個人風格,創造了許多新的策略和打法,例如它特別擅長保留安全牌,傾向於胡混一色等等。下圖展示了 Suphx 在天鳳平台實戰時保留安全牌的一個例子。當前時刻 Suphx(南家)需要丟牌,如果是一個人類玩家高手,在這種情況下會丟北風,但是 Suphx 這個時候會丟掉一張7條,這在人類玩家看起來會覺得很不尋常,因為7條是一張好牌,丟掉7條會使得胡牌的進度變慢。Suphx 之所以丟掉7條而留住北風,是因為北風是一張安全牌,這樣在未來某一時刻,如果有人突然立直要胡牌了,Suphx 可以打出北風而不點炮,這樣後面還有機會胡牌;如果它在前面已經把北風丟掉,那這個時候為了打出一張安全牌就不得不拆掉手裏的好牌,從而大大降低了胡牌的可能。 圖9:Suphx(南邊位置)保留安全牌北風 許多觀看 Suphx 比賽的玩家表示在觀戰過程中受到了啓發,甚至有麻將愛好者將 Suphx 稱作「麻將教科書」、「Suphx 老師」,通過學習 Suphx 的打法,幫助他們進一步提升和豐富自己的麻將技巧。「我已經看了 300 多場 Suphx 的比賽,我甚至不再觀看人類玩家的比賽了。我從 Suphx 身上學到了很多新技術,它們對於我的三人麻將打法有着非常大的啓發,」麻將選手太くないお在社交媒體上表示。去年 6 月太くないお成為世界上第 15 位三人麻將天鳳位獲得者,也是第一位在四人麻將和三人麻將中均取得天鳳位的頂級玩家。 總結和展望 Suphx 可謂是迄今為止最強的麻將 AI 系統,也是天鳳平台上首款超越大多數頂尖人類玩家的麻將 AI。我們相信,今天 Suphx 在天鳳平台上取得的成績只是一個開始,未來,我們將為 Suphx 引入更多更新的技術,繼續推動麻將 AI 和不完美信息遊戲研究的前沿。 同時,我們也期待遊戲 AI 的研究可以推動人工智能技術的創新發展,讓人工智能真正走進我們的生活,幫助人們解決更加錯綜複雜的現實挑戰。很多現實世界中的問題如金融市場預測、物流優化等與麻將有着相同的特點,包括複雜操作/獎勵規則、信息的不完全性等。 我們相信,我們在 Suphx 中為麻將 AI 設計的技術,包括全局獎勵預測、先知引導和參數化策略自適應等技術,在現實世界的應用中將大有可為,我們也正在積極推動這些技術的外延及落地。 Suphx 研發團隊 對 Suphx 技術感興趣的同學可以閲讀論文,了解更多細節: 本賬號為微軟亞洲研究院的官方知乎賬號。本賬號立足於計算機領域,特別是人工智能相關的前沿研究,旨在為人工智能的相關研究提供範例,從專業的角度促進公眾對人工智能的理解,並為研究人員提供討論和參與的開放平台,從而共建計算機領域的未來。 微軟亞洲研究院的每一位專家都是我們的智囊團,你在這個賬號可以閲讀到來自計算機科學領域各個不同方向的專家們的見解。請大家不要吝惜手裏的「邀請」,讓我們在分享中共同進步。 也歡迎大家關注我們的微博和微信 (ID:MSRAsia) 賬號,了解更多我們的研究。 編輯於 2020-04-10 11:11 贊同 61269 條評論分享收藏喜歡收起 知乎用户 國內由於對麻將的認知問題,中國麻將規則的科學麻將理論幾乎無人研究,AI更是沒人搞。 日本很早就有人研究科學麻將理論,也有人搞麻將的AI,當然,是按照日本麻將的規則來搞。 順帶一提,諷刺的是,國內有能力研究人工智能的人裏面,能打好日本麻將的很有可能比能打好中國任何一種麻將規則的都多。國內最多人會以科學的方式打的麻將,也很有可能是日本麻將。 日本麻將的AI水平正如樓上所説。牌效率能達到人類頂尖水平,防守能力也應該不錯,結合場況的速度/打點平衡、攻守判斷方面很差。總體上和學習過系統的科學麻將理論並具有一定實戰經驗的人類選手水平相當,不會超過天鳳特上平均水平。 發佈於 2015-01-21 14:26 贊同 2010 條評論分享收藏喜歡收起 德州撲克大小順序:探索遊戲中的策略與技巧 德州撲克大小順序:探索遊戲中的策略與技巧 德州撲克是一種非常受歡迎的撲克遊戲,它結合了運氣和技巧。在這篇文章中,我們將探討一些在德州撲克遊戲中可以使用的策略和技巧。 1. 選擇起手牌 在德州撲克中,起手牌的選擇非常重要。根據你的起手牌,你可以決定是否繼續參與遊戲或者折牌。一些強大的起手牌包括一對大牌(例如兩個A或兩個K)或者同花順的可能性(例如10和J的同花順)。然而,有時候即使起手牌不太強大,你仍然可以參與遊戲,因為在後續的公共牌中可能會出現有利的牌。 2. 觀察對手 觀察對手的行為和下注模式是德州撲克中的一個重要策略。如果你能夠觀察到對手的模式,你就可以更好地判斷他們的手牌強度。例如,如果一個對手總是下注,那麼他可能有一手很強的牌。相反,如果一個對手總是跟注,那麼他可能手牌較弱。通過觀察對手,你可以做出更明智的決策。 3. 使用搶盲注策略 搶盲注是一種常見的策略,特別是在比賽中。如果你是大盲注或小盲注,你可以利用這個位置來加註或者下注,以便讓其他玩家更難以參與遊戲。這樣可以增加你贏得盲注的機會。 4. 聰明地下注 在德州撲克中,下注的大小和時機非常重要。如果你的手牌很強,你可以下注一個較大的金額,以吸引對手跟注。然而,如果你的手牌較弱,你可以下注一個較小的金額,以減少損失。此外,如果你有一手很強的牌,你可以使用慢下注策略,即在每個回合中下注一個較小的金額,以吸引對手跟注,然後在最後一輪下注一個較大的金額。 5. 管理資金 在德州撲克中,資金管理是非常重要的。你應該確保你有足夠的資金參與遊戲,同時也要避免過度下注。如果你的資金不足,你可能會被迫折牌,即使你有一手很強的牌。因此,要謹慎管理你的資金,適時下注。 結論 德州撲克是一個非常有趣和具有挑戰性的遊戲。通過適當的策略和技巧,你可以提高你在遊戲中的勝率。請記住,德州撲克是一個結合了運氣和技巧的遊戲,所以即使你有最強的起手牌,也不能保證你一定能贏得比賽。不斷學習和改進你的技巧,並享受遊戲的過程!

擊中大獎的玩家心得分享:如何在線上轉盤賭遊戲中贏取豐厚獎金?|目前麻将的人工智能研究到了什么地步?|德州撲克大小順序:探索遊戲中的策略與技巧|wabo娛樂線上賭博app|https://www.instagram.com/wabo_hk