.:. 草榴社區 » 技術討論區 » 通过数据分析,这次国足出线的概率有多高
本頁主題: 通过数据分析,这次国足出线的概率有多高字體大小 寬屏顯示 只看樓主 最新點評 熱門評論 時間順序
大师兄的救兵


級別:聖騎士 ( 11 )
發帖:1238
威望:410 點
金錢:18362 USD
貢獻:11212 點
註冊:2015-12-15

通过数据分析,这次国足出线的概率有多高

作者 / 量化调酒师

经过精确的计算,中国队有 0.0355%(万分之三点五五)的机会获得小组前两名直接出线,有 0.5614%的机会获得小组第三名获得附加赛的资格。
这是目前的积分情况:

 

我的计算经过了两个版本:粗糙版本和精细版本。
粗糙估计版本:
假设最乐观的情况:六个队水平相同(虽然国足实际上和日本、澳大利亚、沙特不是一个档次),每场比赛“胜”、“平”、“负”的概率相同,都是 1/3。目前剩余 12 场比赛,共有
 
种结果的可能性。我们使用程序来算一下国足最终出现的概率是多高。
沙特、日本、澳大利亚、阿曼、中国和越南分别积分 16、12、11、7、5、0 分。遍历这 531441 场比赛结果,通过程序可以得到最终排序情况数和概率。
    中国队单独第一的情况数:9 种,概率=0.002%中国队并列第一的情况数:204 种,概率=0.038%中国队单独第二的情况数:2714 种,概率=0.511%中国队并列第二的情况数:3866 种,概率=0.727%中国队单独第三的情况数:16687 种,概率=3.140%中国队并列第三的情况数:17885 种,概率=3.365%中国队单独第四的情况数:107814 种,概率=20.287%中国队并列第四的情况数:47082 种,概率=8.859%中国队单独第五的情况数:270176 种,概率=50.838%中国队并列第五的情况数:23601 种,概率=4.441%中国队单独第六的情况数:41403 种,概率=7.791%
总结一下,
    中国队最有可能的结果是保持小组单独第五名,概率高达 50.838%,超过一半;其次升至小组单独第四名,概率为 20.287%。中国队有 1.278%的机会获得小组前两名直接出线!(概率中包括并列第二,不保证直接出线)中国队有 6.505%的机会获得小组第三名(包括并列第三)获得附加赛的资格。(概率中包括并列第三,不保证一定获得附加赛资格;概率中不包括并列第二掉落至小组实际第三)
我们梦想一种可能性:沙特未来四战全败,中国未来四战全胜,此外阿曼胜澳大利亚、越南,越南胜日本,日本平澳大利亚,澳大利亚平越南。这样最终小组积分为:
中国 17 分,沙特、澳大利亚、日本、阿曼均为 16 分,越南 4 分,中国队小组第一出线!完美!
上述模型存在两个主要问题:
    等概率:胜平负的概率均为 1/3,显然不符合实际情况,中国队和其他队的水平并不是五五开,需要更精确的来估计。并列的处理:小组并列第二,不保证直接出线;小组并列第三,不保证一定获得附加赛资格;而附加赛资格中还应该包括并列第二掉落至小组实际第三的概率。所以最终得到了直接出线和获得附加赛资格的概率还不够准确。
针对上述问题,我设计了如下精细化版本的估计:
    目前对球队胜平负概率能够参考的最准确的指标就是菠菜公司的赔率,由于最后四轮的赔率尚未公布,我们采用第一轮大循环的赔率作为第二轮的参考(由于多场比赛在中立场进行,在此忽略主客场因素)。假设有多只队伍最终积分相同,由于无法预测净胜球孰高孰低的信息,我们假设总积分相同的队伍有等概率排到所有可能的位置。例如:某一种结果组合有 0.1%的概率,而这种结果最终的结果是沙特队 21 分,中国、澳大利亚、日本、阿曼均为 16 分,越南 0 分,那么中国队在第 2、第 3、第 4、第 5 的概率均增加 0.1%÷4=0.025%。
精细化版本:
我从权威菠菜公司某某 365 上提取前六轮的赔率信息,这里使用各国英文首字母 S、J、A、O、C、V 分别代表沙特(Saudi Arabia)、日本(Japan)、澳大利亚(Australia)、阿曼(Oman)、中国(China)、越南(Vietnam)。
 
其中 Home、Away 代表主队和客队,Win、Draw、Lose 是主队获胜、打平、失利的赔率。后面四场依据前六场的赔率得到:
 

我们知道赔率是同概率成反比的。假设胜、平、负的赔率分别为
 
, 于是主队获胜、打平、失利的概率分别是
 
注意到
 
就是菠菜公司的返还率。我们制定每场比赛的胜平负的概率如下表:
 
12 场比赛的每一种组合(AV,JC,SO,JS,OA,VC,AJ,CS,VO,JV,OC,SA)都可以取 1(代表胜利)、0(代表打平)、-1(代表失利),而每种组合的概率是 12 场比赛对应的概率的乘积。每种结果结束后,各队的积分如下:
    final_S = S + dic[SO] + dic[-JS] + dic[-CS] + dic[SA]final_J = J + dic[JC] + dic[JS] + dic[-AJ] + dic[JV]final_A = A + dic[AV] + dic[-OA] + dic[AJ] + dic[-SA]final_O = O + dic[-SO] + dic[OA] + dic[-VO] + dic[OC]final_C = C + dic[-JC] + dic[-VC] + dic[CS] + dic[-OC]final_V = V + dic[-AV] + dic[VC] + dic[VO] + dic[-JV]
其中 dic = {1:3,0:1,-1:0} 是积分字典,代表胜、平、负分别得到 3 分、1 分和 0 分;S、J、A、O、C、V 是初始积分 16、12、11、7、5、0,而 final 前缀的变量代表总得分。最终将六个总得分进行排序就可以得到中国队的最终排位。接下来,我们遍历所有
 
种组合,将所有可能的概率加起来就是中国队最终排位的概率。
我撰写了 Python 程序,代码如下:
 
最终输出:
 
结果:
    中国队小组第一的概率 = 0.0006%中国队小组第二的概率 = 0.0349%中国队小组第三的概率 = 0.5614%中国队小组第四的概率 = 27.1519%中国队小组第五的概率 = 69.9990%中国队小组第六的概率 = 2.2521%
总结:
    中国队最有可能的结果是保持小组第五名,概率高达 70%,其次升至小组第四名,概率为 27%,其他位次的概率非常低。中国队有 0.0006%(百万分之六)的机会小组第一出线,有 0.0355%(两千八百分之一)的机会获得小组前两名直接出线。中国队有 0.5614%(一百八十分之一)的机会获得小组第三名获得附加赛的资格。
留给中国队的时间不多了!
 


赞(10)
DMCA / ABUSE REPORT | TOP Posted: 11-20 15:04 發表評論
.:. 草榴社區 » 技術討論區

電腦版 手機版 客戶端 DMCA
用時 0.01(s) x3, 11-24 21:07