构建全球华人科学博客圈(blog)http://www.sciencenet.cn/blog
博主
章成志的博客
 @CityU[2010,March---Now]
加为好友 | 发短消息
加为好友 | 发短消息
用户入口
公告栏
Welcome to My Blog.
栏目分类
所有文章RSS108
研究方法21
文本挖掘5
信息检索14
自然语言处理14
信息组织2
生活点滴11
机器学习4
科学评论7
同行交流22
工具箱8
最新日志
[转载]CFP: Th...09-02
讲座通知:行为信息学与...08-02
[转载]美国当代著名学...07-31
[转载]Manning...07-15
世界杯比赛规则与数据聚类06-27
[转载]-----【译...06-26
垃圾邮件也知道“个性化...06-24
[转载]New boo...06-22
[转载]CfP: Wo...06-15
[转载]空间综合人文学...05-30
最新评论
楼主的想法很有意思,我...09-06
Nice, 学习致用,...08-31
对信源进行跨库集成检索...08-09
著名公共知识分子啊08-01
这本书出了影印版的,当...07-19
博主评论
续10楼:
<...
09-07
好文啊。
09-07
timy将您的文章推送...09-07
Physica A 3...09-06
图舒? “图”有双关义...09-05
博主留言
恭喜开博!02-24
在这给我留言吧>>
路过,好地方02-17
哈哈,换头像了,不错!...02-15
刚发现你的博客,我们在...04-20
有很多值得学习的地方,...02-27
呵呵,师兄的博客写的很...02-25
博主收藏
点燃一支蜡烛胜过诅咒黑暗09-08
复杂网络观察09-07
中文学术期刊的论文应该...09-06
最近的一个工作被国际同...09-06
物联网工程专业——选择...09-05
>我的相册
我的相册27
友情链接
ACL Anthology
CMU技术报告库
freepatentsonline
IT之源
LIS开放存取
Machine Translation Archive
MLChina
nlpers
ONTOLOG - collaborative work e...
Science Daily
TEDtoChina
Terence Tao's Blog
布谷催春
崔雷老师博客
哈工大信息检索实验室
邗上居
华师大iLab
化柏林博客
讲座视频
科技论文写作
刘耀的博客
南河大鱼行
钱爱兵博客
认知语言学在线
任胜利老师的博客
生物信息学
生物学文本NLP
随园厚生
统计机器翻译
图谋博客
王斌博士主页
王飞跃的博客
魏瑞斌博客
文本挖掘与信息检索研究论坛
闻笛赋的BLOG
我爱自然语言处理
无名的街
吴怡的博客
武夷山老师博客
薛春香博客
语料库语言学
袁军鹏的博客
章成志个人主页
赵海的主页
博主好友
暂无数据
统计数据
访问:220896次
日志:215篇
评论:159个
留言:14个
建站时间:2008-1-16 13:16:58  
最近访客
陆君安
张子柯
彭继东
李娜娜
赵仲恺
章忠志
周涛
贺天伟
王启云
任胜利
正文
<< 上一篇 下一篇 >>

学者章成志 发表于2010-6-27 15:35:34
查看评论:5 │ 浏览:704   打印   推荐给朋友     

文本挖掘
世界杯比赛规则与数据聚类

       应该有很多博友像我一样,这段时间可能要花些时间看世界杯。有些博友还会发些心得。俺就从数据聚类的角度,来对世界杯比赛规则进行“重认识”一下,呵呵。

       先交代下基础背景知识,内行直接跳过本段,呵呵。数据聚类包括划分聚类、层次聚类等、基于模型的聚类等基本模式。划分聚类中最经典的方法就是K-均值聚类,需要事先给定初始点和聚类类目数。层次聚类中最常用的是HAC聚类,事先两两求出相似度,将最相似的或者最不相似的连接起来呢,然后再求次相似的,一直到所有点的都被连接为止。近年来,基于模型的聚类越来越火,可以将基于竞争的聚类方法划入这个类别。07年Frey提出的AP聚类方法更是被大量引用。

      再结合数据聚类,说下世界杯比赛规则。
 
      1. 首先,小组划分,是做基于约束的划分聚类:    

      
      (1) 经过预选赛入围的32只球队,被划分为4个档次,其中第一档中的8支球队作为种子队 (32个数据,8个聚类类目,将以往世界排名作为权重,选择初始聚类中心,当然东道主特殊,直接作为种子);

      (2) 剩余球队按照其档次和所在洲的约束,进行抽签划分到相应的小组中(24个数据按照一定的规则约束后,随机分配到每个聚类中心的所在组中);
 
      2. 然后,正式比赛,是做层次聚类

      (1) 小组确定后,每组四个对,两两求“相似度”,就是说两两打一场,胜的权重给3,平了给1,输了给0,每小组的6场赛事结束后,得到每个队的总体权重(当然了,有可能还要考虑净胜球,相互战绩啥的),那么小组中排名前2的队作为连接点参与下一个层次的聚类。(这里,两两求相似度,完全是基于竞争的,整个比赛阶段基于竞争的层次聚类);
   
      (2) 淘汰赛阶段,直接竞争,做二分聚类,胜的参加下一轮聚类;
 
      (3) 直到最后两支最牛的打决赛,冠军队成为了根节点。


      3. 聚类结束,参数重新分配,准备4年后的聚类,呵呵。

     
     所以,世界杯做了大量的约束,注意比赛的观赏性,用了比较简单公平的方法,在较短时间内确定聚类层次关系。

     如果是动物界打比赛,可能又是另一个场景,完全自由随机的打,最强的完全有可能因为体力不支,提早被淘汰而成不了冠军。

    以上仅供娱乐参考,推理和比喻不当地方,请博友指出,谢谢。     

  



(图片来源:http://worldcup.qq.com/schedule/

本文引用地址: http://www.sciencenet.cn/m/user_content.aspx?id=339277
* 本文仅代表博主个人观点,与科学网无关。
本文标签: 世界杯,层次聚类,机器学习
相关文章: [转载]2010世界杯主题曲-一个索马里出生的歌手
红颜就该薄命乎?!
补一篇世界杯日记
英超、西甲、世界杯,美国、中国、科学技术
[转载]NICTA将elefant开源了
[转载]卡内基梅隆大学的机器学习课程
[转载]开源机器学习之RWeka
[转载]世界杯赛话草坪
世界杯后看保罗
检点近半年来诗词习作
当前推荐数:5    推荐人: Wuyishan zhaoxing huabolin liuysd xupeiyang  
[5] 标题:
发表评论人:wangfangnk [2010-8-31 22:47:27]   
Nice, 学习致用,活学活用:)
博主回复:请多指教。
[4] 标题:
发表评论人:wlp8631 [2010-7-18 18:05:56]   
好文,真是“理应外合”啊,将聚类分析得如此精彩。
[3] 标题:
发表评论人:zengxinlin [2010-7-17 22:48:04]   
蛮喜欢博主这句摘自《菜根潭》的话语:“宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒 ”,呵呵
[2] 标题:
发表评论人:huabolin [2010-6-29 9:47:15]   
哈哈,有点意思.
[1] 标题:
发表评论人:[游客]majianchiang [2010-6-28 0:02:47] ip:85.232.221.*  
好文,有意思,顶!
博主回复:谢谢小马,见笑了。
记录总数:5 总页数:1 当前页:193[1]4:
发表评论:
用户名: 必填
电子邮箱:  
验证码