News center

我所知道的裴健和华人数据挖掘大牛们 中国人工

发布日期:2019-09-23 20:18           浏览次数:

  指日加拿大皇家科学院布告了新入选的一批院士名单,此中 CCF-GAIR 2018 的讲者、加拿大 Simon Fraser 大学预备科学学院教师裴健入选,是本次入选的四位预备机学科院士之一。

  借此,左林右狸频道八一八新科院士裴健以及正在数据开采范畴的诸多华人之光。这也是《中国人为智能简史》的系列剧透之一,是的,大叔正在欣喜新十年的同时也正在与岑峰合伙创作《中国人为智能简史》,创作完结时辰节点约莫正在冬季,出书时辰应当正在来岁春天。

  左林大叔与裴健的结缘始于 2017 年,从 2016 年起,雷锋网主动加入了十余个国际顶级 AI 学术聚会的报道,此中网罗正在加拿大哈利法克斯召开的 SIGKDD 2017。就正在 SIGKDD 大会前,裴健履新成为 SIGKDD 的主席,咱们对裴健也举办了专访,也便是正在这届大会上,雷锋网向裴健先容了咱们与 CCF 连合举办的 CCF-GAIR 大会并邀请他来做演讲,裴健欣然应允。

  正在 2018 年的 CCF-GAIR 大会上,履新京东副总裁的裴健贯串正在企业界的执行做了题为《聪颖供应链》的演讲,分享了聪颖供应链动员创设和贯通行业降本增效的心得,是大会最受迎接的演讲者之一。

  裴健入选加拿大皇家科学院院士可谓华人数据开采范畴的一件大事。数据开采的观点最初正在 1995 年提出,有关于预备机科学的其它学科,数据开采属于近年来才得以迟缓繁荣的一个对象,此前正在 2004 年,吴修福教师行动第一位统计学者入选美国国度工程院院士,也是华人统计学者入选主流国度院士第一人。

  而往后真正由于数据开采造诣入选院士的钻探者屈指可数,正在左林大叔的印象中,正在华人中只要清华校友、英国帝国理工学院数据钻探所所长郭毅可 2018 年入选英国皇家工程院院士,但是工程院院士更多反应的是正在工程项目上的才干,而科学院院士的评比更为着重学术钻探才干,以裴健正在数据科学的影响力来看可谓实至名归。

  多说一句,雷锋网的另一位知友人也是 CCF-GAIR 2019 的讲者邓力是加拿大皇家工程院的院士(加拿大皇家工程院与皇家科学院的异同大致与中国工程院和科学院的异同差不离),邓力正在深圳时期也给咱们讲述了当年他与陆奇、余凯的往还故事,以及微软百度谷歌三家争取 Hinton 团队的江湖轶事,非常精粹,咱们也会正在《中国人为智能简史》里逐一显示。

  回来八裴健,正在左林大叔看来,裴健成为数据开采范畴当之无愧的领武士物的原故正在于他的周到性:学术方面,他公布了 200 余篇论文,被援用 8 万多次,并因正在 Frequent Patterns 的相干钻探得到了 SIGKDD 2017 的改进奖(Innovation Award),是第三位得到该奖项的华人,正在他之前得到过该奖项的两人分袂是韩家炜(2004)和俞士纶(Philips S. Yu,2016)。

  他依然第三位得到 KDD 优越效劳奖的华人,正在2015年他获奖之前,得到该奖项的华人网罗清华的吴信东(2005)、Ying Li(2012);他是第二个掌管 SIGKDD 主席的华人,此前掌管过该地位的华人是伊利诺伊大学的刘兵(记得裴健正在 2017 年的专访也提到刘兵对其的耳濡目染);而此次入选加拿大皇家科学院院士,则是华人正在数据开采范畴的又一个里程碑。

  裴健分袂于 1991 年和 1993 年正在上海交通大学预备机科学与工程系得到学士与硕士学位。前两年曾为主旨携带解说大数据观点的梅宏院士,博士也是正在上海交大,和裴健系出同门,两人正在交大时就相熟,有着二十多年的交情。梅宏博士结业后到北京大学做杨芙清的博士后,裴健也到北京大学不断攻读数据库方面的博士。

  1998 年,由 IBM 资帮,复旦大学召开过一次数据开采的咨询班,这也是中国最早的数据开采换取行动,当时请来的主讲教员是陆宏钧和韩家炜,这一咨询班为参会的师生推开了数据开采的大门,从这一点讲,韩家炜无愧于中国数据开采的带途人。当时裴健还正在北大读博士,正在咨询班中他提出的题目颇有深度,给韩家炜留下了深入的印象。一年后裴健来到加拿大,到韩家炜麾下攻读 PhD。

  韩家炜正在数据开采、数据库和音讯汇集范畴公布论文数百篇,正在 Google Scholar 上的被援用量亲热 17 万次,h-index 高达 169,被誉为“数据开采第一人”。韩家炜父亲上海交大结业,是郑州纺织呆滞厂任财政科长兼总司帐师。韩家炜是家里四个孩子中的老二,不但提早念书,自后还跳了一级,1966 年开端的时分,韩家炜方才从郑州七中读完高中,文革时期当场就读郑州大学并以工农兵学员结业,假若不是文革,韩家炜像他哥哥和父亲雷同考个交大应当是没有题目的。

  1978 年还原高考后,韩家炜便报考了中科院的钻探生,由于当时中科院挂着中国科技大学钻探生院的牌子,于是也有不少人错以为韩家炜是中科大的结业生。本质上韩家炜正在中科院的钻探生只读了一年,第二年他就考取美国公费留学的名额。正在威斯康星麦迪逊大学读博士时期,他最初先是做预备机数据库的专家体例,自后专家体例际遇窘境,探求到钻探对象的繁荣远景题目,随后又拣选了干系数据库作钻探对象。

  韩家炜的这一拣选也恰巧抢先了常识发掘的风口。跟着数据库工夫的繁荣操纵,数据的积蓄延续膨胀,导致纯粹的查问和统计仍旧无法满意企业的贸易需求,而人为智能正在专家体例上遭遇窘境,也急需一个新的场景落地。于是数据库与人为智能两者的贯串促生了一门新的学科,即数据库中的常识发掘(Knowledge Discovery in Databases,KDD)。

  1989 年 8 月召开的第 11 届国际人为智能连合聚会的专题咨询会上,初度提出了常识发掘(KDD)这个术语,并正在 1995 年召开了第一次 SIGKDD 大会,韩家炜恰是 KDD 早期的结构者和加入者。正在 SIGKDD 大会上,韩家炜组也是公布论文最多的钻探团队之一。

  韩家炜是被 KDD 社区承认的第一位华人,他于 2004 年正在 SIGKDD 大会上得到改进奖。第二位被授予紧急奖项的华人是吴信东,他得到的是 2005 年 SIGKDD 的优越效劳奖。

  吴信东的故事颇有戏剧性,他本、硕均结业于合肥工业大学并留校,1991 年到英国爱丁堡大学攻读博士学位,之后平昔从事数据开采与常识统治方面的钻探。吴信东正在还没有到英国读博士之前,就有给常识与数据开采范畴最好的期刊TKDE(IEEE Transactions on Knowledge and Data Engineering)投稿,但平昔屡投不中,屡败屡战,直到博士结业后的 1998 年才终究投中了第一篇 TKDE。

  到了 2005 年,吴信东成为了 TKDE 的主编,实行了“从奴隶到将军”(吴信东自称)的改革。恐怕是对投论文的清贫经过深有贯通,他创始了数据开采范畴的顶级聚会 IEEE ICDM,这一学术聚会自后成为不少华人学者的发声平台,正在帮帮提拔华人学者正在常识工程和数据开采范畴的影响力方面起到了主动效力。

  2001 年,韩家炜从 Simon Fraser 大学转至 UIUC 任教。UIUC 也是浩繁留学生偏疼的学校,其特质一是有关于藤校和斯坦福伯克利这一等第的热点学校要相对好申请极少,二是出门的上限高,假若你足够奋发和致力,这里的名师绝对不会让你消浸。华人预备机视觉的灯塔黄煦涛,便是正在 1980 年从普渡大学来到 UIUC(正在《中国人为智能简史》一书视觉一章里,黄老先生的故事维持了全数华人预备机视觉钻探起承转合的起)。

  韩家炜的到来,让 UIUC 也成为了数据钻探的紧急基地。韩家炜正在 UIUC 时期,每年都从国内招收学生,每年报考人数数百名,最终成为他学生的能够用“寥寥无几”描绘。韩是那种自身学术做得极好,还能把学生提拔好的极为少见的教员,除了早期的裴健等学生,自后正在UIUC提拔的学生还网罗厉锡峰(UCSB)、蔡登(浙江大学)、朱飞达(新加坡管束大学)、顾全全(UCLA)、孙怡舟(UCLA)、任翔(USC)等学术新星和柳超(天眼查)等创业者。但是传言 2019 秋季将是韩家炜终末一次招博士生,之后再拜入韩门,只可从第二代高足做起了。

  韩家炜后期带的学生时常将裴健这位“专家兄”行动练习的典范和赶超的目的,当中也发作了极少趣味的故事。比方正在 2010 年的 ECML-PKDD 上,韩家炜做了一个题为《机闭便是音讯:开采机闭音讯汇集》的主旨演讲,正在提问枢纽,另一位大牛 Christos Faloutsos 举手问道:“你做的这个汇集很厉害,不过你能否预测到我来岁写什么作品?”韩解答道:“我连自身的都预测不到,更别提你的啦。”回去后韩家炜将这个笑话讲给当时还正在他部下读博士的孙怡舟听,孙怡舟很清静地以为这不是一个纯粹的笑话。历程阐明和咨询后,韩家炜和孙怡舟定了一个新课题,预测 Christos 从此几年会和哪些新的作家协作。

  2011年正在ASONAM 上,孙怡舟公布了一篇影响力庞大的作品《Co-author Relationship Prediction in Heterogeneous Bibliographic Networks》,正在作品中,孙怡舟凭据 1996-2002 年的数据,预测专家兄裴健正在 2003-2009 年间会有哪些协作家,排名前五的预测中只要一个没有显示。而本质上裴健也和这位作家有协作,只但是他们协作的论文要晚两年,正在 2011 年才公布,没有被统计进测试聚集罢了。数据开采大牛的天下还真心按照数据开采的秩序啊。

  另一位从Simon Fraser大学走出、受韩家炜影响的大牛是杨强,哪个杨强,便是最国际化的华人 AI 大牛,IJCAI 2019 的理事会主席杨强。杨强父亲是北大天文学家杨海寿,因而杨强最初也子承父业,1982 年考取了李政道的中美连合提拔物理类钻探糊口划(CUSPEA)来到美国马里兰大学练习天体物理。

  杨强是一个对别致事物更加感意思的人,早正在 1980 年代初还正在北京大学写论文的时分,他就被当时的幼型机所吸引,焚膏继晷地钻探预备机,并正在预备机上编写了一个游戏轨范,自后正在美国做太阳耀斑行动(对,便是《漂流地球》里导致地球漂流的原故)钻探的时分,还用预备机做了一个 3D 模子。

  但真正将杨强引上预备机道途的是当时也正在马里兰大学练习的彭云,彭云是义士江姐的儿子,也是文革后留学美国的学生中,最早钻探人为智能和正在美国获得预备机教职的人。受彭云影响,杨强不但正在拿到天文学的硕士后又拿了一个预备机硕士,之后正在攻读博士时,也转业拣选了做人为智能与逻辑推理的对象。

  杨强正在马里兰大学拿到博士学位后,先后正在滑铁卢大学和 Simon Fraser 任教,也恰是正在 Simon Fraser 与韩家炜共事时期,杨强接触到了许多闭于数据开采的东西。当时杨强方才拿到毕生教职,他指望去做极少能够管理本质题目的钻探而不但是写论文,于是拣选了基于实例的推理(Case Base Reasoning)对象;而数据开采正好能与他所做的这方面钻探贯串起来。以是杨强今日所做的转移练习、联国练习以及大数据方面的钻探,原来能够从 Simon Fraser 光阴算起。

  杨强与裴健也干系颇多,当裴健来到 Simon Fraser 攻读韩家炜的博士生时,杨强恰巧是预备机系钻探生院的Chair,因而裴健来到 Simon Fraser 时最终是杨强签的字,正在之后的学术钻探中杨强也对裴健赐与了诸多撑持和慰勉,自后两人也有诸多交集。这两部分的联系像极了呆板人范畴的两位超等大牛 Vijay Kumar 和徐杨生,他们正在卡纳基梅隆大学相遇时也是一个方才博士结业的青年教员,一个是博士生,这种明师实友的往还成为他们一辈子最怜惜的芳华财产。

  回来八杨强,1998 年,李开复筹修微软中国钻探院时力邀杨强“回中国来看一看”,恰逢杨强次年有一段学术息假期,于是便运用这一时机来到了微软中国钻探院。杨强帮帮微软做了中国最早的一个搜寻引擎,他正在微软亚研做项目到 2000年(大叔的师兄王海峰也正在此时期加入该项目,算起来,王海峰也是中国最早做搜寻的几部分之一,王海峰此日升任百度 CTO,也是名至实归),直到微软确定把搜寻引擎的钻探拿到总部去做为止。

  正在微软亚研的经验让杨强感应到了中国正正在兴起,开端动了回来的念头,但探求到国内钻探的根蒂境况,最终与家人商议后拣选了一个折中计划,去了香港科技大学,与国内和国际学术界、资产界均维持严紧的协作。2004 年和 2005 年,杨强团队相连两年正在 KDD Cup 上得到冠军,杨强自己也正在 2010 年掌管 SIGKDD 的轨范主席及 2012 年北京 SIGKDD 的大会主席(这一年 SIGKDD 的轨范主席恰是裴健)。

  也恰是正在 2012 年,正在任正非的促使下,华为开端闭切大数据并正在香港创造了诺亚方舟实践室,杨强任首任主任,后任者另有此日去了今日头条的李航。

  杨强一经告诉左林大叔,诺亚方舟的最初目的固然是大数据,但他以为当时 Hadoop、Spark 这些器械仍旧对照成熟,因而倡导将一大片面资源放到人为智能与呆板练习的钻探上。当时人为智能正处于低谷,诺亚方舟行动第一批做人为智能的工业实践室,关于指望去工业界的博士来说依然很有吸引力的。

  当时 Yann Lecun 还向杨强保举了几个博士后,条款都说得差不多了,终末这几个博士后依然被一家正在英国的首创公司“截胡”了。又过了几年,杨强正在信息上再一次看到了这家首创公司的名字:DeepMind。假若这几个博士后拣选的是诺亚方舟,不知先做出 AlphaGo 的会不会是华为呢?

  就正在 AlphaGo 大杀四方的 2016 年,杨强倡始创造了 ACM 数据开采中国分会(KDD China)并掌管主席。仅正在 2016 年,KDD China 就仍旧结构了十项行动,鼎力煽动了 SIGKDD 正在中国的繁荣,为中国工业和学术界之间架起了桥梁。正由于多年来正在数据开采范畴的杰出效劳和孝敬,杨强正在 2017 年的 SIGKDD 上得到了优越效劳奖。

  和杨强雷同横跨呆板练习和数据开采两大范畴的另有南京大学的周志华。周志华本硕博均正在南京大学,是人为智能界佼佼者中少有的本土博士。周志华的导师是陈世福,陈世福教研组要紧的科研项目对象是专家体例,周志华自身进入当时尚属冷门的呆板练习范畴,平昔周旋了下来。因为当时“数据开采”比“呆板练习”更容易被操纵单元体会,他也发展了行动呆板练习操纵的数据开采钻探处事。2007 年的 PAKDD 正在南京大学召开,杨强和周志华恰是大会的两大 Program Chair。

  趁机说一句,PAKDD 现正在正在 CCF 的国际顶会名单上固然只是 C 类聚会,本质上却是数据开采和常识发掘范畴史册最久远、当先的国际聚会之一(像吴信东创始的 ICDM 属于后起之秀),正在表洋口碑很好。第一届 PAKDD 于 1997 年正在新加坡召开,第一届委员会中的华人网罗刘兵和刘欢,当时两人均正在新加坡国立大学任教,属于近水楼台先得月。

  刘欢则是赶赴亚利桑那大学,他自己也是横跨音讯检索与数据开采范畴的高被引学者,正在他的指导下,他的两个学生胡侠、汤继良也主动加入 KDD 社区行动,掌管了近几届 SIGKDD 大会的分范畴 Chair,胡侠依然 CCF-GAIR 2018 和 CCF-GAIR 2019 两届的明星讲者。

  周志华正在2004年正在南京大学创修了呆板练习与数据开采钻探所(LAMDA),历程十余年的繁荣,LAMDA 已成为国内呆板练习与数据开采最具影响力的机构。杨强倡始创造 KDD China,周志华出任 KDD China 副主席,另一位副主席、百度高级副总裁沈抖是杨强的博士生。杨强团队正在 2005 年 KDD Cup 夺冠,沈抖便是此中一员,也是公认的一号位。

  这一年夺冠军队里,有一位咱们的老熟人,也是 CCF-GAIR 2017 的讲者,IPin的连合创始人潘嵘,当时潘嵘正在给杨强做博士后。另有一位杨强的博士后,自后去微软的孙剑涛,其他的则都是杨强教师的博士:潘军锋(FB) ,吴康恒(香港某科技公司),寅洁(澳洲)。杨强教师的学生里另有一位不是博士生胜似博士生的超等大牛戴文渊,戴文渊此日是数据开采和深度练习明星公司第四范式的创始人,也是交大 ACM 班的明星学生之一,戴文渊和交大ACM班的故事也是咱们《中国人为智能简史》的紧急章节。

  第一届 KDD Cup 于 1997 年进行。行动目前数据开采范畴最有影响力、最高水准的国际顶级赛事,KDD Cup 每年都市吸引天下数据开采界的顶尖专家、学者、工程师、学生等前来参赛。它被誉为大数据范畴的“奥运会”。

  KDD Cup 的问题多半夸大适用性,积年的竞赛所用数据往往被数据开采从业者用作钻探和开辟的优秀熬炼数据。KDD Cup 前期多为大学来承办,近 10 年来多为企业承办,也反应出有价钱的大范围数据逐渐从钻探机构转向由业界公司独揽的趋向。

  早正在 2004、2005 年,香港科技大学教师、IEEE Fellow 杨强就行动领队指挥其团队相连两年拿下 KDD Cup 竞争冠军。略有分别的,2005 年杨强是亲身带学生,2004 年 KDD Cup 是杨强与中科院高文团队协作,当年的试题之一是卵白质同源性预测,生物音讯检索正好是高文教员钻探的对象之一,2002 年,高文课题构成功申请到国度 973 项目下的“基于音讯工夫的卵白质组钻探”课题,这恐怕恰是中国军队正在这一年的 KDD Cup 获得打破的原故。

  言反正传,KDD 2004 的赛题央浼参赛者利用种种数据开采、呆板练习妙技从熬炼数据中寻得秩序,将康奈尔大学开辟的卵白质折叠识别轨范LOOPP 天生的 74 个卵白质同源性胸怀目标兼并成一个同源性打分函数,对数据库中的卵白质与查问卵白质之间的同源性举办预测。这一问题有三个难点:一是数据拥有块机闭办法;二是熬炼样本数目庞大;三是熬炼数据的种别漫衍非常不均衡。

  关于这一题目,当时的主流步骤是运用SVM和最大熵等判别模子来构造排位函数,高文则是正在此根蒂上,行使了一个线性判别模子兼并从隐马科夫模子导出的多个特质,最终这一步骤有用地提升了检索函数练习确凿凿性,从而正在 KDD CUP-2004 卵白质同源性预测题目上获得了十分胜利的操纵。

  最终的预测结果获得了 APR 和 RMS 目标第一名,TOP1 目标第二名,RKL 目标第十四名,归纳劳绩并列第一名的劳绩。这是中国钻探职员初度正在 ACM KDDCUP 数据开采竞赛获得优越。这也是中国的学术钻探职员正在国际顶会的竞赛项目获得冠军的最早打破之一,之以是说是之一,是险些是同期,丁晓青团队正在 ICPR 上获得 FAT 2004 人脸竞争的第一名。

  服从大叔的大学同窗,也是 KDD Cup 2004 年的冠军成员之一的山世光的刻画,此次夺冠的第一主力是付岩,付岩自后从预备机去了数学所,当时是预备所两位教师高文和贺思敏合伙的博士生,贺思敏是此次竞争夺冠的 leader,另一位主力王瑞祥也是当时贺思敏团队成员。

  哦,忘了祝贺山世光名列 2019 腾讯首届科学摸索奖的 50 名青年科学家队伍。

  说来也巧,周志华行动香港科技大学预备机系延聘的不多几位内地信用兼职教师,第一次到香港科大访候时,去接站的便是当时正在读博士生,KDD Cup 2005 的第一主力沈抖。沈抖结业落后入工业界,正在插足百度前是微软西雅图 AdCenter 实践室的钻探员。

  KDD China主理详细处事的承担人秘书长郑宇,现任京东副总裁,之前是微软亚洲钻探院的明星钻探员,同样是 CCF-GAIR 多届明星讲者,2016 年第一届 CCF-GAIR,郑宇便是轨范主席,为 CCF-GAIR 大会做了不少处事。

  郑宇也依然 KDD 社区的活动结构者。他从 2011 年开端出席 SIGKDD,之后每年的 SIGKDD 大会都市出席。郑宇很早就正在 SIGKDD 上举办都会预备的 Workshop,到本年(2019年)仍旧是第八届。从 2016 年起,KDD China 正在 SIGKDD 上开端举办Data Science in China 论坛主旨行动,行动的要紧结构者也是郑宇,这一行动的举办也有力呈现了中国正在数据开采范畴的势力。

  假若说 2016 年是华人正在数据开采范畴周到发力的拐点,那么接下来的时辰则是华人数据开采的高光期间。正在 SIGKDD 2017 上,不但裴健接任刘兵入选 SIGKDD 主席,正在三大奖项中,杨强得到优越效劳奖、裴健得到改进奖,华人得其二,别的,本届大会的最佳操纵论文被西弗吉尼亚大学叶艳芳团队得到,同时中国军队承办了这届 KDD Cup 的一切奖项。

  正在接下来的 SIGKDD 2018 上,不但刘兵、唐杰再度承办改进奖及优越效劳奖两项大奖,郭毅可、唐杰、熊辉、林智仁、杨强等人掌管了大会主席、副主席、轨范主席、评奖委员会主席等紧急脚色,正在评奖委员会的八人名单中,华人更是占到五人(杨强、韩家炜、裴健、王薇、俞士纶),“中国气力”俨然成为这几年 KDD 的主基调。

  正在左林大叔看来,正在诸多人为智能相干的范畴中,数据开采是华人加入度最高、也是最希望实行超越的范畴。这不但是由于夸大“发轫才干”的数据开采更能施展中国人的甜头,还由于数据开采是一门与资产亲热贯串的学科,中国广大的市集与生齿基数,以及新一批互联网科技公司的繁茂生长,都为中国人引颈天下潮水供应了坚实的根蒂。

  罗马不是一天修成的,今日数据开采范畴所显示的“中国气力”,少见据开采老中青三代人的不懈致力,更离不开钻探者们的薪火相传。但是闭于数据开采的故事,大叔更允许用天时地利人和来描绘:

  所谓天时,是韩家炜、俞士纶、陆宏钧等最早一批举办数据开采的钻探者,恰逢数据开采崛起之时就主动加入此中,为自后华人社区的强壮打下了坚实的根蒂;

  所谓地利,是从上世纪 90 年代起中国高速繁荣兴起的流程中,对数据开采的兴旺需求为新一批数据开采中坚气力的兴起供了优秀的时机;

  所谓人和,是裴健、杨强、刘兵、刘欢、周志华、吴信东、郑宇等之后一批数据开采的领武士物与中坚气力施展了承先启后的效力,正在加入数据开采社区行动的同时,主动动员其他后起之秀加入到社区中来,使得华人获得了数据开采社区的敬重。

  从行业周期的角度看,从 1989 年常识发掘的观点提出到此日,数据开采方才走过了三十年的一个完全周期。从这一角度看,授予裴健院士是一个确定的信号,也预示着数据开采下半场拉开了序幕。

  再度祝贺裴健被评为院士,也祝贺投身数据开采范畴的列位钻探者们,你们正站正在一个新时期的起始。大叔估计正在不久的未来,这个范畴会有更多的钻探者得到他们应有的信用,也指望列位钻探者们正在另日三十年中维持初心,壮志前行,不断书写数据开采的光线。✔

龙8国际手机pt官网,龙8国际pt官方网站首页
上一篇:云从科技发生多项股权变更IPO做准备? 创始人周 下一篇:零售金融科技峰会前瞻:应充分挖掘大数据价值