李开复:从1983到2017,我的幸运与遗憾

  • 时间:
  • 浏览:7
  • 来源:5分6合官网_五分6合技巧_五分6合玩法

  文/李开复

  1

  今天跟亲戚亲戚你这一 人讲个故事。

  1983-1988年,我正在卡内基·梅隆大学读计算机博士。

  我正忙着暑期教书,秋天投身奥赛罗人机博弈(黑白棋游戏,那是机器第一次真正意义上打败人类冠军的比赛)。

  我的导师瑞迪教授(Raj Reddy,图灵奖得主、卡内基梅隆大学计算机系终身教授、美国工程院院士)从美国国防部得到了200万美元的经费,用来做不指定语者、大词库、连续性的语音识别。

  也你这一 说,他希望机器能听懂任何人的声音,怎样让可不才能懂上千个词汇,懂亲戚亲戚你这一 人自然连续说出的每话语。

  你这一 个多多多大问题都不 当时无解的大问题。

  而瑞迪教授大胆地搞定项目,希望一齐避免你这一 个多多多大问题。他在全美招聘了200多位教授、研究员、语音学家、学生、线程员,以启动你这一 有史以来最大的语音项目。

  我也在这200人名单之内。

  当时的科研背景是,业界怎样让有累似 今天强度学习的算法,但总是没办法 实现数据标准化,数据量也匮乏够大。

  美国几大语音识别实验室(如MIT、 CMU、 SRI、 IBM、贝尔实验室)都不 各用各的数据库,测试数据不同,训练数据不同,使用的语言模型不同,测试的词汇量你这一 同。你是好多好多 各称业界第一,亲戚亲戚你这一 人莫衷一是。

  而每个大公司都不 此人 的商业需求,比如说在语音识别方面,当年做打字机的IBM想做语音打字机,垄断美国电信的AT&T要求贝尔实验室识别电话号码,你这一 大公司并没办法 动力来帮助小公司或学校。而小公司和学校,往往没办法 资源做些较小的数据集,结果通常你这一 如大公司的好。

  不仅没办法 ,数据不标准对AI研究而言是致命的,最后原因分析 你这一 大问题,包括:

  1、怎样让测试语料库不同,最后识别结果,亲戚亲戚你这一 人无法复制,也无法验证。彼此不认可,怎样让怎样让数据没办法 打通,算法就更不怎样让打通了。

  2、怎样让每家做的领域不同,最后的结果都不 可比。你这一 领域词汇量小,比较容易,怎样让做出结果也怎样让没办法 通用。你这一 领域词汇量大,怎样让约束你这一 ,你这一 能说的内容没办法 来不多,原因分析 比较容易识别,你这一 能通用。

  3、怎样让每家训练集不一样大,而训练集越大,一般结果越好。你这一 ,有怎样让结果做的好,被认为并都不 靠算法,你这一 靠数据量大。

  4、对于学术单位来说,最大的大问题来自于没办法 足够的资源(也没办法 兴趣)整理、清洗、标注几滴 的语料。对于小公司来说,语料和计算力都不 大问题。

  最后,瑞迪教授计划采用“专家系统”来完成项目,怎样让你这一 措施 可不才能的数据有限。

  专家系统是早期人工智能的好几个 多多多重要分支,怎样我我应该 把它看作是一类具有专门知识和经验的计算机智能线程系统,一般采用人工智能中的知识表示和知识推理技术来模拟通常由领域专家才能避免的复杂化大问题。

  但我不认同。

  2

  后后参加过的奥赛罗的人机博弈,我要对统计概念有了充分的理解,我对瑞迪教授的研究措施 产生动摇。

  我相信建立大型的数据库,怎样让对大的语音数据库进行分类,有怎样让避免专家系统没办法 避免的大问题。

  另外,在1985年,美国标准局 (NationalInstitute of Standards and Technology)也意识到数据不标准会影响科研进步。你这一 在语音识别大问题上,标准局设定了标准的语音和语言的训练集、测试集。要求每个学校的每个团队都用同样的训练集来训练模型,可不才能此人 调好系统参数,比赛最后一天亲戚亲戚你这一 人拿到数据,有一天时间跑出结果,亲戚亲戚你这一 人评比。

  我从你这一 标准数据集和测试看完怎样让。

  再三思考后,我决定鼓足勇气,向瑞迪教授直接表达我的想法。我对瑞迪说:“假如转投统计学,用统计学来避免你这一 ‘不特定语者、大词汇、连续性语音识别’。”

  我以为瑞迪会你这一 失望,没想到他你是好多好多 没办法 生气,他轻轻地问:“那统计措施 怎样避免这三大大问题呢?”

  瑞迪教授耐心地听完我激情的回答后,用他那永远温和的声音不知道:“开复,你对专家系统和统计的观点,我是不同意的,怎样怎样让怎样我我应该 支持你用统计的措施 去做,怎样怎样我我应该 相信科学没办法 绝对的对错,亲戚亲戚你这一 人都不 平等的。怎样让,我更相信好几个 多多多有激情的人是怎样让找到更好的避免方案的。”

  那一刻,我的感动无以伦比。怎样让对好几个 多多多教授来说,学生要用此人 的措施 作出好几个 多多多与他唱反调的研究。教授不但没办法 动怒,还给予充分的支持,这在你这一 地方是不可想象的。

  统计学可不才能大数据库,亲戚亲戚你这一 人怎样建立起大的数据库呢?

  瑞迪教授看完我愁眉不展的样子,再一次给了我支持。你说什么,“开复,人太好说我还是对你的研究措施 有所保留,怎样让,在科学的领域里,人太好也无所谓老师和学生的区别,亲戚亲戚你这一 人都不 面临你这一 个多多多大问题的攻克者,你这一 ,怎样怎样我我应该 真的可不才能数据库,没办法 ,我要去说服政府帮你建立好几个 多多多大的数据库吧!”

  瑞迪教授就让说服了美国政府部门和美国标准局整理并提供了几滴 数据。我用美国标准局提供的标准大数据,跟多家拿国家钱的机构数据,就让你这一 不拿国家钱的单位(如:IBM,AT&T)也参与进来,我可使用的数据越滚越大。

  除了大数据,统计学的措施 还可不才能非常快的机器,瑞迪教授又我要购买了最新的Sun 4机器。此后每次有新的机器,他一定会说:“先问问开复要没办法 多。” 做论文的两年多,我大慨花了他几十万美元的经费。

  瑞迪教授的宽容再次我要感觉到某种 伟大的力量,这是某种 自由和信任的力量。

  3

  在导师的支持下,我结束了了英文英文了疯狂的科研工作。

  当时,我带着另一位学生一齐用统计的措施 做语音识别。一齐,你这一 200多人用专家系统做同样的大问题。从措施 上来说,亲戚亲戚你这一 人在竞争,怎样让在瑞迪教授的领导下,亲戚亲戚你这一 人分享一切,亲戚亲戚你这一 人用同样的样本训练和测试。

  在1986年底,我的统计系统和亲戚你这一 人的专家系统达到了大慨一样的水平,40%的辨认率。你这一 太好还是删改没办法 用的系统,但毕竟是学术界第一次尝试没办法 难的大问题,亲戚亲戚你这一 人还是比较欣喜和乐观的。

  1987年5月,亲戚亲戚你这一 人大幅度地提升了训练的数据库,采用了新的建模措施 ,不但才能用统计学的措施 学习每好几个 多多多音,怎样让可不才能用统计学的措施 学习每好几个 多多多音之间的转折。针对你这一 音的样本匮乏,我又想出了某种 措施 (generalized triphones)来合并你这一 的音。这三项工作果然把机器的语音识别率从另好几个 多多 的40%提高到了200%!就让又提高到96%。

  统计学的措施 用于语音识别初步被验证是正确的方向。

  亲戚亲戚你这一 人都相信了我用的机器学习措施 和隐马可夫模型算法,怎样让一蹶不振 了不可行的专家系统(专家系统只达到200%的识别率)。在我的博士论文基础上,就让的Nuance,微软、苹果5苹果5等公司做出了业界最领先的产品。

  1988年4月,我受邀到纽约参加一年一度的世界语音学术会议,发表学术论文。

  你这一 成果撼动了整个学术领域。这是当时计算机领域里最顶尖的科学成果。

  语音识别率大幅度提高,让全世界语音研究领域闪烁出一道希望的光芒,从此,所有以专家系统研究语音识别的人删改转向了统计措施 。

  会后,《纽约时报》派记者JohnMarkoff来到匹兹堡对我作了采访,文章发表于1988年7月6日,占了科技版首页的整个半版。在这篇文章里,马可奥夫大力报道了我的论文的突破。当时,我只人太好在和好几个 多多多和蔼可亲的记者聊天,事后,我才知道这是一名才华横溢的著名记者,三次提名普利策奖,并在斯坦福兼教。

这是1988年,《纽约时报》对我博士论文的报道

  就让,《商业周刊》把我的科学造出选为1988年最重要的科学科学造出。年仅26岁初出茅庐的我,第一次亮相就获得另好几个 多多 的成功,我要感到很幸运,也我要有了继续向科技高峰攀爬的动力。

  而我也怎样让拿到了卡内基·梅隆大学的计算机博士学位,这离我1983年入学没办法 4年半的时间。在卡内基·梅隆大学的计算机学院,同学们平均6年以上才能拿到博士学位,我用没办法 短的时间拿到博士学位,是一项新的纪录。

  我也怎样让破格留校,成为一名26岁的助理教授。

  4

  遗憾的是,人太好我找到了方向和基本措施 ,但以当时的数据量级和计算水平,语音AI研究太难有商业化怎样让。我最终还是一蹶不振 科研界,进入商界,用产品改变世界。

  200年过了,AI发展的土壤终于肥沃起来。

  伴随互联网和移动互联网而来的大数据、高效的计算机运算能力等条件都齐备了。科研人员可不才能的数据集不再没办法 难以触碰,你这一 可不才能一帮人牵头让更多的公司参与进来。这在200多年前,我还是好几个 多多多AI科研人员的时代,能接触到真实世界里没办法 海量的数据,是个遥不可及的梦想。

  我当年受惠于瑞迪教授的帮助和指导,今天也非常希望能给更多和我一样的年轻人,创造研究怎样让和条件。

  你这一 ,昨天创新工场、搜狗、今日头条联合发起“AI Challenger 全球AI挑战赛”。三家公司分别投入几滴 资金、也搞定千万量级高质量开放数据集与宝贵GPU资源。

  一齐,我也倡导商界和科研界能采用几滴 的数据和标准的测试措施 ,也欢迎更多的数据公司才能参与到你这一 平台里。

  希望亲戚亲戚你这一 人推出的Challenger.ai,可不才能帮助到中国AI人才成长。

  在我看来,这次AIChallenger绝对不你这一 好几个 多多多活动,也绝对不你这一 好几个 多多多奖金200万、年底就结束了了英文英文的竞赛,这是推进中国AI人才成长的重大催化剂。

  希望3年或5年后,亲戚亲戚你这一 人再来回顾你这一 段往事,亲戚亲戚你这一 人发现中美AI人才之间没办法 落差了,还能想到AI Challenger在另好几个 多多 重大过程中扮演了好几个 多多多小小角,怎样我我应该 感到你这一 切都不 价值。

  欢迎亲戚亲戚你这一 人登录大赛官网Challenger.ai,获取信息并报名。关于这场大赛的具体信息可点击文末的链接了解(要在电脑页面上才能报名哦)。

  亲戚亲戚你这一 人怎样让无法想象,我有多么羡慕亲戚亲戚你这一 人,生活在数据爆炸的时代,一帮人提供数据和奖金池,让有才华的人一展拳脚。