美狮会:专访先声教育CTO秦龙:专注AI技术研发,做教育行业的“DeepMind”
近几年,随着国家频密实施教育信息化涉及政策,信息化产品及服务在教育领域落地步伐渐渐减缓,各大科技公司也在涉及领域大力布局,环绕教育信息化的各项创业项目也势头强大,根据IT桔子发布的数据表明,今年上半年,教育信息化赛道共计再次发生了七起投资事件。此外,随着近期中中考改革政策的公布,英语口语机考正在全国各地普及。这给专门获取英语口语项目管理服务的教育机构带给了机会。
正式成立于2016年4月的开端教育,将公司定位为一家“目前落地在教育领域的人工智能技术服务商”,从AI技术紧贴,射击B末端,赋能行业与场景,致力于沦为教育行业的“DeepMind”,为教育机构获取AI技术解决方案。开端教育CTO秦龙博士毕业于卡内基梅隆大学,于2014年重新加入知名语言自学平台Duolingo,负责管理平台上的多语种语音辨识技术,是 Duolingo 第一位中国工程师。近期,(公众号:)回到开端教育办公室,对开端教育CTO秦龙博士展开了采访。专心B末端,为教育机构输入AI技术据介绍,开端教育基于语音辨识、自然语言处置等核心技术,自律研发了智能口语项目管理、智能文学创作测验、自适应自学、智能对话以及情感辨识技术解决方案。
当问及开端教育为什么没考虑到C末端业务,而是探讨于B末端,秦龙答到:”我们是一家技术驱动型公司,所以为B端的教育机构获取技术服务可以充分发挥我们的技术优势,而像英语流利说道那样的产品驱动型公司,不会更加合适C末端场景。我们也不会像IBM一样,不仅向客户获取技术,同时也获取技术咨询服务,针对有所不同企业的技术用于场景做到调试,并帮助培训企业内部工作人员,使得我们获取的技术解决方案需要与众不同他们的有所不同产品和应用于场景。”目前,开端教育自律研发的五大AI技术模块中,成熟期应用于的有智能口语项目管理技术和智能文学创作测验技术。
其中,英文智能语音项目管理技术在2年内已创建成熟期的跨平台横跨终端体系,除辨别英语发音的是非外,还可以精细化到音素、重音、语调、断句及韵律等多个维度。可为K12领域学生获取动态数据流,多维度自学结果对系统功能,协助学生有效地提升英语听闻能力,应付英语听闻考试。
据介绍,智能文学创作测验技术也月底今年6月月对外开放,同时与百度、京东创建了合作。业务方面,开端已服务数百家行业头部企业,如百度、新东方、好未来,海云天科技等。秦龙详尽讲解了开端教育自律研发的文学创作测验系统:“我们的文学创作测验系统面向K12领域初高中学生,基于国内中中考英语考试评分标准,获取评分和改错两大基本功能,切合现实考试环境,同时从词汇、语法、内容和可读性等多维度得出全面对系统,协助学生提升自身英语写作能力。”Singsound 自动作文评分系统(AES)从单词拼法、用词、语法、句子结构的复杂度、切题程度、可读性等维度综合评价作文在适当学段中的水平。
使用语言学特征提取与深度自学结合的方法,主要使用了词映射、词法分析、词性标示、句法分析、主题模型等自然语言处置技术,同时融合了迁入自学、模型融合等技术。Singsound 语法改错系统(GEC)使用了统计资料翻译成技术(Phrase-based model):该系统再行利用 IBM translation model 萃取训练数据中的词组信息,根据明确语境将错误的词组同构到语法准确的词组。
并对统计资料翻译成模型获得的可行性改错结果展开句法解析、词法解析,分析明确错误类型,并对改动结果展开校正,从而更进一步地提升改错的效果。据理解,英语流利说道、科大讯飞等公司也有语音项目管理的产品发售,秦龙指出开端教育的优势在于,只服务于横向的教育机构,技术研发更加有针对性,其他公司是“大而广”,开端教育要做“小而精”。自适应自学不是某项技术,而是一个可观的概念由于人工智能技术的较慢发展,主打个性化教育的AI自适应自学沦为当下产学研三界关注度最低的热点话题之一。曾报导过AI自适应自学火热的原因。
在国外,自适应自学早已有20多年的历史,从最先规则化的自适应发展到现在基于人工智能的自适应。并且早就开始应用于,覆盖面积了有所不同国家、有所不同年龄层,从小学、初中、高中到职业教育的几百个学科。其效果获得了很好的检验,无论对小学生还是初中生,文科生还是理科生,都可以带给成绩的提高。在人工智能的护持下,个性化教育的步伐在大大减缓,为了与传统的自适应教育区分,目前做到人工智能自适应教育的公司都偏向于称之为自己为“智适应环境教育”,人工智能自适应自学是对传统自适应自学的升级,也是对新型的自学方式的探寻。
自适应自学可以分成两个阶段:(1)以引荐系统为基础的浅层自适应阶段;(2)以自学不道德建模为基础的深度自适应阶段。目前国内大多数企业仍正处于浅层自适应阶段,据介绍,开端教育自适应系统已首度步入自适应自学的核心深度阶段。秦龙说明道:“我们开端团队用于的 CLUF 是一种基于深度自学的 Encoder-Decoder 模型,它由四个 encoder 包含,分别是语境编码器 Context Encoder、语言学特征编码器 Linguistic Encoder、用户信息编码器 User Encoder、题型信息编码器 Format Encoder,最后由解码器利用编码器输入的高维特征做出预测。
”“语境编码器用来编码句子的语言环境,它由一个字母级别的编码器与一个单词级别的编码器包含。字母级别编码器是一个层级式的循环神经网络结构,单词级别编码器则是一个双向长短期记忆神经网络 LSTM;语言学特征编码器也是一个 LSTM 结构,主要用作编码萃取的语言学特征,为语境编码器获取额外的信息;用户编码器是一个仅有相连的结构,用作记录用户的第二语言能力与自学历史;题型编码器则是用来编码题型、答题方式等信息。
”秦龙指出,自适应自学只不过并不是某项单一技术,而是涵括教育学、心理学、认知科学、计算机科学等多学科知识在内的一个可观的概念。“现在绝大多数中国公司做到的自适应自学,只不过是题库+引荐,首先辟一个十分大的题库,然后题库里的每道题会标示一定的信息,即所谓的打标签、科学知识图谱,就是用人工去标示一些知识点上去(labor intensive work),然后让学生做到题,如果题做错了,下一步就是引荐类似于习题。”“目前绝大多数公司做到的引荐题的系统和今日头条引荐新闻的系统没本质的区别, 甚至用的是一样的技术,你这个题拢了,我就去题库里去找和这个题相似的题,然后把这个题引荐给你让你做到。这套东西覆盖面积了国内95%以上所谓做到自适应自学的公司。
”自适应自学技术难题尚待突破据秦龙讲解,自适应自学仅次于的难题在于 knowledge tracing,它必须辨别一个人自学了一段时间以后,对于过去的知识点的掌控程度,目标就是在最短的时间内辨别的越精确就越好。“这个事只不过酋无以的。最后不能通过做到题、考试,根据学生做题的正确率来辨别。”“还包括现在大家都在说道的 DKT(Deep Knowledge Tracing ),只不过,学术圈对DKT并没定论,并没说道 DKT 不会比传统的 KT 的效果要好,还不存在争议。
实质上 DKT 是在2015年公开发表出来的论文,2016年,有几个有所不同的机构公开发表了两三篇论文,从理论上分析否 DKT 比传统的 KT 方法要好,另外也去按照作者对外开放的代码复现实验结果,但是在有一些数据集上复现出来的结果并不是很好,学术圈当时回应有一些批评。2017年以后至今,又有一些论文公开发表,主要研究怎么才能把 DKT 做到的更佳,并且糅合了传统的 Knowledge Tracing 的一些方法,所以只不过整个DKT还是 ongoing research,无法说道正在研究的方法一定就好,这是一个误会。”据秦龙讲解,目前大部分公司只不过做到的还是引荐,确实牵涉到到 Knowledge Tracing 的有可能将近5家。秦龙指出,自适应自学替代老师基本不有可能,但有一定价值,比如可以给学生一定的指导,并且可以提升刷题效率。
最后,秦龙用两个词总结了开端教育的核心优势,即“精确”和“专业”,精确是指技术层面针对有所不同公司的市场需求做精度最低,专业是指开端教育更加不懂教育。真实情况的教育场景千差万别,无法一概而论,开端教育会对每一个明确场景了解调研,未来,开端教育也不会在技术方面做到更进一步深入研究,同时,除了技术服务,也不会做到内容上的研发,打造出整体的教育解决方案。涉及文章:前有“老大哥”,后有“新势力”,AI+教育江湖谁主沉浮?CNNIC近期报告:K12英语在线教育疯狂,AI+教育驱动产业升级原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文关键词:美狮会
本文来源:美狮会-www.sneaker-daily.com