去年AlphaGo战胜李世石,人工智能的浪潮席卷全球,在教育这个数据密集型和知识密集型行业,人工智能对教育效率提升更是颠覆性的。人工智能技术在教育上的应用主要有语音识别、语义识别、大数据分析、自适应学习等技术。由于语音识别和语义识别底层技术突飞猛进的发展,使得大规模的机器口语测评成为可能。左驭在此文中主要探讨教育中的语音识别应用,即口语测评领域。
一、口语测评市场规模:近三百亿
左驭发表文章探讨教育中的语音识别应用,即口语测评领域,看好具有应用场景数据库和教育资源的公司。
以有考试培训需求的用户群体为口语测评的受众群体,其对应的市场规模推导如下。据国家统计局数据显示,2014年K12学生人数为1.6亿人,2016年全国在校大学生人数为2599.1万人,2016年出国留学群体约50万人,在校研究生人数为200.4万人。假设考四、六级大学生30%的人群使用移动在线口语测评产品,平均每人客单价500元。据此,预计2016年在线口语测评市场规模约283亿元。目前口语测评付费率比较低,未来商业化发展空间巨大。
二、口语测评市场推动力:刚需、政策和技术
获得英语资格认证、注重实用性代表人们对学习英语有刚性需求,这主要源于:其一,我国大学生、研究生和留学生群体需要通过英语资格认证考试,他们具有稳定的学习动机和需求;其二,我国年轻一代群体愈发重视英语的实用性,不仅是为了获得认证考试,更重要的是提高英语交流能力。
在政策上,国家建立外语口语测评体系有利于口语测评市场的发展。中考改革新政策强化英语听说的重要性,提升英语听说测评标准,促进英语测评公司在英语考试、日常教学中的应用。目前,教育部在编撰国家英语能力等级考试,我国将建立起一个统一的外语测评体系。预计到2020年将基本建成标准统一、功能多元的现代外语能力测评体系,自上而下的英语考核标准的建立将影响到英语的教学目标、教学方式、测评工具等一系列的改革,具有教育内容资源、渠道资源和创新技术的口语测评公司将有广阔的市场空间。
在技术上,随着语音技术核心算法和计算机芯片技术的进步,尤其是深度学习算法和卷积神经网络的普及,使得语音识别准确率从五年前的70%提升到90%。语音识别和语义识别在教育场景得到广泛的应用,实现口语测评的规模化和个性化反馈。
三、口语测评:语音和语义识别在教育场景的应用
语音识别是将人的语音词汇内容转换成计算机可输入二进制的编码或字符序列,计算机将存放的语音模板与输入的语音信号特征匹配完成识别过程。语义识别是通过建立有效的模型和系统实现语言单位的自动语义理解,从而知道文本的表达含义。
由于语音识别和语义识别底层技术突飞猛进的发展,使得大规模的机器口语测评成为可能。实现人机交互式教学,从传统的老师辅导到人机一对一的辅导,大幅提升学习效率并节约经济成本。语音识别在教育上的产品展现就是口语测评,体现在两个方面。其一是对语音的流畅度和自然度进行打分,测评用户的发音和母语说话人(native speaker)的接近程度;其二是识别出语言后,对语言组织进行后续的检测。
口语测评市场产业链
四、口语测评市场格局
语音识别流程主要有两种,第一种识别流程是前台和后台,第二种是端对端学习流程。前一种流程的前台主要是将数据标准化,比如进行断点检测、除去噪音并进行特征提取,后台主要是对特征进行解码,所使用的工具包括声学模型和语言模型。此外,一些公司还会加入“自适应”反馈,即通过用户行为的反馈对声学模型和语音模型进行校正,进而提高识别准确率。
语音、语义识别流程
端对端学习流程:语音信号-学习算法-转录结果,这种方法效果很好。这种方法需要在给定足够的标准数据(音频、转录)的条件,前提是需要足够大的训练集。
目前,口语测评市场主要有两类玩家,分别是内容公司和技术公司。按照商业模式划分,口语测评市场分为2B和2C。其中生产教育内容并基于教育产品开发技术公司,主要服务C端市场;而语言识别技术提供商,主要针对B端市场,服务于公立学校、线下教育机构和互联网教育产品公司。
语言测评市场格局
五、口语测评投资亮点
口语测评市场是技术驱动和教育内容资源沉淀的市场,因此我们看好具有应用场景数据库和教育资源的公司。以下是我们判断口语测评公司的关键点:
第一,切入教育领域某一垂直场景,精准提供解决方案,语言学习测评未来的商业价值是专注于垂直场景,积累解决场景问题的数据,使得训练语料与模型应用领域一致,形成资源集中,最大化的发挥模型效果;
第二,检测语音学习的测评功能是否准确,训练数据和语料选取是核心关键,一个成熟的语音识别系统需要成千上万小时的语音数据训练,不断优化算法;
第三,团队要产品和技术能力兼备,口语测评公司的团队应该具备两类人才,一方面是具有丰富教学经验的教学内容研发团队,给知识点和题目打标签,帮助优化技术,促进产品快速迭代,另一方面是算法和数据团队,通过算法和数据分析反馈对内容做最优化配置。