当媒体遇上人工智能会发生什么好玩的事?

杨强 原创 | 2017-03-28 17:03 | 收藏 | 投票 编辑推荐

  一、AlphaGo启示:人工智能应用流程

  AlphaGo是一个大事件,它为我们带来了什么?从技术和商业上、从未来的发展方向上,能不能从AlphaGo的发展看出一些端倪?

  首先我们看到在过去人工智能的发展经历了几次大事件。

  首先是IBM深蓝、沃森为我们带来了很大的惊喜,告诉我们计算能力很重要。有了这种计算能力,我们就能够比人搜索得要深,比人回答得要快,能够回答一些尝试性的任务。

  但是AlphaGo又加了一条,告诉我们原来数据也很重要。不仅如此,高质量的数据更加重要。什么是高质量的数据呢?其实创造AlphaGo这个系统是需要几个条件的:

  首先就是能够很清楚认识到哪些是我们的目标。这些目标要清楚到什么程度呢?用数学公式写下来。

  其次要清楚认识到数据来自于哪里。这不是一天就可以做好的,比如AlphaGo是经历了十几年的时间,才获得了如此高质量的大量数据。

  同时对问题的了解要深入到特征的层面,要从一个问题能够抽取出大量的特征。

  最后要有非常合适的自学习方法做这件事。

  二、智媒进化的基础

  A.I.能够为媒体带来什么?说起媒体就离不开文本和自然语言的分析。

  什么是文本?

  文本就是小说、新闻这些,我们可以把这些数据认为是非结构化的数据,是一个非常有意思的数据,不枯燥,但是对于机器来说却是一个难题,因为没有结构,是需要我们人去理解它才会有结构。

  今天有一种技术叫机器阅读,阅读的成果是中间的理解、表达,这个表达叫做隐式表达。

  这种表达通过第二种模型,也就是我们所说的机器学习、自然语言的生产模型,能够为我们人产生出各种各样的我们所需要的数据。就好像我们旁边有一个助手在我们帮助进行大量的阅读,然后根据我们每个人的需求可以跟他进行对话来获得他阅读的知识,所以是这样两个过程。一个是机器阅读系统,一个是自然语言的生成系统。

  机器阅读有哪些应用呢?

  比方在谷歌的邮件中就可以通过模型对大量邮件的阅读形成一个端到端、序列到序列的模型,这个模型通过阅读一个新的用户邮件,自动地产生一个可能的用户反馈,这样用户在给最后一个决策就可以很简洁地恢复邮件,这样就大大提高了用户的体验。

  机器翻译就不用说了,这是非常有用。但是最近深度学习的发展,可以让机器能够自动地用算法学习到一种语言到另外一种语言,可以自动对应。这种对应在之前是很少的,但是用机器学习来做就大大增强了。它的效果是可以使注意力机制大大加强。

  什么叫注意力机制?

  就是在一句话里哪些部分是关键部分,我们可以拿这些部分来代表整个话的意思,这样可以用聚焦的方式来加强理解。应用了这个以后,比分就大大提高了。

  还有一个应用可以让计算机做很多阅读,阅读的结果可以由我们人来询问。

  比方说让他看了一个语文的试卷、历史的故事,我们可以问一些关于历史人物、历史事件的问题,计算机可以圆满地做出回答。

  还有一种就是我刚才说的注意力机制,可以帮助人描画出哪些文本的部分是我们阅读者应该去注意的,就好像我们学生在上课的时候经常会画一些需要关注的重点,这样我们考试的时候就会有的放矢。机器在今天已经会做到这一点了,这个叫做完形填空的回答。

  这个再发展下去,又可以让机器大量地背唐诗,并且可以自己写诗。这里是香港科技大学的图片,图片有山有水,这个模型可以在唐诗里选择最合适的唐诗来配这副画。同时利用生成式的模型,还可以自动地产生。

  比方说当输入对联上联的时候,就可以拿它作为输入,这样的生成模型可以自动产生下联,而且通过注意力的机制使上下联对仗非常公正。这在人看来都是一个智慧的象征,但是今天对于机器来说已经是非常简单了。

  三、智媒体进化的五大实践方向

  第一种,AI+新闻编辑室 给了一个文章或文本能不能够自动写出一些摘要?给出一个文章,能不能自动地产生一个吸引用户的标题?

  在过去的做法,这个领域叫做摘要的编辑,摘要编辑过去的做法叫做抽取式的新闻写作。

  比如在一个足球赛里,通过对解说词的分析,用解说词训练一个模型,最后这个模型可以在解说词当中抽取特征。

  另外是再把这些重要的特征所指出的句子给摘出来,再把他们拼接起来形成一个很短的摘要。这个事已经可以做了,在过去十年、二十年已经做得不错了。但是毕竟不像人一样去读一篇文章,再根据我们的理解重新写出一个摘要,或者是编出一个非常好题目。

  如果要做到这一点,我们就需要一个所谓的生成式的模型,这个模型可以把每一句话读进来,并且可以对应到输出,这个输出往往是上文对下文的序列到序列的对应。这种对应还不足以产生我们所想要的高质量的摘要。

  在这个基础上,我们又在上面可以加一层强化学习或者增强学习,使得这样的摘要过程有目的性。

  也就是说两种学习,一种是序列的深度学习,另外一种是增强学习,这两种加在一起就可以产生基本上跟人差不多水平的一个摘要。

  我们开一个脑洞,也可以让机器读小说。

  比方有《射雕英雄传》、《笑傲江湖》,把这两部小说给合并起来,利用模型合并输出一个新的小说。可以用循环的神经网络(RNN)来产生各自的模型。阅读了以后,产生的模型通过迁移学习迁移到一个共同的空间,这个共同的空间就是什么呢?生成的模型可以使得我们阅读小说。比如洪七公和令狐冲这样的人物可以进行打斗,可以看得非常通顺。这个跟人的反馈、强化学习、增强学习的机制是分不开的,也是今天大数据的一种结果。

  第二种,AI+信源捕获 我们可以在一个新的领域利用新的手段获得一些信号,并且把这些信号转变成我们要的新闻内容。在这里举几个例子。

  首先是假设我们有很多的文章,可以自动地把这些文章生成一些问题和答案的配对,也就是问题和答案的集合。这就像我们理解了一些过去某个政治人物或某个著名人物写过的文章或关于他的文章,以后自动产生一些想要问他的一些问题,这个过程是需要人去理解文章,然后产生一些高质量的问题。

  今天我们可以用深度学习来做到这一点。

  这是两种信息的结合:

  一种是知识库,也就是对整个领域的认识;另外一种就是文本。我们把这两种结合起来,就可以自动地生成一些挺不错、质量挺高的一些问题,就好像我们可以面对这位被访问的人物了。

  这也可以延伸到从文字到图片,比如看了一个图片,现在也有一种方法可以利用计算机神经网络抽取出特征,用另外一个模型来产生问题。也就是说对着一个图片,可以产生对于这个图片的问题。这个问题也就变成了这个图片的一个标注,或者可以到外面邀请别人来回答这样的问题。

  假设今天有了很多的传感器,可以把传感器收集的数据、信号自动转变成人可以去读的文章,比方我有一个学生很热爱骑马,它造了一个传感器可以放在马尾巴上去观察马的健康状况,同时可以把它翻译成人可以读懂的信号,以此来了解整个赛马的成长过程。

  进一步就是想把传感器放在宠物的身上,在宠物的日常活动当中和人的交互当中,可以把宠物的行动变成人能读懂的自然语言,就好像宠物在跟你用说话的方式在交流一样。

  我还有一个学生在用手机作为传感器,记录用户每一天的行为。到晚上的时候就自动把所有收集的手机信号,转成一个自然语言的日记,把这个日记给这个人,可以修改一下,也可以发朋友圈。

  第三种,AI+视频和资讯 这方面的数据量是庞大的,边界也足够清晰。但是一个重要的问题是跨界的人才特别少,我指的这个资讯和A.I.的互动到底是什么呢?

  比方很多的视频,能不能有能力让计算机看这种视频,然后用文字的形式告诉我们,给我们一个文字的摘要。像这样的是我们的一个梦想,这样就可以自动地检索很多的视频,自动搜索,可以找到我们想要的视频。

  另外一些新闻视频也可以帮助编辑找到他们认为的高质量的、适合编辑内容的视频,这个事在大学的实验室里面已经有很多的尝试了。其中一个方法是把视频通过深度学习转化成特征,然后在通过这些特征再转化成文字。从视频到文字,甚至可以从文字到视频,你可以描述一个像电影的脚本一样,然后自动地一个通过拼接的方法产生一个可能的视频。

  这方面还有所欠缺,关键点是跨界的人才和用户的反馈还不够多。

  第四种,AI+智能分发 这个新闻怎么分发到想看这个新闻的用户的手里?

  在过去这个方向叫做推荐系统,在电商里面已经大量地使用。但是新闻有它的特点,因为新闻是靠内容来取胜,所以一定不能忽略信息的内容。比方我们人看新闻,是因为我们好奇,对于新闻感兴趣,怎么样能够把好奇的人和好奇的内容给结合起来?怎么能把桥梁给建立起来?

  比方一个用户历史上经常读一些财经的文章,现在又比较关注美国大选,能不能以此来推断他关心的就是特朗普对财经的政策,以此可以推送很多这样的新闻。这种信息既有用户的行为信息,又要有内容的信息,像这种的结合现在已经开始有这方面的研究了。

  举个例子:

  用推荐系统来做基于内容的推荐。这个时候一个特点重要的点是用户的兴趣会随着时间而变的。比如我去年感兴趣的东西,今年不一定感兴趣。今天在上班时候喜欢看的新闻,和我放假时喜欢看的新闻完全不一样。怎么样通过杂乱的信号源发现用户的兴趣点在哪儿,把变化用模型描述出来?这叫做部分可观察的马可夫决策过程。

  但这有很多的计算局限,一个局限是高质量的数据,第二个局限是计算能力。随着时间的推演,我觉得数据一定能够收到,计算能力也一定能达到那一天。我觉得我们有能力预测用户长期的兴趣变化。

  第五种,AI+资讯服务 在这一点上,我觉得大家可以关注的是人机对话的系统,也许是用自然语言对话,也许就是人机交互的系统。比方我们在车里,在这样的一个场景中,但是又特别关心美国大选的结果,所以我就可以问机器人这样的问题。

  比如问在美国选票情况如何,机器人会告诉我各州开票的情况,这种对话的方式是需要机器人做大量的阅读,去现在的场景。另外对当前的舆情分析也是非常了解,最后根据我的兴趣来做一个总结。

  要做到这一点,这个机器人的智能点来自于几个方面。

  1)要能够有对话的基本功能,这来自于一个技术,叫做深度神经网络。

  2)要能够完成某种任务,比如信息搜索或者是总结,或者是生成一个对话,这个是需要强化学习的能力。

  3)是一个新的研究方向,叫做迁移学习。它能够做什么呢?可以把一个通用模型给个性化,把一个大数据产生的模型能够在个人的小数据上面给个性化,这样可以产生一个很体贴的机器人。

  未来这三种方式都不可缺少,最好的方式是把这三个放到一个统一的通用模型里面。我们期待这样的机器人可以做些什么呢?他们可以跟你闲聊,可以给你推荐信息,可以引导你学习一些东西,并且可以提醒你该读这样的问题了,该看那样的东西了。

  四、降低AI的门槛,让其真正for everyone

  总结起来说,我们今天的这种变革应该说确实是一种变革,因为就类似于工业革命,工业革命对应过来就是我们今天所说的智能的革命。

  当时的工业资本家、金融的资本家今天对应过来,应该是所谓的数据资本家。智能的能力能够建模,可以有跨界的能力、计算的能力、好的反馈、明晰的边界,这些能力的总和是我们所说的智能的能力。这种智能的能力如何能够把它赋予给大众,使得人人可以享受智能的红利,这也是今天我们所要严肃思考的。

  因为这样发展下去的一个趋势,是数据有可能聚集在少数人手里,智能和智能的服务也许只有少数人才能够控制所有的发展。我们需要把门槛给降低,使得人人都成为内容的生产者,人人都能够用人工智能来促进他和媒体有机的结合。

本文首发笔记侠

个人简介
香港科技大学计算机系讲座教授,专攻机器学习,尤其是迁移学习领域的研究应用 第四范式公司联合创始人,微众银行人工智能部门负责人,华为诺亚方舟实验室首任主任
每日关注 更多
杨强 的日志归档
赞助商广告