人民网>>人民创投>>科技

百度吴甜详解自然语言处理技术与新媒体

2017年12月18日13:14  来源:中国网科学

  “研究自然语言处理技术(NLP)的目的是让机器能够理解人类语言,用自然语言的方式与人类交流,最终拥有智能。”12月15日召开的第五届中国企业新媒体年会上,百度自然语言处理部高级技术总监吴甜这样介绍NLP的研究意义。今年中国企业新媒体年会的主题聚焦“新时代、新媒体、新智能”,吴甜发表了“自然语言处理技术与新媒体”的主题演讲,介绍百度相关技术及其在新媒体领域的应用实践。

image.png

  百度自然语言处理部高级技术总监吴甜

  中国企业新媒体年会由国务院国资委新闻中心、中央企业媒体联盟主办,已成功举办四届,是国内具有极高影响力的新媒体交流平台。大会吸引了来自政府、企业、媒体、学界数百人到场,并针对新媒体与人工智能展开对话交流。

  吴甜表示,AI时代,我们希望计算机拥有视觉、听觉、语言和行动的能力,其中语言是人类区别于动物的最重要特征之一,语言是人类思维的载体,也是知识凝练和传承的载体。在人工智能领域,研究NLP的目的就是让机器理解并生成人类的语言,从而和人类平等流畅地沟通交流。

  吴甜介绍,经过十多年的积累与沉淀,百度在自然语言处理技术上已经具备了最前沿、最全面、最领先的技术布局。百度NLP技术在语言学知识、大数据、知识图谱的基础上,基于NLP基础技术的积累,研发领先的自然语言理解与生成应用技术,由此构建起对话系统、阅读理解、机器翻译和智能写作系统,并以开放平台——NLP基础技术平台、语言理解与交互平台UNIT、机器翻译开放平台的形式支持更多产品。目前,百度NLP技术不仅广泛应用于百度众多产品,也为广大开发者和合作伙伴提供NLP技术能力和解决方案,赋能行业应用。

image.png

  随着移动互联网的发展,信息流推荐成为用户获取信息的主要方式之一。面对海量的内容,如何理解并让用户更好的获取内容,是NLP要解决的关键问题之一。通过打标签、内容质量分析和情感分析等技术,百度NLP能够深度理解媒体内容,并以清晰、友好的方式呈现给用户。

  给文章打标签,是信息流实现个性化推荐的核心基础。一篇文章通常会被打上主题、话题、实体三类标签,这些标签从多个角度描述文章内容,进而满足不同应用需求,为用户提供最佳的内容推荐。吴甜以一篇关于李彦宏在乌镇演讲的新闻为例,介绍文章如何被打上标签。比如《李彦宏在乌镇演讲:有了无人驾驶,人们可以坐在车里喝酒》这篇文章包含“无人驾驶”、“人工智能”、“科技”三个主题,“世界互联网大会”话题,关联“百度”、“李彦宏”、“乌镇”、“百度无人驾驶汽车”等实体,由此文章将被推送至关注或有可能对这些标签内容有需求的用户。目前,标签技术可以应用在个性化推荐、主题划分、话题聚合和关联推荐中。

  “打标签”的背后,是经典NLP方法、知识图谱和大规模数据统计机器学习技术联合在发挥作用。会议现场,吴甜用一个浅显的例子解读了标签技术背后的“知识”,同一篇文章,小学生、大学生、专业人士的理解相差悬殊,他们各自背后的知识体系起到决定性作用。小学生的知识体系相当于为通用常识,大学生具备了体系化的书本知识积累,而行业专家则拥有大量的、深入的行业知识。机器背后的知识体系,就是知识图谱。机器基于大量的阅读提取知识,加上推理能力的运用,能够读懂新的文章。

  新媒体的发展带来了纷繁多样的内容,但内容质量良莠不齐的问题也随之而来,平台如何分辨内容质量,打造良性的优质内容生态至关重要。依托数据挖掘与标注、机器学习等技术,百度NLP建立了一套文章质量分析的方法,能够准确判别文章质量。比如从可读性、信息量、新颖性、深度等方面判断文章是否具备优质特征,而标题党、低俗等则被视为低质特征。该技术的运用可以有效减少低质文章,为用户提供并推荐更多优质内容。

  吴甜介绍,情感分析技术可以用来分析人们对各种对象的观点、情感、情绪等,为用户提供主观倾向性的参考。在用户评价全聚德“鸭子现烤现片,皮酥肉嫩”的观点中,百度NLP技术能够判断这是一个正向评价,并挖掘出是关于全聚德味道上的积极评价。该技术可广泛应用于舆情分析、商品或服务推荐等。

  百度NLP不仅能够准确理解内容,更能自动生成内容。吴甜介绍,百度智能写作基于大数据分析、内容理解和自然语言生成等技术,能够第一时间聚合全网信息和百度优质资源,快速生产文章,实现用户兴趣点的快速、高效的高覆盖,以及资讯内容的深度定制和个性化推荐。百度智能写作文章目前涵盖社会、财经、娱乐等 15个大类,可实现体育新闻、热点新闻等多领域全机器创作。

  吴甜表示,百度通过开放平台向开发者与合作伙伴提供技术支持。NLP基础技术平台开放语法分析、语言模型、依存句法分析等一系列NLP领域基础且核心的技术,可应用于精准推荐、营销分析等。语言理解与交互平台UNIT则搭载了业界领先的需求理解与对话管理技术,以及百度多年积累的自然语言处理、机器学习、大数据等核心能力,能够帮助开发者赋予产品智能对话交互的能力。机器翻译开放平台拥有全球首个神经网络翻译系统,支持28种语言互译、756个翻译方向,翻译质量全球领先,目前已有超过5万开发者接入。同时,百度今年还推出了一款兼具Wi-Fi与翻译双重功能的共享Wi-Fi翻译机,自带80多个国家的移动数据流量,支持实时语音翻译。

  近年来,AI已经被广泛应用到各领域,其中,NLP技术的发展和应用正推动人机交互走进一个新的时代。吴甜表示,NLP技术让机器更“懂”人类,百度NLP也将砥砺前行,为开发者、合作伙伴赋能,共创AI未来。

(责编:陈键、赖悦)

深度原创

特别策划

    第二届内容科技大赛总决赛 人民战“疫”内容科技大赛 首届人民网内容科技大赛总决赛 人民网内容科技创业创新长三角决赛
二维码