科技芯资讯是专业科技新媒体网站。网站著眼于新一代科技新闻的全面及时处理报导,让网民在外面第二时间交待全球新一代的科技资讯。内容涵括AI+、互联网、IT、创业投资、核定、区块链、智能硬件等领域

首页 >  手机数码 正文

GAITC2022智媒专题论坛|王健民:人工智能技术创新,赋能微博内容理解与分发

juzi 1970-01-01 08:00:00 手机数码 0℃

11月27日,在2022年世界人工智能技术大会上,由CAAI智能媒体专责委员会、中国传媒大学媒体融合与传播国家重点实验室、新浪人工智能媒体研究所共同支持的“融合与发展”新贤智能媒体主题论坛在线举行。微博机器学习总经理、微博技术委员会委员王建民作了题为“人工智能技术创新助力微博内容理解和传播”的演讲,与与会者交流人工智能技术发展趋势、微博推荐系统在复杂多样商业场景下的创新理论和实践成果。解读了智能媒体时代的发展现状和未来方向。

图注:微博王建民--“融合与发展”新贤人智慧媒体主题论坛以下为王建民共享实录,内容经编辑。你好,我是来自微博的王建民。我很高兴能与大家互动。我今天分享的主题是“人工智能创新,微博内容理解和传播”。首先,让我们来看看人工智能的总体趋势。纵观历史,我们可以看到人工智能的发展有三个特点:它是训练数据的量化和多样化。算法模型的复杂性和通用性,计算能力的效率和扩展。数据、算法和计算能力是构成人工智能的三大要素。在数据方面,训练数据已经从最初的1000万级规模发展到现在的1000亿级规模,并融合了多种数据形式。在算法方面,模型参数已从最初的一万级参数发展到现在的一万级参数,模型结构呈现出较大的统一趋势。数据和算法的规模和效率是基于分布式计算架构,拥有越来越强大的机器和越来越多的机器。我们在现实生活中看到的一些人工智能趋势。首先,我们看到了一个明显的趋势,即模型的学习过程逐渐从监督转变为自我监督和无监督。当你第一次训练模型时,你通常会手动标记一批数据,然后再训练模型。这种方法有很大的局限性。也就是说,由于人工标记成本较高,很难获取大量数据,数据量不足,模型没有得到很好的训练。大参数的优点根本无法利用。为了缓解数据不足的问题,“自我监测”模式正在流行。“自监督”机器学习通常通过一些规则自动构建训练数据,避免了人工标记的高成本和少量问题,并以较低的成本获取大量训练数据。典型的自监督学习的一个典型例子是伯特模型,它可以通过随机扣除句子中的一部分单词,并根据其余单词预测扣除的单词,自动获得几乎无限的训练数据。在自然语言领域,伯特是一个突破性的进步。在人工智能技术的发展趋势中,图像理解在各行各业的应用越来越广泛。我们主要受益于两个方面。一方面,由于5G等通信技术的快速发展,另一方面,手机终端处理能力的提高,图像和视频类型内容的生产成本越来越低,图像内容越来越多。经过多年的发展,人工智能在图像理解领域取得了令人瞩目的成就。特别是在某些细分领域,如面部检测和面部识别。在自动驾驶领域,我们已经取得了很好的进展,但是要完全放心地使用,我认为还有一定的路要走。前面提到的,除了文字内容之外,图像和视频类型的内容在网络内容中所占的比例越来越高,从单一的模式来理解内容总是有很大的局限性,应用也受到了限制。因此,整合多种模式来理解内容,是人工智能发展的必然趋势。人工智能的另一个趋势是超大规模图形计算。这主要是由于计算机能力的提高。与其他机器学习模型相比,超大规模图形计算具有特殊的优势。信息不再是孤立的点,大型网络中的信息促进了信息的流动、融合和融合,这种算法对于信息量相对较少的节点尤为重要,比如系统中的新用户。也就是说,我们常说冷启动用户,他的信息很小,但是通过网络中的附近用户,我们可以推断出这个用户的信息。这就是超大规模图计算的吸引力:人工智能有一个明确的技术趋势,从专用模型到通用模型,当前的大多数AI模型仍然是特定任务的,通常设计具有特定任务结构的模型,一个模型专门用于一件事。例如,自然语言处理通常使用Burt模型,图像处理通常使用CNN模型。从专用模型向通用模型的转变是技术发展的趋势,谷歌在几年前就提出了这个想法,希望构建通用的大模型,以达到“一个模型做多件事”的目标。在不同任务的数据输入后,通过路由算法,选择神经网络的一部分路径到达模型输出层,不同任务不仅有参数共享,还有任务特定的模型参数部分,从而达到“一个模型做多”的目标。此外,强化学习是人工智能技术发展趋势中一个非常重要的领域。提到强化学习,首先想到的是AlphaGo,但实际上AlphaGo和李世石之间的“世纪之战”是人工智能的里程碑事件。事实上,强化学习在其他领域也有很多连接点,比如自动游戏、自动驾驶和机器人。就我个人而言,我认为强化学习技术可以在业务中发挥巨大的价值,只要我们深入了解复杂的业务场景,并找到合适的、可量化的奖励函数。在这里,我简要介绍了人工智能的主要发展趋势。这些都是我们在实际工作中感受到的一些东西,也是微博对人工智能工作理解的总结。在这个时代,我们应该感谢人工智能的快速发展。我们可以做越来越多的事情,我们可以把我们的事情做得更好。微博和大多数互联网公司一样,享受着人工智能带来的红利。它将人工智能技术的各个方面与核心业务深度相结合,实现不同的应用场景。具体而言,它包括应用场景,包括关系交付、感兴趣的推荐和业务场景,如推送、超聊、视频和新闻。微博推荐系统面临着复杂多样的商业场景,微博环境下的推荐系统不仅具有微博的特点,而且还面临着复杂的商业场景。主要体现在三个方面:一是无处不在的社会关系。中国最大的社交媒体微博目前拥有超过5亿的月活跃用户,这些用户通过各种行为,如关系、博客帖子和评论,建立了一个庞大的社交网络。其次,微博的内容具有高度及时性、多样性的特点,很多社交热点事件在微博上首次爆发,作为一个综合媒体,微博已经覆盖了数十个高质量的垂直领域。第三,对不同场景的推荐要求。微博上的很多场景都有很强的推荐需求,比如关系流、热点流、视频流等。简单地说,微博推荐系统由三个部分组成:第一部分是微博内容的理解,即对微博文字、图片、视频的理解。第二部分是对微博用户的理解,通常被称为用户配置文件。三是根据微博内容和用户对微博内容的理解,向感兴趣的用户分发高质量的微博内容。这就是微博推荐系统所做的。首先要分享的是对微博内容的理解,包括文本、图像和视频三种信息。其中,理解文字是微博最重要、最基础的工作之一。微博内容的标记是文字理解的重要组成部分。为此,我们建立了一个三级内容标签系统。1级是对“体育”和“娱乐”等类别的更广泛定义,目前包括56个类别。第二个层次是在第一个层次的基础上完善的。例如,在“体育”类别下。复杂的类别,如“足球”、“篮球”等;三级标签主要是实体识别,如特定明星,目前此类三级标签包含数十万。在标签系统中,标签是如何工作的?简而言之,我们将使用FastText+Bert的组合。每个人都知道FastText和Bert都有自己的优点,也有自己的缺点。FastText速度快,但效果不够好。我们直接使用Bert来处理高质量的帖子,FastText来处理其他帖子,并且标签上的分数足够高,所以我们认为结果已经很好了,所以我们不使用Bert。如果你的分数不够高,你可以使用Bert再次预测。这样,我们就可以利用FastText的速度快和Bert的效果好的优势,实现速度和效果的平衡,并进一步分析和建模微博的吸引力,有效性,质量得分,广告与否,情绪。文本理解的另一个重要工作是主题模型。

Tags: 内容 我们 模型 人工智能 理解