首页 > 手机数码正文

GAITC2022智媒专题论坛｜王健民：人工智能技术创新，赋能微博内容理解与分发

juzi 1970-01-01 08:00:00 手机数码 0℃

11月27日，在2022年世界人工智能技术大会上，由CAAI智能媒体专责委员会、中国传媒大学媒体融合与传播国家重点实验室、新浪人工智能媒体研究所共同支持的“融合与发展”新贤智能媒体主题论坛在线举行。微博机器学习总经理、微博技术委员会委员王建民作了题为“人工智能技术创新助力微博内容理解和传播”的演讲，与与会者交流人工智能技术发展趋势、微博推荐系统在复杂多样商业场景下的创新理论和实践成果。解读了智能媒体时代的发展现状和未来方向。

图注：微博王建民--“融合与发展”新贤人智慧媒体主题论坛以下为王建民共享实录，内容经编辑。你好，我是来自微博的王建民。我很高兴能与大家互动。我今天分享的主题是“人工智能创新，微博内容理解和传播”。首先，让我们来看看人工智能的总体趋势。纵观历史，我们可以看到人工智能的发展有三个特点：它是训练数据的量化和多样化。算法模型的复杂性和通用性，计算能力的效率和扩展。数据、算法和计算能力是构成人工智能的三大要素。在数据方面，训练数据已经从最初的1000万级规模发展到现在的1000亿级规模，并融合了多种数据形式。在算法方面，模型参数已从最初的一万级参数发展到现在的一万级参数，模型结构呈现出较大的统一趋势。数据和算法的规模和效率是基于分布式计算架构，拥有越来越强大的机器和越来越多的机器。我们在现实生活中看到的一些人工智能趋势。首先，我们看到了一个明显的趋势，即模型的学习过程逐渐从监督转变为自我监督和无监督。当你第一次训练模型时，你通常会手动标记一批数据，然后再训练模型。这种方法有很大的局限性。也就是说，由于人工标记成本较高，很难获取大量数据，数据量不足，模型没有得到很好的训练。大参数的优点根本无法利用。为了缓解数据不足的问题，“自我监测”模式正在流行。“自监督”机器学习通常通过一些规则自动构建训练数据，避免了人工标记的高成本和少量问题，并以较低的成本获取大量训练数据。典型的自监督学习的一个典型例子是伯特模型，它可以通过随机扣除句子中的一部分单词，并根据其余单词预测扣除的单词，自动获得几乎无限的训练数据。在自然语言领域，伯特是一个突破性的进步。在人工智能技术的发展趋势中，图像理解在各行各业的应用越来越广泛。我们主要受益于两个方面。一方面，由于5G等通信技术的快速发展，另一方面，手机终端处理能力的提高，图像和视频类型内容的生产成本越来越低，图像内容越来越多。经过多年的发展，人工智能在图像理解领域取得了令人瞩目的成就。特别是在某些细分领域，如面部检测和面部识别。在自动驾驶领域，我们已经取得了很好的进展，但是要完全放心地使用，我认为还有一定的路要走。前面提到的，除了文字内容之外，图像和视频类型的内容在网络内容中所占的比例越来越高，从单一的模式来理解内容总是有很大的局限性，应用也受到了限制。因此，整合多种模式来理解内容，是人工智能发展的必然趋势。人工智能的另一个趋势是超大规模图形计算。这主要是由于计算机能力的提高。与其他机器学习模型相比，超大规模图形计算具有特殊的优势。信息不再是孤立的点，大型网络中的信息促进了信息的流动、融合和融合，这种算法对于信息量相对较少的节点尤为重要，比如系统中的新用户。也就是说，我们常说冷启动用户，他的信息很小，但是通过网络中的附近用户，我们可以推断出这个用户的信息。这就是超大规模图计算的吸引力：人工智能有一个明确的技术趋势，从专用模型到通用模型，当前的大多数AI模型仍然是特定任务的，通常设计具有特定任务结构的模型，一个模型专门用于一件事。例如，自然语言处理通常使用Burt模型，图像处理通常使用CNN模型。从专用模型向通用模型的转变是技术发展的趋势，谷歌在几年前就提出了这个想法，希望构建通用的大模型，以达到“一个模型做多件事”的目标。在不同任务的数据输入后，通过路由算法，选择神经网络的一部分路径到达模型输出层，不同任务不仅有参数共享，还有任务特定的模型参数部分，从而达到“一个模型做多”的目标。此外，强化学习是人工智能技术发展趋势中一个非常重要的领域。提到强化学习，首先想到的是AlphaGo，但实际上AlphaGo和李世石之间的“世纪之战”是人工智能的里程碑事件。事实上，强化学习在其他领域也有很多连接点，比如自动游戏、自动驾驶和机器人。就我个人而言，我认为强化学习技术可以在业务中发挥巨大的价值，只要我们深入了解复杂的业务场景，并找到合适的、可量化的奖励函数。在这里，我简要介绍了人工智能的主要发展趋势。这些都是我们在实际工作中感受到的一些东西，也是微博对人工智能工作理解的总结。在这个时代，我们应该感谢人工智能的快速发展。我们可以做越来越多的事情，我们可以把我们的事情做得更好。微博和大多数互联网公司一样，享受着人工智能带来的红利。它将人工智能技术的各个方面与核心业务深度相结合，实现不同的应用场景。具体而言，它包括应用场景，包括关系交付、感兴趣的推荐和业务场景，如推送、超聊、视频和新闻。微博推荐系统面临着复杂多样的商业场景，微博环境下的推荐系统不仅具有微博的特点，而且还面临着复杂的商业场景。主要体现在三个方面：一是无处不在的社会关系。中国最大的社交媒体微博目前拥有超过5亿的月活跃用户，这些用户通过各种行为，如关系、博客帖子和评论，建立了一个庞大的社交网络。其次，微博的内容具有高度及时性、多样性的特点，很多社交热点事件在微博上首次爆发，作为一个综合媒体，微博已经覆盖了数十个高质量的垂直领域。第三，对不同场景的推荐要求。微博上的很多场景都有很强的推荐需求，比如关系流、热点流、视频流等。简单地说，微博推荐系统由三个部分组成：第一部分是微博内容的理解，即对微博文字、图片、视频的理解。第二部分是对微博用户的理解，通常被称为用户配置文件。三是根据微博内容和用户对微博内容的理解，向感兴趣的用户分发高质量的微博内容。这就是微博推荐系统所做的。首先要分享的是对微博内容的理解，包括文本、图像和视频三种信息。其中，理解文字是微博最重要、最基础的工作之一。微博内容的标记是文字理解的重要组成部分。为此，我们建立了一个三级内容标签系统。1级是对“体育”和“娱乐”等类别的更广泛定义，目前包括56个类别。第二个层次是在第一个层次的基础上完善的。例如，在“体育”类别下。复杂的类别，如“足球”、“篮球”等;三级标签主要是实体识别，如特定明星，目前此类三级标签包含数十万。在标签系统中，标签是如何工作的？简而言之，我们将使用FastText+Bert的组合。每个人都知道FastText和Bert都有自己的优点，也有自己的缺点。FastText速度快，但效果不够好。我们直接使用Bert来处理高质量的帖子，FastText来处理其他帖子，并且标签上的分数足够高，所以我们认为结果已经很好了，所以我们不使用Bert。如果你的分数不够高，你可以使用Bert再次预测。这样，我们就可以利用FastText的速度快和Bert的效果好的优势，实现速度和效果的平衡，并进一步分析和建模微博的吸引力，有效性，质量得分，广告与否，情绪。文本理解的另一个重要工作是主题模型。

Tags： 内容我们模型人工智能理解

上一篇：开海在即!海信真空冰箱助力留存海鲜原鲜本味
下一篇：顺丰同城女骑手急送浪漫让情人节加速升温

猜你还喜欢

站长推荐

热门标签

首页 > 手机数码 正文

GAITC2022智媒专题论坛｜王健民：人工智能技术创新，赋能微博内容理解与分发

猜你还喜欢

首页 > 手机数码正文