Facebook开发新的神经网络模型,提供更具“吸引力”的照片标题

对于那些对Facebook今年在社会中所面临的一系列挑战感到惊叹的人来说,该公司人工智能团队的最新研究成果提供了一个引人入胜的目标:“让AI更有吸引力”。

Facebook AI部门的研究人员找到了一种培训机器学习模型的方法,不仅可以标注图像说明,而且可以对照片,采用可能对某个人来说更有趣的多种评论风格进行描述。

传统的机器学习任务成功地将描述自动地放在图像上“对于验证机器是否理解图像的内容很有用”,他们写道,“但它们并没有像人物那样吸引人类。”

在这种情况下,人格可以从甜蜜到傲慢到焦虑,以及两者之间的各种安排。例如,一张三明治的图片可以被亲切地标记为“这是一个可爱的三明治”,或者更具嘲弄性,“我做的食物比这更好”。

这项工作是对几种最先进技术的混搭,例如如何确定图像的内容,以及如何生成新颖的句子。

RedHat?OpenShift应用程序运行时可帮助企业使用云交付模型,并以Redbative方式简化Red Hat OpenShift平台上应用程序和服务的持续交付。Red Hat OpenShift应用程序运行时基于成熟的开源技术,还为开发团队提供了多种现代化选项,以便为现有应用程序平稳过渡到云。

该论文“通过个性吸引图像字幕”,并发布在arXiv预印本服务上,由Kurt Shuster,Samuel Humeau,胡海良,Antoine Bordes和Facebook AI Research的Jason Weston撰写。

神经网络模型的作者创建的,其中它们进行复制“TransResNet,”依赖于内置于“编码”的图像数据的几个国家的最先进的方案,包括了“ResNet152”编码器通过Sebastian马塞尔和晏Rodriguez的发达一块在2010年被称为“Torchvision”的软件。

然后将该编码器的输出给予“具有ReLU [限制线性单位]激活单位的多层感知器”。为此,作者添加了一种人格特质的“嵌入”。接下来,作者训练两个编码器,他们称之为“下一个话语检索任务”,它利用一个数据库,该数据库包含“17亿对话语,其中一个编码上下文,另一个编码下一个话语的候选者”。 “

然后,作者表明TransResNet在一系列标准基准测试中具有竞争力,甚至更优越,可以为图像应用标题。但是为了表明一个标题的个性可以产生影响,他们让一群人看到人为创作的标题和自动生成的标题,并说出他们发现“更具吸引力”。

报告作者:“发现以人格为条件的字幕比图像的中性字幕更具吸引力,获胜率为64.5%,使用二项式双尾检验具有统计学意义。”

在将他们的工作与人们撰写的“引人入胜”字幕进行比较时,研究人员发现“我们最好的TransResNet模型几乎与人类作者相匹配,获胜率为49.5%。

作者指出,这是进一步发展其模型的基准,“这个领域很快就会出现超人表现的可能性。”

有趣的是,作者留下了一些他们无法模仿的人格特征,例如“分配中心,无耻,灵活,朴实和不可见”,他们写的所有这些都难以解释。

关于这个世界的情绪,所有这些都可能有更广泛的教训。在研究组中,人们被要求评估标题的吸引力,作者写道,当他们被提出两个表达没有特定个性的标题时。一方面,这只是一个事实,一个表达积极观点的标题 - “好猫咪!” 或者一些这样的 - 另一方面,人们倾向于发现积极的标题更具吸引力。但是当出现负面字幕时,人们发现它们不像那些只是事实的那样具有吸引力。足够的消极性,可能是外卖。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。