非正式访谈第二期|中国人民大学潘星宇：站在巨人等肩膀上更容易赢

转载

1626 天前

9222

链想家

来源：链想家

链想家计算科技大赛的第二期的非正式访谈又来咯！

这周我们采访了一位人工智能赛题参赛选手潘星宇

他来自中国人民大学的大数据技术与数据科学专业

将为大家分享他对此次赛题的看法以及一些参赛技巧

参赛指导老师介绍

——张静

现任中国人民大学信息学院计算机系讲师，博士毕业于清华大学计算机科学与技术系，师从唐杰老师与李涓子老师研究社会网络挖掘。近年来发表多篇数据挖掘国际顶级会议与期刊论文，包括KDD、TKDE、TKDD、IJCAI、AAAI等。

Google统计论文引用量达到3300多次。在读期间访问美国伊利诺伊香槟分校韩家炜教授。获国家奖学金等多项奖学金。担任过多个国际著名会议，例如ICDM、IJCAI、CIKM等的程序委员会委员。

2020.07.13
星期一

一切伟大的科学理论都意味着对未知等新征服。

——波普

Q：在了解赛题后，最先做了哪些思考？比如确定赛题对应的学术任务、是否有阅读过或推荐一下赛题任务相关的参考论文、对于数据集的探索等等。

A：我在了解赛题后，在老师的提示下，确定了赛题对应的学术任务就是同名消歧（ame Disambiguation），这个任务在学术领域也是一个非常重要的主题。之后我阅读了《Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop》以及《A Unified Probabilistic Framework for Name Disambiguation in Digital Library》两篇论文，这两篇论文给了我很大的启发，为我提供了一些探索方向。

类似这种数据预测或分析的比赛，数据集肯定是至关重要的，我在解决问题之前，先对数据集做了一个统计性的分析（比如数据集规模，训练集上同名作者的平均数量），这个部分会影响我后面对于任务解决方法的选择；接着我又截取一部分数据进行了检查（比如数据的结构特点是怎样的，数据的完整性如何，是否存在缺省项，是否包含不同种类的语言等），这个部分会指导我后续的数据清洗工作。

Q：在科研、学习或工作中是否做过相关的工作？有没有一些技巧分享给大家？

A：这是我第一次做这样的工作，之前对于同名消歧只是略有了解，没有认真地阅读相关文献或者动手实践一些任务。关于技巧，因为我自己的经历还非常不足，只能是基于这次比赛向大家分享一些小小心得，谈不上什么技巧。

对于这样的从未接触过的主题，我觉得在任务开始之前先多去阅读前人的论文，多去参考前人的经验要比直接上手干好得多，因为自己埋头苦思出的一些方法很有可能已经被前人实践过了，往往是那些踩在巨人肩膀上的人更容易取得更好的成绩。

当然，我们也不能盲目遵从前人的工作，因为数据集的不同可能会导致整个任务的方法发生改变。就拿这次竞赛为例，本次竞赛的数据集很小，那么如果采用某些论文的模型，可能会导致效果一般而且训练过程非常耗时的问题，这其实就是因为那些论文要解决的数据集规模更大，数据结构也有差异，他们的方法并不完全适合本次任务，所以具体问题具体分析也是我总结出的第二个心得。

Q：谈一谈您对于本次赛题“论文同名消歧”意义的理解。

A：同名消歧是一个经典主题，它的应用场景很多，比如学术搜索，社交网络分析等。本赛题具有很强的现实意义，是一个从应用场景出发提出的问题，设置这样的题目，既能够帮助需求方找到一个更优秀的方法来解决这个问题，同时也给了像我这样的科研小白一次实践的机会，不仅可以锻炼自己的能力，而且让我们认识到自己所学的知识如何运用到现场景，解决现实实中存在的问题，做到真正的学有所用。总之，这个类型的题目具有双赢的效果。

Q：对于NLP领域研究的未来发展，有哪些展望和期待？

A：这个问题我真的挺难回答，因为我对NLP了解不多，目前自己只是学习了相关的知识，还没有为这个领域的研究和发展做出任何贡献，针对这一领域的未来发展我实在没有什么资格评价。NLP在当下应用场景很广，已经逐步走入人们的日常生活，从一名普通用户的角度，我自然是希望NLP的相关技术能够在更多场景中得到使用，便捷人们的生活。

《全国高校参赛队伍非正式访谈》

#持续报名中#

想要参与访谈的团队扫描海报二维码

联系链想家的商务小姐姐哟