证券行业知识图谱应用实践
作者介绍
白雪–阡寻科技联席CEO。复旦大学博士,曾任于上海证券交易所博士后工作站。主要研究方向为金融文本挖掘、知识图谱项目研发、聚类分析、时间序列分析、关联挖掘、个性化推荐等。拥有九年数据发掘项目研究及管理经验,涉及领域包括金融、医疗、交通等,曾主持多个证券市场重点研究项目,之后就职于国金涌富公司,从事金融科技产品的设计工作。
熊昊–阡寻科技执行董事、总经理。香港大学计算机系博士(提前一年毕业),香港大学计算金融方向导师团成员。曾任上海证券交易所资本市场研究所博士后研究员,研究领域为互联网证券与金融大数据,国内早期互联网证券领域研究人员之一,主持包括“证券国际化”、“证券知识图谱”在内的多个证券系统重点研究项目。后就职于广东省粤科金融集团有限公司从事战略规划、投资决策委员会等相关工作。
白硕–阡寻科技董事长。曾任中科院计算所研究员、博士导师、软件室主任、软件方向首席科学家。年起参与组建国家计算机网络应急技术协调中心(CNCERT/CC),年起任上海证券交易所总工程师。新一代交易系统设计师,自然语言及人工智能领域资深专家,中文信息学会理事。
摘要:大数据时代以其海量的数据,极大丰富了人们获取知识的来源与途径,为人们更好的掌握与认知事物规律,提供了越来越丰富的手段。与此同时,随着数据量尤其是非结构化数据的急剧增长,数据的分析与理解已经远远超过人类的理解与分析速度,在某些应用场景甚至会出现随着数据的增长而应用效能下降的“拉弗曲线”效应,困扰着行业的进一步发展。
抛开应用场景的数据解决方案通常都不能取得良好的效果,就针对证券行业这一特定行业而言,存在着结构与非结构化数据并存、数据分析结果要求准确度极高、数据分析结果经济效益明显直接的特点,对我们的分析手段提出了新的要求与挑战。
金融知识图谱,一改传统数据分门别类的存储方式,以一种“活”的方式将实体、属性、关系等非结构化、结构化数据固化并联系起来。构建金融知识图谱作为证券文本语义理解和知识搜索的关键基础技术,为未来证券领域文本分析、舆情监控、知识发现、模式挖掘、推理决策等提供了坚实支撑。
金融知识图谱在证券行业的应用目前尚处于探索阶段,如智能投研,智能公告等等,均可以大大提高传统业务效率。然而,构造和应用领域知识图谱,尚面临着各种挑战和难题,需要行业专家和人工智能专家协作起来,以专家+大数据的方式构筑自生长模式,从而真正将海量非结构化信息自动化利用起来,成为领域应用决策的坚实支持。
关键词:知识图谱;智能投研;大数据;
1引言
一部年上映的科幻巨作《阿凡达》,以智慧之树的形式承载并实现了历史知识、记忆和现实生灵的万物互联,形象而精准地预测了知识科技的今天:人工智能领域顶尖的工程师,与行业资深专家,正携手致力于基于知识图谱、深度学习、自然语言处理等前沿技术,融合各行各业的知识归集与建模,共同构筑连接万物的知识之网、智慧之树。
知识图谱作为一种大规模的知识表示形态,本质上是一种语义网络。语义网络的核心是以图的方式存储知识并向用户返回经过加工和推理的知识。知识图谱的研究和应用,可分为基于广度的通用知识图谱和基于深度的领域知识图谱。通用知识图谱,主要由各大搜索引擎公司,如Google、百度、搜狗等领衔研究,主要目的是改善搜索体验,直接给出目标答案;而领域知识图谱,则可根据领域特定的情况,有着变化万千的应用。本文将主要讨论领域知识图谱在证券行业的研究和应用。
证券行业正面临着数据爆炸的问题。传统的金融数据服务商,历时数十年,已收集整理了大量高质量的结构化数据,并以分门别类的方式,展示给用户。如何有效的使用这些数据,则需要用户具备专业的金融经济知识,深刻理解某个数据的变动可能引发的关联、传导效应,从而帮助用户做出各种投资决策。金融行业的研究人员,相当于在大脑里存储/训练了一个知识图谱,将相关的行业、产品、公司等各种因素联系在一起,当观察到某个数据变量发生变化的时候,则可以分析推理出各种观点和预测。然而,一个人的脑容量/记忆是有限的,一个专业的行业分析师通常只能对几个行业了如指掌。因此,对市场进行全行业的分析服务则需要一整个分析师团队,从宏观,到各个细分行业。通过人与人之间的交流,以及研报与研报之间的关联和对接,来实现整个经济金融体系的传导与联系。近年来非结构化数据的井喷式涌现,给这种传统的运作方式带来了挑战。财经新闻、经济产业讯息每时每秒都在更新;上市公司的数目众多,所涉及的定期报告、临时报告数量巨大;基于互联网平台的股吧、论坛、门户网站、