上海证券交易所技术公司

注册制背景下科创企业政策契合度评价量化研究

研究背景

本研究服务于国家重点研发计划项目《资本市场注册制下信息披露审核与监管关键技术研发》(2021YFC3340704)下的《课题4:科创企业评价与行业综合应用示范》(下简称:课题四)。课题四旨在更好地判断科创板拟上市企业的科技创新能力,市场认可度,成长性,以及是否拥有关键核心技术并以之开展生产经营,针对新一代信息技术、高端装备制造、新材料、新能源、节能环保、生物医药等行业细分领域,研究出一套具备可操作性、可比性和可解释性的科创企业实力、成长性、认可度等方面的评价方法、技术和指标体系,增强审核的客观性和可操作性,提升科创板聚焦“硬科技”科创企业的能力。

金融市场是统一市场体系中的一个重要的要素市场,证券市场是金融市场中支持实体经济,促进市场经济发挥的重要基础设施,为解决资本供求矛盾和流动性发挥着重要的作用,同时,证券市场也是人们进行财富管理的重要渠道。证券市场通常分为发行市场(一级市场)和交易市场(二级市场)。发行市场中对于拟上市企业的审核尤为关键,决定着企业是否可以在证券市场上挂牌,并寻求资本支持的关键核心。通常情况下,证券交易所为了支持政府和社会经济发展,对拟上市公司的要求除了要求满足一定财务指标外,还要求企业主营业务和战略方向上与社会和政府发展需要相近。换言之,企业主营业务和战略发展方向与社会和政府的战略性政策鼓励方向的相关性,对该企业上市发行和流通交易的影响巨大。

政策契合度,是指科创企业的主要产品和主营业务与国家相关产业政策文件的契合程度,是“科创企业评价指标体系”中的重要指标之一(图1)。政策契合度评价任务要求针对科创企业招股书中关于主要产品和主营业务的关键信息(下简称“招股书信息”),结合党中央、国务院和国家各部委发布的相关领域的政策文件(下简称“政策文件”),检索与招股书信息符合的相关鼓励性政策文件。

image-20230213145139225

近年来,预训练语言模型的巨大进步激发了自然语言处理领域的研究热情,并在各项下游任务中取得了惊人的表现。文章检索,旨在根据给定问题从海量语料库中检索相关段落,返回与问题相似度最高的一组文章。文章检索里依赖于高效的编码表示来学习文章相关性,传统的编码方法基于稀疏向量空间模型,如TF-IDF或BM25,通过倒排索引有效地匹配关键字,可以看作是问题和上下文的高维稀疏向量表示。此类模型基于统计学方法,运行速度较快,对计算资源需求较小,但是无法将语序、相对位置信息融入编码过程,因此检索效果比较有限。近期的大量研究表明,基于稠密向量表示的文章检索(稠密文章检索,Dense Passage Retrieval)已经被证明是开放域问答的有效范式。稠密文章检索使用预训练语言模型来对文字进行编码,将问题和上下文映射到高维稠密向量空间,再利用最大内积搜索算法(MIPS)来进行高效检索。

在这项工作中,我们提出契合政策检索,将文章检索的领域拓宽到资本市场注册制背景下的证券市场信息披露审核与监管领域。给定一个企业的招股书中的主要产品和主营业务的描述(图2),契合政策检索旨在从一组政策条目中返回一个或多个相关的政策条款。一个合格的契合政策文章检索系统可以为监管机构提供专业的辅助服务,核实企业信息披露内容中科创属性定位的确切性。

image-20230213145235597

寻找与企业描述契合的政策是一项具有挑战性的任务。契合政策检索需要处理两种不同分布的语言:用于招股书的复杂书面语言和用于政策的简洁书面语言。这两种语言分布的差异使检索任务变得非常困难,因为他需要有一个提炼关键信息的系统,从招股书信息中找到关键信息,进而判断是否与政策条目匹配。招股书中一般包含企业的行业分类和具体产品,然而,契合政策并不应该仅根据行业分类上的匹配,而更应该是基于具体产品的契合,因为鼓励性的政策往往专注于某个行业的具体类型的产品和服务,并不是对整个行业进行鼓励和支持。招股书和政策内容中包含大量与产业链相关的专有名词,这要求系统具备一定的行业知识,进行产业链上下游推断。

因此,我们需要一个大规模的有标记的股票政策数据集,来研究检索模型在多大程度上可以拟合审核专家的智慧和决策。然而,尽管上市企业的招股书和国家政策都可以公开访问,审核机构对上市申请的审核过程往往是一个黑盒,企业上市所根据的契合政策并不公开,因此,此类数据集往往难以获得。

本研究的主要内容如下:

  • 使用自然语言处理方式对科创企业招股书文件和各领域政策文件进行关键内容抽取;
  • 结合非监督学习算法和行业领先的预训练语言模型进行数据处理和人工标注,产生一个人工标注的契合政策检索数据集;
  • 在额外的大型中文语料库上对预训练语言模型进行进一步预训练;
  • 搭建双塔式稠密文章检索模型,在训练集上进行微调,并在测试集上进行性能验证。
基于自然语言处理的政策契合度指标评价模型研究方法
返回首页