中国工业报记者 余娜
3月6日-10日,在拓尔思信息技术股份有限公司(以下简称拓尔思,300229.SZ)的会议室里,副董事长兼总经理施水才,副总经理林松涛,副总经理、董事会秘书李党生接待了来自银河证券、东方证券等机构的调研。
“目前公司积累了1300亿条基础数据,日均增加1亿条,以上数据全部来源于互联网公开数据。”在回答机构代表提问时,拓尔思方面表示。
形成1+1=N数据要素商业模式
在数据要素市场发展势头强劲的大背景下,拓尔思有哪些发展规划?
对此,拓尔思表示,在经营过程中已经形成了一套1+1=N的数据要素商业模式。“1+1”是指一个大数据底座和一个人工智能技术平台。“N”是指行业 SaaS 服务集群,未来可实现N个云服务产品的拓展。“1+1=N”的商业模式主要依托拓尔思自建的大数据中心,基于自研的大数据底座和人工智能技术平台,面向优势行业的业务应用,根据不同场景封装产品,基于公司成熟营销体系迅速推向市场。
目前,拓尔思拥有完整的大数据基础建设产品线、丰富的行业SaaS服务集群和可靠的安全一体化平台,正从资源、应用、安全三个方面全面布局数据要素市场。基于对1300亿以上资源性数据资产,通用、行业/领域知识库大类30余种,以及350种以上深度学习算法模型的融合治理,拓尔思目前已形成了产业大脑、媒体资讯、网络舆情三大数据资产平台,为公司在网络信息内容治理、金融监管、政务资讯服务、金融机构风控管理、智能媒体服务、开源情报等领域的云和数据服务提供数智赋能。
“拓尔思数据中心目前拥有3大专业IDC机房,上千台高端机架式服务器完成对互联网公开数据的7×24小时不间断采集,同时租用了阿里云及微软云的服务器实现全球数据采集。数据中心监测的采集站点包括80万余家新闻网站、3000余个资讯APP、1200余家国内报刊、20余个第三方平台、79语种50万余个其他站点。每日数据量高达1亿多条,几乎涵盖了全量的微博新增数据,网站覆盖度及数据存储量均明显高于业内水平。”拓尔思表示。
全网数据实现全自动采集
基于自研的互联网数据采集系统,拓尔思大数据中心的数据可实现全网数据的全自动采集。
资料显示,早在2002年,拓尔思就推出了第一代网络信息采集系统——TRS 网络信息雷达,已成功应用于数千家媒体、企业、金融和政府部门的数据中心或信息中心。2020年,拓尔思推出TRS海蜘大数据采集平台(以下简称“海蜘”)。海蜘是一款专业的网络数据深度采集产品,具有智能采集、全网适用、简单易用、高效稳定的特点,可提供多种网页采集策略与配套资源,帮助整个采集过程实现数据的完整性与稳定性。
根据互联网不同的数据类型与网站结构,“海蜘”采用分布式抓取技术,对指定网站定向数据采集、存储,然后进行分类、分词、 查重、打标等数据加工,在专业知识库建立、企业竞争情报分析、报社媒体资讯获取、舆情监测等领域应用广泛。同时,公司掌握高质量、具有公信力背书的数据采集点,在数据的质量和行业关联度方面具备优势。
值得关注的是,在大数据领域,目前多数公司在数据处理方面以人工为主。 而拓尔思作为以自然语言处理为核心技术的公司,其核心技术的对内优势主要体现为提升数据处理效率。利用深度模型和算法,拓尔思成功打造多款数据中台,大力拓展数据治理和自动化清洗功能,以机器代替人工的方式实现数据自动打标,累计智能标签模型120类,共计2800余个。“目前公司采取机器+人工的数据标注方式,且机器标注率已经达到80%,降本增效成果明显。”拓尔思有关负责人表示。
此外,拓尔思还称,基于自然语言处理技术、积累的各场景行业术语及主题数据,公司还形成了各行业知识图谱,对海量多源异构数据进行融合、关联、标注以及知识化处理,构建形成了大规模领域知识图谱。
另据拓尔思有关负责人透露,目前,该公司拥有通用、行业/领域知识库30+大类,标签规则30000+。每类知识库具有规模大、语义关系丰富、结构友好、质量精良等特点。公司向客户提供的是以自然语言处理技术为核心的软件产品和数据中台产品,并不接触客户的内部数据,因此不存在数据纠纷风险,且从未产生数据纠纷。
请输入验证码