灵玖NlpirParser智能挖掘文本语义话题识别
-
面议
在当今时代信息爆炸的情况下,一方面网络信息的规模急剧膨胀,另一方面信息又凌乱无序,有价值的信息湮没在大量冗余信息中,对其发现和管理变得越来越困难。为此,以话题为主线对信息进行组织引起了越来越多人的兴趣,但其困难也是显而易见的。同一个话题,往往存在着多个角度、多个侧面的描述与分析,这些信息通常孤立地分散在不同的角落;话题本身也会随着时间而不断地发展变化,描述它的信息会以不同的面目出现在不同的时间。如何对分散多变的话题相关的信息进行组织,传统的信息检索技术很难有效解决这个问题。
灵玖Nlpir Parser智能挖掘平台是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,其功能有:
1 汉语词法分析
汉语词法分析中间件能对汉语语言进行拆分处理,是中文信息处理的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
2新语自动发现
新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术,又是对分词技术的有效提升和补充。
3 文本内容去重
文本内容去重中间件能够对文本进行查重处理,同时能找出所有的重复文件。能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录。灵玖采用的文章指纹算法,能够在极短的时间内与历史指纹库进行对比,从而发现重复记录。
4 文本分类过滤
文本过滤功能能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。
5 文本聚类
文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。
6 文档关键词提取
文章关键词提取中间件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。
7 文本摘要
自动文本摘要中间件能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。
8 网页正文提取
灵玖基于统计分布规律模型判定网页的特征,所适用的网页不受类型和领域的限制,不需要配置抽取规则,能够全自动地对海量互联网页信息进行处理。
9 全文搜索
全文搜索中间件内核经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。
话题识别是一个无监督的机器学习的过程,话题识别也是围绕文本聚类的相关技术来展开的,主要是调整算法使之更加适合话题的处理。