灵玖软件NlpirParser智能平台敏感词扫描系统应用
-
面议
在网络日益发达的现在,也伴随着有益信息与造成不稳定因素的信息也随之日益泛滥,为了网民的思想健康,也为了社会的和谐,在许多对外公共场合下,有些内容是要经过审查才能显示的。在网络审查初期,都是通过人工审核,这种审核方式虽然准确且智能,但与网络文字产生的速度相比,其效率就显示微不足道了!因此,自动化的系统处理方式的需求越来越强烈……
灵玖软件Nlpir Parser智能平台敏感词扫描系统由灵玖软件研制,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成命中的敏感关键词、敏感类别与权重等信息。可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。
一、Nlpir Parser智能平台敏感词扫描系统特色
具备四大特色:
1、基于PDAT专利的多关键词实时扫描算法
我们采用了北京理工大学的PDAT专利算法,可以针对百万量级关键词列表实现单机20MB/s的实时扫描速度;
2、关键词的多模式智能匹配
用户设定关键词后,系统可以自动识别扫描不同编码、繁简体、全角半角、中间加各类干扰噪音等变体及繁体形式。
3、内置了丰富的敏感知识库
目前已经自动内置了类型、三万多个敏感关键词词典。这些词典几乎囊括了所有行业里面的敏感关键词,从而为净化互联网空间提供知识储备。
4、支持用户增量添加百万量级业务敏感词库
支持客户自定义导入用户词典,自定义敏感类别与权重。可以支持能够提供不同行业的敏感扫描结果。
二、Nlpir Parser智能平台敏感词扫描系统扫描过程
步:业务单位准备敏感词列表
由相关部门整理出敏感词文本文件,每行设置一个关键词信息,具体格式如下:词 类别 权重。
说明如下:
1.关键词与类别完全由自己设置,不限制长度、格式与编码;
2.当前系统支持大类别数为255个;
3. 权重标准建议为1-10。10表示大,1表示小。
4. 同一个词可以设置为不同的类别。
第二步:导入自定义的敏感词文件(可选,如不设置则默认为系统内置敏感词)
通过导入关键词即可处理,也可以使用批处理命令ImportUserDict.bat实现。
1000个关键词可以实现1分钟内导入,1万关键词5分钟以内,10万关键词约需30分钟,别关键词的时间略长,预计需要半天的时间。导入的词表会以特定的格式加密存储。不会泄露用户的业务机密。
第三步:扫描内存或者文件
通过上面描述可以选择待扫描文件夹,即可实现数据的快速实时扫描。适合于小规模数据的测试。
大规模数据建议采用批处理命令KeyScanner.bat配置实现。待扫描文件的格式目前只支持文本文件。
批量扫描的结果输出到的结果文件,输出敏感的行号,并给出敏感的内容。