灵玖软件-相关产品-大数据文本过滤

系统简介：

大数据体量巨大，数据类型繁多，价值密度低，要求处理速度快，业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。因此，大数据过滤需要快速高效地过滤出有价值的知识与情报，需要达到的性能要求包括：海量处理规模、多字段过滤、智能筛选、高效过滤。灵玖IFCA系统是灵玖中科软件（北京）有限公司自主研发的大数据信息智能过滤与内容审计系统，可以快速便捷地匹配大量自定义的关键字、词，智能过滤违法国家法律法规以及侵犯用户权益的内容，达到净化网络空间、提取情报的目的，确保国家、社会与个人的信息内容安全。

IFCA系统充分融合了灵玖软件在自然语言理解、信息检索等方面多年的技术积累，具有智能、高效、自学习三大特点：

智能主要体现在专家启发式知识与机器学习的有机融合；

高效体现在本系统在保证准确率的情况下，可以单机每秒处理10MB的文本数据；

自学习是指通过机器学习，自动抽取新的语言知识，以适应新的网络语言变化，做到因时而变。

IFCA系统可应用于公安、广播、电视、报刊杂志以及广泛的网络信息内容安全服务。并可在IFCA基础上，提供进一步的数据信息监控等解决方案。

主要功能：

文本关键字、词智能高速匹配：

输入关键字、词，自动匹配，计算出该有关该字词的相关信息；用户定义的关键词数目不限，可以并发支持百万级别的关键词；

丰富的智能逻辑关系运输：

支持关键字、词复杂匹配，包括常用的“与、或、非”，同时支持“NEAR“临近关系的复杂算法；

按照用户自定义的类别体系分类整理过滤出的信息内容：

用户可以根据自身业务的特点，自定义内容过滤体系，IFCA系统将按照用户自定义的类别输出；

样本机器学习：

在没有关键词的时候，机器通过自动学习技能，同样能够达到对信息文本的相似类划分。

应用案例：

灵玖IFCA系统已经广泛的运用于各大公司和机构。

下面是IFCA为国家广电总局进行负面信息过滤的部分案例。

案例一：A片的信息过滤

下图分别给出了简单关键词匹配方法与IFCA智能过滤方法的对比结果图：

A片：

图1：简单关键词匹配方法的结果准确率不到10%

图2：灵玖IFCA系统处理后的结果

技术特点：

1.精准的切词：

使用先进的灵玖LJWS切词技术，准确高效的对句子切分，避免了歧义的产生；

2. 快速高效：

IFCA系统单线程每秒可处理10MB的文本数据。

3.准确率高：

根据100万条数据的实际测试，准确率高达99.97%。

4.支持微博客、短信等短文本内容过滤：

支持微博客、短信等内容短小而又不规范的内容过滤。

5.智能学习功能：

IFCA系统的所有的知识库是通过机器学习，自动抽取新的语言知识，以适应新的网络语言变化，做到因时而变

6.技术先进：

IFCA系统综合运用了自然语言理解技术、信息检索技术、模糊匹配与机器学习技术，技术含量高。

运行环境：

操作系统：Linux2.6及以上；Windows Server

硬件配置：1台服务器即可