大数据特征提取

所属类别:大数据挖掘

系统简介:

大数据量对应着海量噪杂的信息,不可避免的带来大数据困惑。如何从大数据中提取关键性的代表性特征,可能是某些词汇,也可能是某些短语、命名实体或流行用语,则成为大数据分析的一把利器。 同时,大数据特征提取脱胎于语言自动分词技术,又是对分词技术的有效提升和补充,能够有效发现关键特征和行业术语。灵玖Lingjoin采用基于语义的统计语言模型,所处理的大数据不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。

主要功能:

能够从大数据中分析出特征短语,特征结果具有以下几个特性:

n 语义上:表意完整、所指明确,在意义上有一定的完整性和专指性。

n 语用上:语用环境灵活,能够在多种语言环境中出现。

n 结构上:内部结构稳定,具有一定的凝固性。

n 统计上:具有一定流通度,在真实数据中频繁出现。

应用案例:

灵玖大数据特征提取已经集成在多个公司的业务系统中。

下面是应用于缔元信公司用户标签管理和新浪微博个性热词云的部分案例。

图1:大数据特征提取应用于缔元信公司用户标签管理系统

图2:大数据特征提取应用于微博个性热词云

技术特点:

1. 速度快:可以处理海量规模的数据,平均每小时处理至少60万篇文档;

2. 处理精准:Top N的分析结果往往能反映出当时的时事流行语和热点实体;与国际上著名厂商的技术相比,灵玖的各项指标远远领先;

3.支持微博客、短信等短文本内容分析:支持微博客、短信等内容短小而又不规范的内容分析;

4. 精准排序:特征词汇按照影响权重排序,可以输出权重值;

5. 开放式接口:采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统。

运行环境:

操作系统:Linux2.6及以上;Windows Server

硬件配置:PC即可,内存2G以上

Insert title here