返回列表 回复 发帖

微博博主语料库百万条

只适用于科研教学用途,不得作为商用;引用本语料库。

  微博博主语料库由,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过灵玖软件予以公开共享其中的20万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝)

  字段说明:

  id 内部id

  sex 性别

  address 家庭住址

  fansNum 粉丝数目

  summary 个人摘要

  wbNum 微博数量

  gzNum 关注数量

  blog 博客地址

  edu 教育情况

  work 工作情况

  renZh 是否认证

  brithday 生日;

  下载地址:http://www.nlpir.org/?action-viewnews-itemid-232
中文信息处理、 智能挖掘、 搜索引擎、 自然语言处理、 信息检索、 舆情挖掘、微博舆情、舆情危机公关
博客:http://blog.sina.com.cn/jingwei0914
围脖:http://weibo.com/10time
返回列表