联系我们:
400-6010-280
(010)-52026890 / 52026537 info@eucita.com
(010)-52026890-802
|
我们的服务: - 分析报告服务
- 合作代理
- 售后服务
- FAQ问答集锦 |
资源下载: |
多角度了解我们:
- 关注优捷信达
- 媒体报道
|
本期数据提供了9家教育品牌:新东方、巨人教育、ATA、正保、京翰、龙文、学而思、弘成、学大在百度贴吧和天涯bbs的话题数据。这批数据以2013~2014年度为主,部分数据可以上溯到2006年甚至更早。
包含了两个数据文件:
1.eucita轻数据_教育品牌话题词频.xlsx
该文件包含各品牌词频分词性统计结果,区分"代词"、 "形容词"、 "地名"、 "动词"、 "人名"、 "数量词"、 "副词"、 "方位词" 、"专有名词"、 "成语"、 "名词"、 "简称"、 "常用语"、 "时间词"、 "状态词"等词性。对于挖掘教育类话题内容的构成,分析教育消费市场的特征和问题,很有帮助。
2.eucita轻数据_教育品牌话题数据.xlsx
该文件包含了具体的话题数据,包括等级、关键词、标题、日期、正文、来源等维度。其中话题等级分为三个级别:主贴的级别为1、跟帖的级别为2、对跟帖的回复级别为3。可以借此分别考察各个类型的用户(内容原作者、阅读反馈者等)的关注侧重点。
需要指出,虽然我们尝试了不少方法来提纯天涯bbs用户话题数据的相关性,但是由于该站点内容的争议性及观点性较强,以及抓取数据所基于的天涯站内垂直搜索的返回结果欠佳,这部分仍然混入了不少的无关数据。
传统的论坛类数据,虽然信息较为活跃,但是每个单条信息都嵌入在相应的话题背景下,因此以单条楼层信息为样本进行加总统计,其结果很可能是有偏的。如何充分利用此种类型的数据?期待您的建议!
数据下载地址
http://pan.baidu.com/s/1sjppZzR