我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

声明:动作危险,切勿模仿!

1、听从广大网友劝导,目前程序已停止运行!QQ空间也已升级访问安全机制。

2、本“分析”数据源自部分用户的公开信息,并未触及隐私内容,广大网友无需担心。

3、QQ空间会不定期发布大数据分析报告,感兴趣的朋友关注腾讯大数据官方公众号。

 

    感谢博客园! 转载请注明博客园地址,[email protected]

    这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,目前总共爬了3万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市)的详细数据。

 我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

      目前已经爬到我的第7圈好友(depth=7)共3万数据。

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 爬虫主程序运行界面:

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 

爬虫程序设计:

大致设计思路是模仿工厂的生产车间,使用三大独立循环线程组(GetWaitList,CrawlerQQInfos,SaveData)。

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

详细设计图:

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 

再看看,我根据这份数据生成的一些有趣的统计图吧!

内存已经爆了,不能怪我。  谁赞助台服务器吧

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 

1、大家一般都在啥时候发说说呢?   

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 从图中看出一天最冷门的时候是凌晨4点,这时全国正在睡觉的人最多。 大家最亢奋的是晚上10点到11点,人们都喜欢睡前看看别人的空间,发条说说。中午12点左右也有一波小高峰。

 

2、中国人都喜欢在几月生小孩呢?

    我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 从图中可看出1月和10月出生的人最多,4月的最少。总体来说上半年的出生率比下半年的低。分析可得,1月多是因为很多人填的是默认的1月1号。4月少,是因为中国人不喜欢4这个数字。10月出生率最高,是因为那时天气不冷不热,秋收后也不是太忙了的原因。

 

3、这是我目前爬取的数据人群地区分布   

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 

4、数据人群的年龄分布

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

      如上两张图,整好和我的信息相吻合。我是湖南人,在江苏读的书,而湖南大部分人都在广东打工。所以地区分布中,这三个省整好排在前四名当中。而我又是1990年出生的,对应年龄分布图1990年的用户最多。从目前的数据来看,无论是分布地区以及年龄阶段与我的关联还非常大,随着数据量的不断增加这种关联会逐渐变小,统计图也会逐渐接近全国用户的真实情况。

 

5、数据人群性别分布

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

      男比女足足多了23%的人数,我分析认为实际差距应该是不大的,但女生在设置QQ空间访问权限时普遍要比男生的高。所以我爬取的数据中男生居多。

 

 

6、下面系列图是根据一些“关键字”在说说中出现的频率统计出来的,相当有意思。

       单个用户的行为是很难看出规律的,大数据的意义在于它会不断矫正那个平衡点,从而得出反应宏观现象最真实的情况。数据量越大,平衡点动荡的幅度便越小。进而能够根据当前的数据趋势预测后续的发展,为决策提供有力依据!

6.1 图说股市      

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

       现在我们拥有海量的互联网社交数据,如QQ的说说,sina的微博数据。我觉得这些数据拥有惊人的利用价值,这非常值得我们去研究,去挖掘。我想,用它们来做一些股市或者其它方面的分析预测是可行的,准确度应该也是非常高的。

    将股票中的关键字做海量数据分析,比如会得出当日讨论股票热度排行榜。进而能得到海量讨论股票的用户,再通过市场的实际反馈找出股票上涨及下跌的正相关因子,再对这些海量数据进行分析计算得出最靠谱股票推荐大神排行榜。对这些用户分级,分优先度及抓取密度来拿数据。用这些数据分析出哪些是靠谱的股票肯定靠谱!

 

 

6.2 群众讨论最多的明星排行榜,还是很靠谱的。(我爱汪峰哥,我也爱Jay! 信仰在空中飘扬)

插播汪峰头条:素不相识,光听新闻的片面之词就断下结论,那是完整的真相吗?背后的故事又有谁了解多少?实在反感那些破口大骂的,更是可恶一些媒体就事三番五次的戏谑。

祝峰哥幸福,我很喜欢你的歌!

 

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 

6.3 最为用户喜爱的手机品牌

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 

6.4 人们最喜欢谈论的互联网公司,阿里之所以这么低估计是大家都喜欢叫它淘宝或者天猫吧。

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 

6.5 QQ空间中讨论的最为频繁的社交平台排行榜。

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

 

6.6 生活的统计图

爱>恨; 开心>伤心; 笑声>叹气声; 吃货很多;  谁特么说中国不幸福了,这满满的都是正能量数据啊。

我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!

好了,其实还可以做很多其它的分析。如果大家有什么有趣的数据分析想知道的,那就给我留言吧。

 

       技术不多说了,程序不难,多线程数据库操作却是把我搞苦了。还好,现在程序差不多稳定了。过程也是很有意思的,有空我再写个程序升级过程中的那些趣事吧。我觉得一个美妙的程序一定是高度模拟现实的,就像飞机模仿蜻蜓,雷达模仿蝙蝠一样。 这次的程序设计就是模拟的工厂的生产线。

更多相关文章
  • MYSQL ROOT权限注入的时候需要用到的系统表 ....通过以下这些表就可以猜解到有那些库 有那些表 有那些字段最后猜解数据.... 目录 23.1. INFORMATION_SCHEMA表 23.1.1. INFORMATION_SCHEMA SCHEMATA表 23.1.2. INFORMA ...
  • Date在js中和Array类似,都是拥有自己的特殊方法的特殊对象. 由于平常用到Date着实不多,对它的了解颇浅.上周被问到怎么样获取某年某个月的天数,我当时想了一会儿,回答说有两种,一种自己写判断闰年的逻辑,每个月天数分两种情况存数组,一种是利用js Date对象的特性(其实是他总结的...). ...
  • 一些第三方jar包我们需要手动进行安装部署,另外如果使用nexus时索引未更新下来急于使用时也可以进行安装或部署.安装(install)仅将相应jar包安装到了本地仓库,而部署(deploy)则将jar包部署到了私有仓库中.如下两段代码分别是命令行形式下安装oracle 的jdbc驱动包,和部署su ...
  •   通过OleDb查询[类似ado连接数据库取数据的方式]从csv或者xlsx类型的文本中获取数据并输出到DataTable      表类型是MSsql推出的一个表结构,可以根据表的结构定义相应的结构,可以实现批量导入数据,具体实现是在存储过程里面定义一个表类型参数,在外部可以接受一个DataTa ...
  • [Unity3D]再次点击以退出程序 本文介绍为Android应用编写点击返回按键时的"再次点击以退出程序"的方法.   +BIT祝威+悄悄在此留下版了个权的信息说: 下面是一个测试用户双击手机屏幕速度的app,拿来展示"Click again to quit app& ...
  • Foundation框架一.Foundation课程安排1.NSObject.NSString.NSMutableString2.NSNumber.NSValue.NSDate.NSArray NSMutableArray3.NSArray的遍历.NSArray的新语法(IOS6).NSArray ...
一周排行
  • 读未提交时,读事务直接读取主记录,无论更新事务是否完成READ_COMMITTED 读提交时,读事务每次检查主记录上有没有锁,如果没有锁就读取主记录:如果有锁,就读取undo log中最近的版本.这样每次读到的都是最 ...
  • 很多朋友使用新网互联的域名,对于第一次做网站的朋友来说,域名绑定不懂,特为大家整理了这篇文章. 登陆http://mgt.dns.com.cn,输入您的域名和密码进入. 然后选择“域名管理” 再选择“mydns”功能 ...
  • 如何通过TP-LINK TL-R402M路由器来控制上网   上网控制描述 现在很多家庭用户都通过电信的ADSL或其他公司提供的类似类型的宽带上网.由于宽带的费用并低廉,而对于大多数没有大量数据下载的家庭用户来说,一 ...
  •   问题 你需要一个元素中的HTML内容 方法 可以使用Element中的HTML设置方法具体如下:   Element div = doc.select("div").first(); // & ...
  • Problem Description 大家都知道小明最喜欢研究跟序列有关的问题了,可是也就因为这样,小明几乎已经玩遍各种序列问题了.可怜的小明苦苦地在各大网站上寻找着新的序列问题,可是找来找去都是自己早已研究过的序 ...
  • 在网上浏览的时候,偶尔会看到一些有趣的图片.像其它事情一样,惊人的照片需要在正确的时间正确的位置才能造就.不需要专业的摄影师,我们每个人都有机会记录下一个真正独特的画面.今天这篇文章和大家分享20幅非常震撼的摄影图片 ...
  • 二叉树:每个结点的直接子结点最多只能有两个,且有左右之分. 完全二叉树:除最后一层外,每一层结点数为2^(i-1)个,最后一层的结点数若不满足2^(i-1),那么最后一层结点是自左向右排列的.   1 #includ ...
  • 子弹在移除的时候,需要给tank一个返回值,让坦克知道我已近移除了,你可以再次发射子弹 而tank在发射子弹的时候,要给bullet设置反向,这两个类结合的比较密切,所以可以考虑将两个 类写到一起.   还有就是,如 ...
  • 所有自定义的输入输出函数都是使用putchar和getchar来建立的 1.不添加换行符号打印一个字符串 #include<stdio.h> #define MAX 81 void put1(const ...
  • 电脑升级到了win10预览版,但是这个版本会自动安装新版本,下面有个不错的方法可以在一定程度上阻止win10预览版自动安装新版本,需要的朋友可以看看 现在很多人都将自己的电脑升级到了win10预览版,但是这个版本会自 ...