目录
零、前言
壹、数据简介及预处理
贰、阅读情况分析
2.1 行为分析
2.1.1 阅读方式分析
2.1.2 阅读天数分析
2.1.3 并行阅读书籍数
2.1.4 各月份阅读情况分析
2.1.5 小结
2.2 书籍基本信息分析
2.2.1 作者国别分析
2.2.2 中图分类分析
2.2.3 类型分析
2.2.4 关键词云图
2.2.5 简介词云图
2.2.4 出版社分析
2.2.5 出版发行地分析
2.2.6出版年份分析
2.2.7 小结
2.3 大众评分数据分析
2.3.1 豆瓣评分分析
2.3.2 用户推荐指数
叁、app分析报告
3.1 得到阅读报告
3.2 樊登读书听书报告
肆、总结
伍、参考
1
罗胖(罗振宇)时间的朋友要要连办20年;经济学家何帆决定每年写一本书(一共30本)——变量,记录中国从2019年到2049年之间的变化,为中国每一年的变化撰写一部“未来史”;那自己就简单点,记录下自己每年的阅读情况吧,时间就是余生这些年。这是关于自己最简单的小事了吧。

2021年,就是自己阅读报告的元年。根据在腾讯文档的记录数据来看,阅读完成了45本书,大约732万字。年初设定的小目标50本,小旗杆看起来有点歪了。
参考师兄的笔记样本,也较为详细的记录了下自己2021年的阅读情况,这些数据可以分为三大类:书籍本身的基本信息数据、大众评价信息数据和我的行为数据。借此尝试做了一些分析,也是顺势对自己2021年的一个回顾和总结。通过自己亲身记录的阅读样本数据,还是发现了一些很有意思的事情。诸如:
年初就比较元气满满,阅读进展进况就比较良好;快年中了,发现进度不行,就冲冲业绩;年底了一看,我勒个去,偷懒了啊,冲鸭,小目标打不成了,但能达成多少就尽量让差距小一点吧!
真的是抓起哪本看那本,一会儿看这本,一会儿看那本,然后有些书籍就开了个头,然后就是个头了;有的书看的时间拉长了,但效果可能反而减半了吧;
专业类的书籍还是更倾向一些,通过词云图可以看到**“数据思维”**明显频频出现。都说数据就是资产,那都是别人说,如果不能够变现那就是个数字,如果真要说资产那就只能算是垃圾资产,还真的很费地方。也寄寓一个大幻想,要在此专业不断精进能力,可以力排众难吧。
原始数据为手工录入Excel的相关阅读书籍的基本信息,结合着手记录阅读记录信息时构思的要记录的相关字段,在开始阅读后期完善的相关数据。阅读记录基本差不多就是自己这一年看过的所有电子书籍和纸质书籍。原始记录的数据集,包含23个字段,根据分析的需要,后续处理,扩展字段到30个,得到包含45条记录的二维表。
数据预处理阶段,主要对部分缺失字段(得到上显示的书籍类型、豆瓣评分)进行了填充;对出版社信息进行了校对和合并(诸如中信出版社、中信出版集团统一命名为中信出版社);还做了一下重复阅读记录检查,还真发现有重复阅读的一本书籍,不过并没有做去重,阅读一遍也好,阅读两边也罢,都是自己某一时刻想读的记录,说不定就是想多读几遍呢(也说明文字记录真的很重要,常言好记性不如烂笔头,不要妄想记忆有多么靠谱,文字、图片等碎片化的记录,绝对可以给记忆很好地提个醒)。
特征工程阶段,主要对阅读记录信息进行了扩充,构造了阅读天数、阅读天数分组、并行阅读书籍数、开始阅读月份、完成阅读月份、豆瓣评分分组、用户推荐指数分组等字段,处理的方式后续分析会进一步说明。
记录的数据信息可以归为三大类:书籍本身的基本信息、大众评价数据和我的行为数据。希望通过对书籍的基本信息和个人的行为数据分析,借此可以发现这一年的阅读偏好、阅读行为保持等情况,对来年也可以有进一步的指示作用。
2
阅读方式包括两种:纸质阅读和电子阅读。统计汇总结果如图3所示,电子阅读占据了自己绝大部分的阅读时间。今年年初在听了罗胖的《时间的朋友》后,开始体验得到app,二月份的时候开通了得到电子书会员,当时的年费是148大洋。电子版阅读完成的29本书,总定价约1800大洋,我们在网上买书基本都是打折的。根据《2019-2025年中国图书报刊零售行业市场现状分析及投资前景预测报告》中的数据显示,2018年网店的图书平均折扣为62折,就姑且当半折吧,这样折算下来实际支出也近千大洋,比起一百多大洋还是很划算的。当然,纸质版的书籍,自己也不全是通过购买阅读,有的是直接跑到书店中阅读完成的。

《如何阅读一本书》中的这段话自己也印象很深刻:
“你买了一本书,就像是买了一项资产,和你付钱买衣服或家具是一样的。但是就一本书来说,付钱购买的动作却不过是真正拥有这本书的前奏而已。要真正完全拥有一本书,必须把这本书变成你自己的一部分才行,而要让你成为书的一部分的最好方法——书成为你的一部分和你成为书的一部分是同一件事——就是要去写下来。”
怎么才算是读完?从头到尾翻过可不算,你得在全书最后写下个人索引,在全书最前页归纳整体架构,在书页中间做结构笔记、概念笔记和辩证笔记。自己深以为然但躬身入局真不容易,现在自己大部分还是停留在从头翻到了尾的初级阶段,偶尔会对全书内容做下笔记梳理一下。总之,还停留在一些表象,还要进行很多尝试和探索,阅读一本书,也得想想写点什么,让自己可以坚持写下去。
如图4所示,2021年,有三分之一的书籍自己在一周内可以完成阅读,大部分的书籍竟然超过了一周。有7本书竟然超过了三周,看了下书单,不是你们“太难读了”,而是自己把你们打开阅读了开头就束之高阁了。而后某一天,自己又突然想起了你,随接着阅读了起来(电子版的,会自动记录进度;纸质版的,自己有个小习惯,会备好书签)。就这样,断断续续阅读完的你们,阅读效果能好在哪里,不言而喻。
进一步对开始阅读时间和完成阅读时间进行处理,得到一个新的特征:并行阅读书籍数,指的是阅读书籍之间彼此之间会交叉进行的情况。如图5所示,有超过三分之一的书籍,自己无意识间三管齐下甚至四管齐下,这种行为习惯还是要及时纠偏,并行到两个差不多就可以了。

根据开始阅读时间和完成阅读时间,粗略统计出各月份准备开始阅读的数据数量和完成阅读的书籍数量。如图6所示,可以初步发现,年初、年中、年底的阅读行为保持的相对良好,有种冲锋的感觉;其他时间的这个阅读习惯,咋有种感觉浑水摸鱼的感觉,大概这就是自己常说的间歇性规律吧。8月份尤甚,回想了下,8月份开始备战软考,一个新的小目标对自己阅读的小目标冲击还挺大,直接让自己宕机了。还有就是,自己的阅读记录中间有很长一段时间没有及时记录,后来翻阅读完成的书籍整理的,可能也有一点遗漏。总之,行为习惯的良好保持,还得不断改进和坚持。

通过对自己的阅读行为数据分析发现,自身阅读的习惯还存在诸多弊病。亡羊补牢,为时未晚,落纸成文的阅读行为的记录,还是会时常敲打一下自己,避免了自己沉睡太久。2022年的阅读小目标,在整理总结本年的同时,也渐渐在头脑有了更加细化的小行动计划。
书籍基本信息包括书名、作者、译者、作者国别、出版社、出版年份、出版月份、ISBN、关键词、中图分类、出版发行地、类型、定价、字数、简介等。通过对书籍额基本信息的分析,可以初探自己这一年中的一些阅读偏好情况。
注:这部分分析去掉了那一条重复阅读的书籍。
从作者的国别来看,中国作者占据了半壁江山,三分之一是美国的作者,日本、俄罗斯、德国、英国竟也小小涉及了一下。如图7所示,总体来看,中美作者占据了近90%,说明自己的阅读视野还是不够宽泛(hai,读的不够多,自然也宽泛不起来)。

中图法3国家图书馆文津检索4文化、科学、教育、体育
这里的类型是从得到app上查找显示的书籍类型进行的记录,对于部分没有显示的类型自己参考相近书名、中图分类、书籍内容加上个人拍脑门进行的填充。可能不准确的可能性很大,但对于有中图分类和类型的结果数据发现,这部分二者的显示差别有些还是挺大的。诸如中图分类为体育类的书籍,得到上显示的类型为医学,转念想了一下,也有一点道理。如果9所示,从这个类型来看,书籍阅读的主题更明确一些,涉及的方向也更多元化了一些。这种也是自己所期许的结果,当然,新的一年,还得更多元化一点。

数据、思维

从数据上看,44本书籍涉及22个出版社(哇,涉及有这么多的吗,没有记录自己也不敢信),如图12。机械工业出版社没有拔得头筹,也是小小意外,印象中机械工业出版社的书籍在学校的时候,看到的特别多。其他出版社,以前也没怎么特别在意,以后的阅读,可以小小留意和观察下,看看各个出版社情况,某种程度上,是不是通过出版社也可以小小过滤一下书籍呢?不置可否。

如图13所示,绝大部分的出版发行地都在北京,样本数据太少,权当作图一乐呵吧。

如图14所示,自己看得书籍还真的赶“时髦”,近四年出版的书籍占据了阅读的80%,单单2021年刚出版的,占比近20%。阅读过得最早的2014年出版,很多书籍是在得到读/听的时候app推荐过来的,然后顺手加到了书架。某种程度上也可以说明,随着网络的发展,新近出版的书籍需要的时间传播和占据市场都在加快步伐。(杂谈:路人行色匆匆,读书原本是一个慢下来享受的过程,前两天偶尔从一个短视频听到,刘润老师每天听书3小时,并且二倍速,就相对于6小时的输入。知识输出需要大量的输入,真的不易。)

以前的自己,对于专业外的书籍,很少涉猎,最近这些年,已经有了很大改观,是在努力扩大自己的认知圈,路还很长,再接再厉。
大众评分数据包括书籍的豆瓣评分和得到app上用户的推荐指数。
豆瓣的评分也算是可以作为选书的一个小小参考吧(排除水军,很多评分的书籍只有几十个人打分,这类的小样本评分,如果从抽样的角度,数据的方差相对来说小一点),自然偶尔会看一眼评分,但大部分是通过某处推荐、书名或者内容吸引而来,至于评的是几分,自己要阅读的时候一点也不在意,只要这本书对于个人来说,能有所新的收获,那别人评9分也好,评0分也罢,都无关几身。当然,这里就数据论数据,这里的豆瓣评分自己进行了分组处理,如图15所示,就统计结果而论,大致是一个正态分布,有一点点的右偏吧(和师兄的图形结论类似,不过样本更少,更不好说明了)。有4本书没有找到豆瓣评分,或是小众/新书上市/评价人数不足等诸多不明原因,而且这个评分数据是随着时间动态变化的,就不置可否了。

上节讨论的豆瓣评分结果有一点右偏,那得到上查看记录到的用户推荐指数数据结果反倒有一点点左偏,如图16所示。样本太少了,就简单记录一下吧,不予置评。

2021的年尾,伴随着罗胖的跨年演讲,一心二用的书写着2021年的阅读分析报告的结尾。
2021年看似阅读了很多书籍,听了很多书籍,但都还是停留在表象。记得《刻意练习》中提到,练习重要的不是时间长短,而是专注,一万小时定律不是用了一万小时就可以成为大师,有效的一万小时才能塑造大师。还有三F:Focus,Feedback,Fix it,就是要保持专注、有效反馈、及时修正,循环起来,才是有效的“刻意练习”。
《如何阅读一本书》这本书提到了阅读的四个境界,2022还要再好好拜读一下,领会和练习这其中的深意。
2022,我们一起向未来!
最后,用人民日报的一句话做个收尾:保持阅读,坚持小事。
2021年12月31日 初稿
水流云的阅读数据分析报告(2020版):https://mp.weixin.qq.com/s/KKzPOfaPaG5N7Jw-Ka5AQg
第十八次全国国民阅读调查成果发布:http://www.nppa.gov.cn/nppa/contents/280/75981.shtml
中图法:http://clc.nlc.cn
国家图书馆文津检索:http://find.nlc.cn