MOOC平台的那些“大”数据

作者:Cedric Wang

曾经很长一段时间在聊起慕课的时候,总会有人提起所谓的“大数据”,并谈及这些MOOC平台所产生的大数据对于未来的教育教学改善将会产生多么重要的影响。

前几天有位朋友通过「在行」约我聊慕课,也提到了“MOOC与大数据”这个话题。由于当时约见的时间比较有限,于是就有了这篇文章,Cedric通过公众号来与大家多聊几句。

那么,什么是大数据呢?

根据维基百科的定义:

Big data is a term for data sets that are so large or complex that traditional data processing application software is inadequate to deal with them. Challenges include capture, storage, analysis, data curation, search, sharing, transfer, visualization, querying, updating and information privacy. The term “big data” often refers simply to the use of predictive analytics(预测分析),user behavior analytics(用户行为分析), or certain other advanced data analytics methods that extract value from data.

很多MOOC平台都可以提供不少的数据,然而这些其实相当一部分都暂不足以被称为“大”数据。综合Coursera、学堂在线、网易云课堂,这些平台可以为授课讲师提供的数据普遍有:

常见的MOOC学习者数据:

  • 个人信息(性别、年龄、学历,等)
  • 地域信息(注册/登陆地:国家、省市)
  • 浏览信息(各个课程模块的访问次数、停留时长、进入/跳出时点)

常见的MOOC课程数据:

  • 净注册人数(总注册人数、注册时间、退课人数)
  • 课程完成人数(总成绩达标人数、成绩区间段分布、每道题目的分数分布)
  • 讨论区数据(讨论区模块的访问、发帖量、回帖量)

在上述常见的在线学习数据之外,接下来与大家分享三个并不是常见的MOOC平台能够提供的那些学生学习所产生的数据,以及它们的应用:

 

edX:视频观看数据分析

 

2014年由Rochester、MIT两所大学的学生/学者以及edX员工共同发表的论文“慕课的视频呈现形式如何影响学生参与度”(How Video Production Affects Student Engagement: An Empirical Study of MOOC Videos),基本可以算是使用大数据来研究MOOC相关问题最早的文章之一了。MOOC从业者们众所周知的“一段视频的长度建议在6分钟左右”就是源自于这篇论文的结论之一。

通过对于edX上选定4门课程的690余万次视频观看记录(Watching sessions)的数据整理与分析,得出了很多对于后来MOOC视频呈现具有借鉴价值的成果,包括:讲师是否需要出镜、在摄影棚拍摄还是随意休闲一些的录制背景对于学习者的体验会更好、公式推导动画与手写板的应用、讲师在视频中语速对学生的影响、以及针对授课视频与辅导视频的差异化建议等。

感兴趣的读者可以通过下述链接查看到完成的论文,相信会得到不少启发:http://pgbovine.net/publications/edX-MOOC-video-production-and-engagement_LAS-2014.pdf

 

学堂在线:预测课程完成率

 

在2015年的时候,学堂在线赞助了当年度的 KDD-CUP(国际知识发现和数据挖掘竞赛),为竞赛提供一个给定时间段的多门MOOC课程学习者的学习平台访问数据。邀请参赛选手根据提供的训练数据,预测并判断测试数据集中某位学生在接下来的时间段是/否会“弃课”。

任务说明:

The goal of this competition is to predict the probability that a student will drop out a course in 10 days. Therefore, your results must fall in the interval of [0,1]. In data sets, there is a unique ID for each student taking a given course. In other words, each ID corresponds to a combination of one student ID and one course ID.

这场竞赛中关于“弃课”的定义是,某位给定的同学在给定时点的未来十天内对网站不产生任何访问数据。然而十天不访问就说是“弃课”似乎并不太合适,万一人家只是那几天比较忙,在第11天的时候又回来接着学了呢。。。

关于这次MOOC平台大数据的竞赛,在知乎上也发现了1个提问及12个回复。知友们更多描述这种行为为“翘课”,听起来还是蛮贴切的。不过对于这场MOOC平台大数据挖掘的价值与意义,知友们的评价就比较多样了:有知友认为这样的活动对于由MOOC而生的很多新兴问题的研究很有价值,有知友则认为本次竞赛最终优胜的模型在现实中的应用价值可能也比较有限。

当年Cedric拉着技术大神Aileen也组团凑了个热闹,深入体验这场竞赛的一些细节,在此就不展开啦。感兴趣的读者可以访问图片下方地址,看看排名靠前的國立政治大學团队的PPT,或许会得到一些启发:

 

港科大:Coursera学习者数据分析可视化系统

 

除了上出两个例子中涉及到的视频观看时长这一数据之外,旧版的Coursera平台还可以为课程开设者提供对于每一个视频内部的精确数据。

这些数据,包括同学们在一段视频的某一时点是正常播放(play)、暂停(pause)、还是进行了进度拖拽操作(seeked)。于是,香港科技大学VisLab可视化研究组研发了一套针对Coursera课程导出数据的可视化分析平台。

 

 

图中的橙色线条表示快进拖拽,蓝色线条表示同学在这一时点对视频进行了后退拖拽(回看)的操作。上图中,我们注意到在标注的红色圆圈里出现了比较密集的后退拖拽,那么这里发生了什么呢?

结合下方的gif动图,我们可以对照着这个时点附近的这段课程视频感受一下:

 

 

对,没错,在这个时点的时候,视频中换了一页PPT。由于前一页PPT中的文字内容过于丰富,在大概6:09这个时点的时候,有相当比例的同学进行了回看操作。

这一点细节的发现,其实就可以为授课团队未来的视频课程制作提供一定的改善思路:减少视频中以文字陈述形式展示的知识密度,考虑使用一些更加直观、可视化的图表或关键词、关键句等形式进行呈现。

当然,上边的这个实例只是一个小例子,发现其他视频片段中的后退拖拽(回看)操作的时点,或许还会带给授课讲师及教学团队带来其他角度的灵感:是不是这里出现了一个新的专有名词,但是前文并没有解释过?此处公式的推导或许缺少一些必要的步骤作为铺垫?又或者这里仅仅是讲师单纯出现了一个小的误读?

 


上文分享了3个MOOC平台的那些大数据分析及应用的故事,希望能够给新接触到MOOC及在线教育领域的朋友些许灵感。

在MOOC及在线教育平台们逐渐趋于同质化的大背景下,在打磨课程产品、策划教育产品营销推广的同时,如果MOOC平台们能够考虑到部分授课教师对于课程数据的深度需求的话,相信会有更多的教师愿意参进来,体验大数据能够为课程迭代所带来的潜在能力。

仅供参考。

以上,

Cedric

Comments are closed.