男子摇了摇头,声音虚弱:“没事,可能是没吃早饭,有点低血糖。”
林夏从包里拿出一块巧克力,递给他:“先吃点这个垫垫肚子,前面就是四惠站,要不您先下车休息一下?”
男子接过巧克力,感激地说:“谢谢你啊,小姑娘。不用,我到国贸就下车,忍忍就过去了。”
林夏点点头,在数据采集终端上备注了“乘客身体不适,已提供帮助”,然后继续记录数据。她知道,作为数据采集师,不仅要准确记录客观数据,还要关注采集过程中的突发情况,这些“非结构化数据”有时比冰冷的数字更有价值。
本小章还未完,请点击下一页继续阅读后面精彩内容!
上午十点,林夏和小张完成了早高峰的采集工作,回到公交场站。两人坐在长椅上,一边吃着早餐,一边整理刚才记录的数据。“夏姐,你看这个数据,北苑站的早高峰上车人数比上周多了20%,可能是因为附近的写字楼新开了几家公司。”小张指着终端上的数据说。
林夏凑过去看了一眼,点头道:“有道理。还有,四惠站的下车人数减少了15%,可能是因为地铁八通线加开了班次,很多乘客转乘地铁了。这些异常数据都需要标注出来,在分析报告里说明原因。”
下午五点,两人又登上了801路公交,开始晚高峰的采集工作。晚高峰的客流量比早高峰更大,车厢里几乎没有立足之地。林夏的衣服被汗水浸湿,贴在背上,手里的设备终端因为频繁使用,机身也变得有些发烫。她一边记录数据,一边留意着身边的乘客——有抱着孩子的母亲,有提着公文包的上班族,有戴着耳机的年轻人,每个人的脸上都带着疲惫,却又在为生活奔波。
晚上八点,林夏和小张终于完成了一天的采集工作。回到公司,他们将数据导入电脑系统,开始进行初步的清洗和整理。数据采集师的工作,采集只是第一步,后续的清洗、核验、分析才是更关键的环节。林夏盯着屏幕上密密麻麻的数据,逐行检查是否有错误或遗漏——比如把“上车人数”录成“下车人数”,把“青少年”误标成“成年”,这些微小的错误,都可能影响最终的分析结果。
“夏姐,你看这条数据,国贸站的下车人数是120人,但车厢容量只有80人,这明显有问题。”小张指着屏幕说。
林夏皱起眉头,仔细看了看数据记录时间——晚上七点十五分,正是晚高峰最拥堵的时候。“可能是因为有些乘客在国贸站挤下车后,又有新的乘客上车,我们重复记录了。”林夏说,“把这条数据标红,明天去公交场站调取监控,核实一下实际的下车人数。”
小张点点头,在数据旁边标注了“待核实”。林夏揉了揉眼睛,感觉眼皮越来越重。她起身去茶水间冲了杯咖啡,回来时发现老周还在办公室。“数据整理得怎么样了?”老周问。
“大部分数据都没问题,只有一条异常数据,需要明天核实。”林夏回答。
老周点点头:“辛苦你们了。总部那边催着要分析报告,后天早上就要,你们明天加把劲,争取按时完成。”