问题描述
我有一个表,其中包含200列,其中我需要列表中提到的约50列,以及根据“时间戳”列的最近24个月的行。
我很困惑mapper下的是什么,reduce下的是什么?
由于它只是转换,它仅具有映射器阶段,还是对reducer进行持续24个月的行过滤? 我不确定这是否完全利用了map-reduce的目的。
我正在将Python与hadoop流一起使用。
1楼
因此,您有一个表,该表包含200列(例如T),还有一个单独的条目列表(例如L),该表要从T中选择,最后24小时(从T中的时间戳记开始)。
MapReduce,映射器确实从T顺序给出条目。 在您的映射器进入map()之前,即setup()中的代码块从L读取并方便使用(使用可行的数据结构保存数据列表)。 现在,您的代码应包含两个检查/条件:1)T中的条目是否包含/与L匹配。如果是,则检查2)数据是否在24小时范围内。
完成。 您的输出是您所期望的。 不,在这里至少需要做减速器。
快乐减少地图。