如何划分map-reduce任务？_python

我有一个表，其中包含200列，其中我需要列表中提到的约50列，以及根据“时间戳”列的最近24个月的行。

我很困惑mapper下的是什么，reduce下的是什么？

由于它只是转换，它仅具有映射器阶段，还是对reducer进行持续24个月的行过滤？ 我不确定这是否完全利用了map-reduce的目的。

我正在将Python与hadoop流一起使用。

因此，您有一个表，该表包含200列（例如T），还有一个单独的条目列表（例如L），该表要从T中选择，最后24小时（从T中的时间戳记开始）。

MapReduce，映射器确实从T顺序给出条目。 在您的映射器进入map（）之前，即setup（）中的代码块从L读取并方便使用（使用可行的数据结构保存数据列表）。 现在，您的代码应包含两个检查/条件：1）T中的条目是否包含/与L匹配。如果是，则检查2）数据是否在24小时范围内。

完成。 您的输出是您所期望的。 不，在这里至少需要做减速器。

快乐减少地图。

如何划分map-reduce任务？

问题描述

1楼