当前位置: 代码迷 >> 高性能WEB开发 >> 数据采集器的大数据量算法求教,该怎么解决
  详细解决方案

数据采集器的大数据量算法求教,该怎么解决

热度:690   发布时间:2014-02-27 01:51:38.0
数据采集器的大数据量算法求教
项目中需要有200万个以上的数据采集器,这些数据采集器每8分钟会把采集到的数据提交出来,单次数据的量不大,大概在200个字节。但是因为并发数很大。不知道这样的要求,需要采用哪种技术或者架构来实现?今天刚好咨询一个有经验的前辈,他针对我的系统,建议我做缓存来处理这种大的并发数据,先将数据存在缓存里,然后单独开一个线程专门来处理缓存。
希望对你有帮助。200万个数据采集器,8分钟一次提交,也即每分钟大约要处理 25万次请求;每秒 TPS 为:4166

这个量级很高,恐怕要多服务器来处理。

如果网络比较有保障的话,可以考虑 UDP 协议(非可靠传输),但是会面临数据包丢失的风险。 

采集服务器可以将所接获数据包直接写到本地磁盘文件中,这样效率高又减少宕机导致数据大量丢失风险;然后再由专门服务器负责将各磁盘文件的批量导入到数据库中。
  相关解决方案