数据采集器的大数据量算法求教,该怎么解决 _高性能WEB开发

数据采集器的大数据量算法求教
项目中需要有200万个以上的数据采集器，这些数据采集器每8分钟会把采集到的数据提交出来，单次数据的量不大，大概在200个字节。但是因为并发数很大。不知道这样的要求，需要采用哪种技术或者架构来实现？今天刚好咨询一个有经验的前辈，他针对我的系统，建议我做缓存来处理这种大的并发数据，先将数据存在缓存里，然后单独开一个线程专门来处理缓存。
希望对你有帮助。200万个数据采集器，8分钟一次提交，也即每分钟大约要处理 25万次请求；每秒 TPS 为：4166

这个量级很高，恐怕要多服务器来处理。

如果网络比较有保障的话，可以考虑 UDP 协议（非可靠传输），但是会面临数据包丢失的风险。

采集服务器可以将所接获数据包直接写到本地磁盘文件中，这样效率高又减少宕机导致数据大量丢失风险；然后再由专门服务器负责将各磁盘文件的批量导入到数据库中。