问题描述
Pandas和SQL的新手。 尚未找到特定于此配置的答案,也不确定将大熊猫引入混音时是否适用标准SQL知识。
做一个学校项目,涉及?6gb .csv块中约300 gb的数据。
学校建议通过Dropbox同步数据,但这对于4人团队来说似乎不切实际。
因此,当前的解决方案是AWS EC2和RDS实例(MySQL,我认为它将是1个表)。
在开始设置之前,我想确认的内容是:
如果多个用户正在使用(并偶尔修改)数据,这种安排是否可以管理冲突? 例如,如果用户A使用熊猫从查询中构建数据框,那么如果用户B尝试使用它们,该查询中的记录是否冻结?
我的假设是,框架中的数据位于内存中,SQL数据库中的记录可以由其他人自由修改,直到将数据框架写回到db为止,但是我希望我错了或者有这里有一个简单的解决方案(例如针对每个用户或某物的随机样本查询)。
1楼
pandas
DataFrame对象不直接与数据库交互。
一旦您将其读入,它便会本地存储在内存中。
您将必须使用DataFrame.to_sql
类的方法将DataFrame.to_sql
的更改写回到MySQL DB。
有关读取和写入SQL表的更多信息,请参见的pandas
文档。