在论文的复现过程中,涉及到了大文件的读写操作,对于h5py不是很了解。在此做一个简单的笔记,记录下相关的知识和遇到的部分问题方便日后回看,主要参考如下博客,写的十分详细。
参考链接
具体概念
h5是HDF5文件格式的后缀,h5文件对于存储大量数据而言有较大的优势。
h5文件可以看成是dataset和group组成的层次数据结构,类似于Linux的文件系统。其中dataset是类似与数组组织形式的数据集合,内容多种多样:可以说图像,表格,pdf文件和excel;group是包含了其它 dataset(数组) 和 其它 group ,类似于字典,可以包含多个group和dataset。
问题描述
在代码复现的过程中,涉及到一个大文件的读取,本来只有二十行的文件操作,一直报memory error 的错误。之前对h5py的相关操作不是十分熟悉,没办法在每个dataset后进行续写的操作(虽然文件的打开有r+),现在仍然不会,如果有大佬知道的话,希望可以教我一下。
解决方法
我当时的数据集只需要在h5文件中创建两个dataset,因为我还是不会进行dataset的续写操作,每次报错也只是在第二个dataset时报错,所以我初步想法是在第一个dataset写完后,将其申请的内存空间进行释放,之后再重新申请内存空间进行下一个dataset的写入。
import gc#对申请的内存空间进行释放
del vectors#之前的变量
gc.collect()#确保一定会被删除
#在python中,说是会自动管理内存空间,但在某个占用较大空间的变量被删除时,内存占用并不总会立即被释放(具体原因不太清楚)
为了保险起见,还用了相关的库,进行程序占用内存空间的查询。
部分代码如下:
import psutil#查看程序当前占用的内存大小
import osinfo = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()
问题最终解决后的全部代码如下:
#-*- coding: utf-8 -*-
"""Convert raw GloVe word vector text file to h5."""
'''最终成功版:可以成功将txt转化为h5文件'''import h5py
import numpy as np
import psutil#查看程序当前占用的内存大小
import os
import gc#对申请的内存空间进行释放print('reading file...')
glove_vectors = [line.strip().split()for line in open('glove.840B.300d.txt', 'r')
]print('1...')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()#vocab = [line[0] for line in glove_vectors[:100]]
print('reading embedding...')
vectors = np.array([[float(val) for val in line[1:]] for line in glove_vectors]
).astype(np.float32)print('2...')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()#vocab = '\n'.join(vocab)
print('writting embedding...')
f = h5py.File('glove.840B.300d.h5', 'w')
f.create_dataset(data=vectors, name='embedding')
#f.create_dataset(data=vocab, name='words_flatten')
print('3...')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()f.close()print('delete embedding...')
del vectors
gc.collect()
print('4...delete后')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()print('reading flatten...')
f = h5py.File('glove.840B.300d.h5', 'r+')
vocab = [line[0] for line in glove_vectors]
vocab = '\n'.join(vocab)
print('4...')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()print('writting vector...')
f.create_dataset(data=vocab, name='words_flatten')
f.close()
print('5...')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()