HDF5——h5文件的概念和部分python读取操作_综合

在论文的复现过程中，涉及到了大文件的读写操作，对于h5py不是很了解。在此做一个简单的笔记，记录下相关的知识和遇到的部分问题方便日后回看，主要参考如下博客，写的十分详细。
参考链接

具体概念

h5是HDF5文件格式的后缀，h5文件对于存储大量数据而言有较大的优势。
h5文件可以看成是dataset和group组成的层次数据结构，类似于Linux的文件系统。其中dataset是类似与数组组织形式的数据集合，内容多种多样：可以说图像，表格，pdf文件和excel；group是包含了其它 dataset(数组) 和其它 group ，类似于字典，可以包含多个group和dataset。
在这里插入图片描述

问题描述

在代码复现的过程中，涉及到一个大文件的读取，本来只有二十行的文件操作，一直报memory error 的错误。之前对h5py的相关操作不是十分熟悉，没办法在每个dataset后进行续写的操作(虽然文件的打开有r+)，现在仍然不会，如果有大佬知道的话，希望可以教我一下。

解决方法

我当时的数据集只需要在h5文件中创建两个dataset，因为我还是不会进行dataset的续写操作，每次报错也只是在第二个dataset时报错，所以我初步想法是在第一个dataset写完后，将其申请的内存空间进行释放，之后再重新申请内存空间进行下一个dataset的写入。

import gc#对申请的内存空间进行释放
del vectors#之前的变量
gc.collect()#确保一定会被删除
#在python中，说是会自动管理内存空间，但在某个占用较大空间的变量被删除时，内存占用并不总会立即被释放（具体原因不太清楚）

为了保险起见，还用了相关的库，进行程序占用内存空间的查询。
部分代码如下：

import psutil#查看程序当前占用的内存大小
import osinfo = psutil.virtual_memory()
print u'内存使用：',psutil.Process(os.getpid()).memory_info().rss
print u'总内存：',info.total
print u'内存占比：',info.percent
print u'cpu个数：',psutil.cpu_count()

问题最终解决后的全部代码如下：

#-*- coding: utf-8 -*-
"""Convert raw GloVe word vector text file to h5."""
'''最终成功版：可以成功将txt转化为h5文件'''import h5py
import numpy as np
import psutil#查看程序当前占用的内存大小
import os
import gc#对申请的内存空间进行释放print('reading file...')
glove_vectors = [line.strip().split()for line in open('glove.840B.300d.txt', 'r')
]print('1...')
info = psutil.virtual_memory()
print u'内存使用：',psutil.Process(os.getpid()).memory_info().rss
print u'总内存：',info.total
print u'内存占比：',info.percent
print u'cpu个数：',psutil.cpu_count()#vocab = [line[0] for line in glove_vectors[:100]]
print('reading embedding...')
vectors = np.array([[float(val) for val in line[1:]] for line in glove_vectors]
).astype(np.float32)print('2...')
info = psutil.virtual_memory()
print u'内存使用：',psutil.Process(os.getpid()).memory_info().rss
print u'总内存：',info.total
print u'内存占比：',info.percent
print u'cpu个数：',psutil.cpu_count()#vocab = '\n'.join(vocab)
print('writting embedding...')
f = h5py.File('glove.840B.300d.h5', 'w')
f.create_dataset(data=vectors, name='embedding')
#f.create_dataset(data=vocab, name='words_flatten')
print('3...')
info = psutil.virtual_memory()
print u'内存使用：',psutil.Process(os.getpid()).memory_info().rss
print u'总内存：',info.total
print u'内存占比：',info.percent
print u'cpu个数：',psutil.cpu_count()f.close()print('delete embedding...')
del vectors
gc.collect()
print('4...delete后')
info = psutil.virtual_memory()
print u'内存使用：',psutil.Process(os.getpid()).memory_info().rss
print u'总内存：',info.total
print u'内存占比：',info.percent
print u'cpu个数：',psutil.cpu_count()print('reading flatten...')
f = h5py.File('glove.840B.300d.h5', 'r+')
vocab = [line[0] for line in glove_vectors]
vocab = '\n'.join(vocab)
print('4...')
info = psutil.virtual_memory()
print u'内存使用：',psutil.Process(os.getpid()).memory_info().rss
print u'总内存：',info.total
print u'内存占比：',info.percent
print u'cpu个数：',psutil.cpu_count()print('writting vector...')
f.create_dataset(data=vocab, name='words_flatten')
f.close()
print('5...')
info = psutil.virtual_memory()
print u'内存使用：',psutil.Process(os.getpid()).memory_info().rss
print u'总内存：',info.total
print u'内存占比：',info.percent
print u'cpu个数：',psutil.cpu_count()