当前位置:首页 > python > 正文内容

python csvw格式文件转parquet格式文件

root5年前 (2021-06-09)python2132

用到的包: pandas    pyarrow    

pandas pd

df pd.(,,)
df.()

要求csv文件 要有头行

一定要安装pyarrow  

pip install pyarrow  


读取 parquet文件

pyarrow.parquet pq
table pq.()
df table.()
bbdf.()
(bb)
(bb.())


head(10)获取前10行

然后在给转一下json格式


自定义数据

from fastparquet import write, ParquetFile
df = pd.DataFrame({"col1": [1,2,3,4], "col2": ["a","b","c","d"]})
df.to_csv("test_csv", index=False)
df_csv = pd.read_csv("test_csv")
df_csv.to_parquet("test_parquet", compression="GZIP")
df_parquet = ParquetFile("/tmp/test_parquet").to_pandas()
df_parquet.head()


https://stackoverflow.com/questions/54642089/python-pandas-to-convert-csv-to-parquet-using-fastparquet

https://blog.csdn.net/weixin_34390996/article/details/92760588

遇见的问题

解决方案

https://www.jianshu.com/p/be233bdb4dbf

https://blog.csdn.net/littlehaes/article/details/107157812



扫描二维码推送至手机访问。

版权声明:本文由一叶知秋发布,如需转载请注明出处。

本文链接:https://www.zhiqiu.top/?id=120

分享给朋友:

相关文章

python 连接rabbitmq出现的诡异进程盗取消息

python 连接rabbitmq出现的诡异进程盗取消息

本文在py2下执行,由来:    因业务需要,python创建子线程后再次创建子进程(用于执行shell命令)。没错就是在子线程里面创建子进程。都知道py2的坑还是蛮多的。问题出现:在某次运行中出现了...

自定义logger 模块使调用打印日志的文件为调用文件而不是logger模块

更新logging 源码1248行f f f.f_back替换为f f f.f_back     f_2 f.f_back   ...

python 的configparser 读取配置文件遇到%特殊符号

test.ini 配置文件中有mysql的密码,且密码含有“%”这个特殊符号因为%在py是转义符的含义需要对该字符转义即修改  %  为 %%用%对%进行转义...

python3.5.2版本不支持的语法格式

在使用geoip2的时候,运行被告知包中语法错误查看详情发现在python 3.5中不支持注释var类型如下语法 _buffer: Union[bytes, FileBuffer, "mma...

cmd启动python交互模式 出现UnicodeDecodeError: 'gbk' codec can't decode byte 0x9a in position 533

这是因为在python交互模式的中输出了中文,且是个输出被记录在.python_history中删除历史记录文件C:\Users\Administrator\.python_history...

python跟pip不是同一个版本的坑

python执行默认是Python2.7但是pip默认确实pip3的用pip install 安装包只会安装到python3环境里面指回pip vim /usr/local/bin/pip把 第一行的#!/usr/bin...