Pandas是python的数据分析包,软件可以帮助程序员在开发的过程中优化代码构建的速度,让您的程序变得更加简单,操作的流程更加快捷;现在,Pandas已经运用于大型的金融程序开发,在Python代码中广泛应用,其开发的速度非常快,只需要您专注于应用程序的一个功能,就可以创建一个更快的专业工具,轻松处理python中的数据和缺失的代码。
软件功能
pandas 是一个提供快速,灵活和表达性数据的Python包结构设计使结构化(表格,多维,潜在异质)和时间序列数据都很容易和直观。
它旨在成为实践中的基本高层建筑,真实世界在Python中的数据分析。此外,它有更广泛的目标成为最强大灵活的开源数据分析/操作工具可用任何语言。它已经很好的路上实现这一目标。
pandas非常适合许多不同类型的数据:
- 带有异构类型列的表格数据,如SQL表或Excel电子表格
- 有序和无序(不一定是固定频率)时间序列数据。
- 任意矩阵数据(均匀类型或异质)与行和列标签
- 任何其他形式的观测/统计数据集。数据实际上不需要被标记以被放置到熊猫数据结构中
一个快速有效的DataFrame对象,用于集成索引的数据操作;
用于在内存中数据结构和不同格式之间读取和写入数据的工具:CSV和文本文件,Microsoft Excel,SQL数据库和快速HDF5格式;
智能数据对齐和缺失数据的集成处理:在计算中获得自动的基于标签的对齐,并且容易地将乱序数据处理成有序的形式;
数据集的灵活重塑和枢转;
智能基于标签的切片,花哨的索引和子集 的大型数据集;
列可以插入和删除数据结构的大小可变性 ;
使用强大的组通过引擎聚合或转换数据,允许对数据集进行拆分应用组合操作;
高性能合并和连接数据集;
软件特色
轻松处理浮点数据以及非浮点数据中缺失的数据(表示为NaN)
大小可变性:可以从DataFrame和更高维度的对象中插入和删除列
自动和显式数据对齐:对象可以显式地对齐到一组标签,或者用户可以简单地忽略标签,让Series,DataFrame等在计算中自动对齐数据
强大,灵活的分组功能,对数据集执行拆分应用组合操作,用于聚合和转换数据
使其可以轻松地将其他Python和NumPy数据结构中不规则,不同索引的数据转换为DataFrame对象
智能基于标签的切片,花哨的索引和子集 的大型数据集
直观合并和连接数据集
数据集的灵活重塑和枢转
轴的分层标签(每个标记可能有多个标签)
强大的IO工具,用于从平面文件(CSV和分隔),Excel文件,数据库加载数据,以及从超快HDF5格式保存/加载数据
时间序列特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期移动和滞后等。
使用方法
dtype数据IO的关键字
用于指定解析列类型dtype的read_csv()函数中的关键字参数现在支持'python'引擎(GH14295)。有关详细信息,请参阅io docs。
该dtype关键字参数现在还支持在read_fwf()功能解析固定宽度的文本文件,并read_excel()解析Excel文件。
Groupby增强
DataFrame.groupby()作为参数传递的字符串by现在可以引用列名称或索引级别名称(GH5677)
更好地支持压缩的URLread_csv
重构压缩代码(GH12688)。其结果,从在URL中读取dataframes read_csv()或read_table()现在支持额外的压缩方法:xz,bz2,和zip(GH14570)。以前,仅gzip支持压缩。默认情况下,URL和路径的压缩现在都是使用其文件扩展名推断的。此外,支持bz2压缩在python 2 c引擎改进(GH14874)。
UInt64支持改进
Pandas已经显着改进了对涉及无符号或纯非负整数的操作的支持。以前,处理这些整数将导致不适当的舍入或数据类型转换,导致不正确的结果。值得注意的是,UInt64Index已创建了一个新的数字索引(,GH14937)
GroupBy对分类
在以前的版本中,如果对分类序列进行分组时某些类别未显示在数据中,则会失败。(GH13179).groupby(...,sort=False)ValueError
更新日志
改进的性能pd.wide_to_long()(GH14779)
增加性能pd.factorize()通过释放与GIL object时作为字符串DTYPE推断(GH14859)
改进了使用不规则的DatetimeIndex(或with compat_x=True)(GH15073)绘制的时间序列的性能。
改进的性能groupby().cummin()和groupby().cummax()(GH15048,GH15109)
改进的性能和减少的内存索引与MultiIndex(GH15245)
当在read_sas()没有指定格式的方法中读取缓冲区对象时,推断文件路径字符串而不是缓冲区对象。(GH14947)
改进rank()对分类数据的性能(GH15498)