几千万行的数据,如何查询重复次数的效率最高呢?

问答 2070号炼丹师
Lv1 居士
发布在 Pandas   170   1
问答 2070号炼丹师   170   1

几千万行的数据,如何查询重复次数的效率最高呢?

我有一个2G大小的csv文件a,有几千万行数据,每一行又有十多列,每个单元格都是字符串的数据,还有另一个几万行的文件b,列数和文件a一样,单元格也都是字符串数据。

我想查询文件b里每一整行在文件a中重复出现了多少次,请问要用什么方式处理能把效率提升起来呢?

版权声明:作者保留权利,不代表意本站立场。如需转载请联系本站以及作者。

参与讨论

回复《 几千万行的数据,如何查询重复次数的效率最高呢?

EditorJs 编辑器

沙发,很寂寞~
反馈
to-top--btn