Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

A receita federal mudou completamento o layout dos arquivos #26

Open
buzios opened this issue Mar 20, 2021 · 222 comments
Open

A receita federal mudou completamento o layout dos arquivos #26

buzios opened this issue Mar 20, 2021 · 222 comments

Comments

@buzios
Copy link

buzios commented Mar 20, 2021

A receita federal mudou completamente o layout dos arquivos e tambem a pagina de download.
O novo link: https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cnpj
Embora o novo layout indique que existe informacao de simples/mei, os arquivos disponibilizados nao tem simples/mei.
Um dos arquivos ( DADOS_CNPJ_EMPRESAS_1.zip ) esta incompleto.
O good news é que os arquivos agora estao em formato csv.

@csidjalma
Copy link

Olá buzios,
Obrigado pelo lembrete !!

@danillorocha10
Copy link

Olá a todos! Nota que realmente os arquivos dados_cnpj_empresas_* (todos) todos estão sem o campo CNPJ corretamente validado, ou seja, não há o vínculo com o nome fantasia, e dados das empresas, com as entidades. Esse Bug vai ser complicado. rs. Caso necessitem de auxílio, á disposição!

@csidjalma
Copy link

csidjalma commented Apr 5, 2021 via email

@danillorocha10
Copy link

realmente @csidjalma , o @buzios tem razão. Está totalmente incompleto, a tabela do simples não veio, está impossível de gerar com confiabilidade. O que eu sugeriria é: Para quem também tem acesso ao e-CAC com Certificado Digital, abrir o máximo de chamados na RFB, para solicitar a correção. Desta forma está impossível tratar os dados.

@buzios
Copy link
Author

buzios commented Apr 5, 2021

A RF liberou hoje a tarde um novo release de dados de CNPJ.
Os nomes dos arquivos mudaram e agora tem um arquivo de SIMPLES.
Alguns links estao errados com href="http://http//"

@danillorocha10
Copy link

Vários links quebrados... Algum dos amigos aqui conseguiu baixar para ver se corrigiram a questão do vinculo da empresa com estabelecimento?

@csidjalma
Copy link

csidjalma commented Apr 5, 2021

Olá @buzios tudo bom!!
por favor, vc conseguiu o arquivo do SIMPLES de onde??
Eu não estou conseguindo baixar daqui:
http://200.152.38.155/CNPJ/F.K03200\$W.SIMPLES.CSV.D10313.zip

@danillorocha10
Copy link

bom dia @buzios e @csidjalma ! Buzios, não consegui baixar o arquivo do SIMPLES. Você o conseguiu onde? Obrigado. CSIDjalma, conseguiu ver se há o vínculo agora da entidade e empresas? não estou conseguindo também baixar os arquivos, mas é realmente por problemas de conexão aqui do nosso servidor.. Obrigado e bom dia a todos!

@buzios
Copy link
Author

buzios commented Apr 6, 2021

Baixei todos os arquivos e gerei o banco de dados.
Para o simples o link é http://200.152.38.155/CNPJ/F.K03200$W.SIMPLES.CSV.D10313.zip

Desta vez todos os ZIPs estao integros e tem o CSV de simples/mei.

Nao entendi o problema de vinculo de entedidade e empresa, é o cnpj_basico.
Entdiades sao as filiais cnpj_basico/0001-DV, cnpj_basico/0002-DV ..

O problema é que os dados continuam errados.
Ha 2.776.341 nome de socio em branco
Ha socios de uma mesma empresa com CNPJ/CPF diferentes porem com o mesmo nome.

Acho que teremos que aguardar o proximo release.

@danillorocha10
Copy link

Olá @buzios ! O problema do vínculo estava na publicação inicial do dia 16/03 da RFb, estava sem o campo do vínculo na entidade (foi corrigido). Você conseguiu gerar o sql? poderia disponibilzar?

@souzagilson15
Copy link

ATENÇÃO.

Além desses problemas, nos arquivos extraídos em 16/03/2021 os nomes dos sócios estão totalmente errados. Conferi vários usando a Emissão de Comprovante de Inscrição e de Situação Cadastral da própria receita.

Para tentar agilizar a solução abri chamado na https://falabr.cgu.gov.br/Principal.aspx já tive outros casos onde eles responderam bem rápido.

Se vocês puderem abrir chamado lá também talvez ajude a notar o problema.

@paulo3011
Copy link

O banco que eu gerei com os zips de 31/3/2021
O zip tem 6.3 GB

https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_210331.db.zip
https://mobisell-assets.s3.amazonaws.com/CNPJ_publico/cnpj_210331.db.md5

boa tarde, baixei esta versão da base e não encontrei as tabelas complementares como a de cnea, como estão fazendo com estas tabelas, já existe alguma base em sql lite delas tb?

@danillorocha10
Copy link

@souzagilson15 abri a solicitação. fiz o teste com minha empresa, aparecem 2 pessoas totalmente erroneas. Se todos fizermos, eles irão corrigir
@paulo3011 , não há tabelas de cnae secundário. Estão em um campo (cnae_sec) na tab estabelecimentos, separados por vírgula.

@paulo3011
Copy link

@souzagilson15 abri a solicitação. fiz o teste com minha empresa, aparecem 2 pessoas totalmente erroneas. Se todos fizermos, eles irão corrigir
@paulo3011 , não há tabelas de cnae secundário. Estão em um campo (cnae_sec) na tab estabelecimentos, separados por vírgula.

Talvez não tenha explicado direito, minha dúvida é se já estão extraindo os dados cadastrais de cnea do site do ibge e outras tabelas complementares e gerando arquivos em formato do sql lite. Quero por exemplo fazer um join entre os dados da empresa para saber os nomes, descrições dos cneas e demais dados cadastrais

@danillorocha10
Copy link

baixa ai: https://www.linhaprodutiva.com.br/tab_cnae.sql

@souzagilson15
Copy link

@souzagilson15 abri a solicitação. fiz o teste com minha empresa, aparecem 2 pessoas totalmente erroneas. Se todos fizermos, eles irão corrigir
@paulo3011 , não há tabelas de cnae secundário. Estão em um campo (cnae_sec) na tab estabelecimentos, separados por vírgula.

Muito bom! @paulo3011

Meu chamado está aberto desde 31/03, nesse dia o arquivo disponível já era o layout novo e já tinha esses erros.

@paulo3011
Copy link

ATENÇÃO.

Além desses problemas, nos arquivos extraídos em 16/03/2021 os nomes dos sócios estão totalmente errados. Conferi vários usando a Emissão de Comprovante de Inscrição e de Situação Cadastral da própria receita.

Para tentar agilizar a solução abri chamado na https://falabr.cgu.gov.br/Principal.aspx já tive outros casos onde eles responderam bem rápido.

Se vocês puderem abrir chamado lá também talvez ajude a notar o problema.

Como abriu o chamado, tentei abrir e não encontrei para quem enviar a e qual o meio correto, teria que registrar uma manifestação? Se sim para qual orgão? Tentei neste link https://falabr.cgu.gov.br/publico/Manifestacao/RegistrarManifestacao.aspx?idFormulario=3&tipo=8&origem=idp&modo=

tb encontrei alguns registros de sócios sem nome.

@csidjalma
Copy link

olá pessoal... os links da Receita estão quebrados...
empresa2 - http://http//200.152.38.155/CNPJ/K3241.K03200Y1.D10313.EMPRECSV.zip
empresa3 - http://http//200.152.38.155/CNPJ/K3241.K03200Y2.D10313.EMPRECSV.zip
restante não testei mais... alguém esta tendo esse problema?

@buzios , os links que vc disponibilizou acima são dessa atualização de 05/04/2021?

@algoz098
Copy link

É so voce remover esses http// que o link funciona

@csidjalma
Copy link

É so voce remover esses http// que o link funciona

Puxa!! verdade @algoz098 obrigado por me mostrar o que está tão obvio. eu copiei o link da pagina da receita e não tinha percebido o erro.

@algoz098
Copy link

Sem problemas estou tentando fazer um parser para mongo, em nodejs, e essas inconsistencias de um arquivo tão importante. Me pergunto se é questão de falar com um advogado para fazer um processo contra a RFB

@thiagosilvakognita
Copy link

Parece que agora estão fazendo algum tipo de atualização no sistema, vamos aguardar pra que sejam as correções!

@ricardoambrico
Copy link

ricardoambrico commented Apr 19, 2021 via email

@csidjalma
Copy link

csidjalma commented Apr 19, 2021 via email

@buzios
Copy link
Author

buzios commented Apr 19, 2021

olá Márcio, obrigado pelo arquivo... deixa eu te perguntar vc conseguiu baixar esse arquivo: http://200.152.38.155/CNPJ/K3241.K03200Y8.D10313.ESTABELE.zip pra mim esta dando que ele esta corrompido e não baixa...

Eu baixei e "unzipei" todos os arquivos sem nenhum problema.

Tive alguns problemas de integrigade (uns 15 erros de constraint) porem o grande problema continua sendo a tabela de socios.

Alem de 2.104 socios com nome em branco tem um monte de nome errado.
Exemplos:
CNPJ 38338022000139 com 5 socioes empresa com CNPJs distinto e o mesmo nome.
CNPJ 39258509000174 com 25 repeticoes

@csidjalma
Copy link

csidjalma commented Apr 19, 2021 via email

@buzios
Copy link
Author

buzios commented Apr 20, 2021

Oi Dijalma, eu peguei os links para download direto na maquina 200.152.38.155
http://200.152.38.155/CNPJ/

E como comentei não tive problemas.

@buzios
Copy link
Author

buzios commented Apr 20, 2021

Problemas na tabela de socios de 10/4/21

Ha 20.333.422 registros na tabela sendo 405.000 socios PJ

393.756 socios PJ estao com o nome (razao social no caso) ERRADO.

@csidjalma
Copy link

csidjalma commented Apr 20, 2021 via email

@danillorocha10
Copy link

Olá a todos. A receita está atualizando ainda os dados. Houve outra atualização hoje as 10h37, pela qual no download, não notei correção ainda dos sócios. Acho que eles estão precisando de ajuda! Muito instável.

@tirabassi
Copy link

tirabassi commented Nov 26, 2022

Estou com problemas ao abrir o arquivo empresas9, parece estar corrompido, mais alguém?

image

@danillorocha10
Copy link

danillorocha10 commented Nov 26, 2022 via email

@andreneves
Copy link

andreneves commented Nov 26, 2022 via email

@tirabassi
Copy link

Eu não consegui abrir o empresas9 e o estabelcimentos5.
@andreneves poderia compartilhar o seu empresas9 por favor?

@andreneves
Copy link

andreneves commented Nov 27, 2022 via email

@avvad1967
Copy link

Boa tarde a todos!

Abri um Fala.BR agora. Baixei os arquivos na sexta passada mas os arquivos Empresas9.zip, Estabelecimentos1.zip e Estabelecimentos5.zip estão dando erro (Fim inesperado dos dados) e com tamanho bem menor do que normalmente possuem.

Vamos aguardar...

Abcs,
Elias

@avvad1967
Copy link

Boa tarde!

Acabei de baixar novamente os 3 arquivos com problema e agora estão Ok. Parece que a Receita atualizou os arquivos ontem a tarde.

Abcs

@w3sistemas
Copy link

Boa tarde!

Acabei de baixar novamente os 3 arquivos com problema e agora estão Ok. Parece que a Receita atualizou os arquivos ontem a tarde.

Abcs

De onde esta baixando as bases ?

@avvad1967
Copy link

Se vc der uma olhada nos posts anteriores, tem várias referências para os links dos arquivos...

Os arquivos estão em http://200.152.38.155/CNPJ/

Os arquivos são EmpresasX.zip, SociosX.zip, EstabelecimentosX.zip) (X variando de 0 a 9)
e
Cnaes.zip
Motivos.zip
Municipios.zip
Naturezas.zip
Paises.zip
Qualificacoes.zip
Simples.zip

Abcs

@Leandro-nDomingos
Copy link

Pessoal vocês poderia me ajudar, por gentileza fiz download das planilhas e preciso chamar apenas os MEIS, mas nas planilhas não vem nada relacionado como no Layout vocês puderem me dar uma luz fico muito agradecido

@andreneves
Copy link

andreneves commented Dec 27, 2022 via email

@Leandro-nDomingos
Copy link

Obrigado! os arquivos estão corrompidos

@HalleyPereira
Copy link

Olá colegas, estou terminando uma pesquisa na área de Políticas Públicas, em que utilizo a Base de Dados Púlicos de CNPJs da Receita Federal (BDPJ) para tentar captar algum efeito da Reforma Trabalhista de 2017 na vida das empresas do país, principalmente pequenos negócios. Estou postando aqui o Resumo da pesquisa, objetivos e conclusão com os principais resultados, para apreciação dos colegas... Qualquer observação ou críticas serão muito bem-vindas... Caso queiram ver o material completo, me solicitem por e-mail que enviarei....
[email protected]


Impacto da Reforma Trabalhista de 2017 na Criação, Mortalidade e Desenvolvimento das Micro e Pequenas Empresas.

RESUMO

Existe grande discussão em torno das reformas que flexibilizam a proteção dos trabalhadores, isso porque, ao mesmo tempo em que elas reduzem os custos imediatos das empresas com seus empregados, o que possibilitaria maiores investimentos e contratações, elas também encolhem a renda do trabalhador, reduzindo o consumo, o que geraria retração econômica, anulando, dessa forma, aqueles primeiros benefícios dados às empresas. O debate, portanto, se resume em se os eventuais benefícios concedidos às empresas com essa maior flexibilização compensam a redução da renda e/ou precarização do trabalho. O foco dessa pesquisa está nas Micro e Pequenas Empresas (MPEs), e busca contribuir para o debate em questão ao fazer uma análise nos dados públicos de CNPJs disponibilizados pela Receita Federal (DBPJ), verificando se após a Reforma Trabalhista Brasileira de 2017 (RTB) houve alterações nos volumes de criação, mortalidade e desenvolvimento das MPEs do país. Os resultados mostraram que após a RTB, houve aumentos significativos no volume de Microempreendedores Individuais que se tornaram Microempresas. Não foi possível verificar efeitos positivos ou negativos da RTB sobre a criação e sobrevivência das MPEs.

QUESTÃO E OBJETIVOS DE PESQUISA

A questão que norteia este trabalho é: “a Reforma Trabalhista Brasileira de 2017 (RTB) produziu alguma alteração nos volumes de criação, desativação e crescimento das Micro e Pequenas Empresas (MPEs) do Brasil?”. O principal objetivo dessa pesquisa, portanto, é analisar os dados da DBPJ para verificar os volumes de criação, inatividade e desenvolvimento de MPEs, no período que vai de 2000 a 2021, no intuito de captar efeitos à mudança da lei. Este objetivo central se divide em dois objetivos mais específicos: (i) analisar a criação e desativação de pessoas jurídicas nos anos anteriores e posteriores à RTB; e (ii) analisar entrada e saída de pessoas jurídicas, tanto do regime do Simples Nacional, quanto de Microempreendedor Individual.

CONSIDERAÇÕES FINAIS

Neste trabalho procuramos analisar o efeito da Reforma Trabalhista Brasileira de 2017 (RTB) na dinâmica de criação, mortalidade e crescimento das Micro e Pequenas Empresas (MPEs) do país. Essa análise foi realizada empiricamente por meio da Base de Dados Públicos de Pessoas Jurídicas da Receita Federal (BDPJ), abrangendo todas as empresas criadas nos anos de 2000 a 2021.

Por meio dos saldos referentes à entrada e saída do programa do Simples Nacional, foi possível constatar que após a RTB, houve um aumento no volume de empresas aderindo ao Simples Nacional. A BDPJ também mostra que 82,06% das empresas que aderem ao Simples, são de novos negócios. Levando isso em consideração, podemos afirmar que, após a reforma trabalhista, houve um crescimento no empreendedorismo. Apesar desse maior empreendedorismo ter sido carregado principalmente por Microempreendedores Individuais (MEIs) (o que poderia ser uma evidência de empreendedorismo por necessidade), constatamos que houveram também aumentos significativos nos saldos de criação de Microempresas ou Empresas de Pequeno Porte, o que pode ser uma evidência de empreendedorismo de oportunidade.

Verificou-se também que após a RTB houve um aumento no número de MEIs que evoluíram para uma Microempresa. Se considerarmos que essa evolução se deu, ou porque o micro empreendimento ultrapassou seu faturamento anual de 81 mil reais, ou porque teve a necessidade de contratar mais de 1 funcionário, poderemos afirmar que isto é uma evidência de que, após a reforma, mais MEIs tiveram algum crescimento das operações do seu negócio. A principal hipótese é que este crescimento se deu principalmente devido à maior flexibilização ou redução nos custos trabalhistas ocasionado pela RTB, o que possibilitou a este MEIs a contratação de mais de 1 funcionário, tendo, portanto, de alterarem o seu regime jurídico para uma Microempresa.

Quanto ao efeito da RTB sobre a criação e mortalidade das MPEs, não foi possível chegar a qualquer conclusão quanto a este ponto. É possível perceber que após a RTB houve um progressivo aumento no volume de criação de PJs, porém as oscilações nos volumes de desativações eliminaram qualquer linha de tendência nos saldos de criação, de forma que não há segurança para afirmar que, após a RTB, existe algum efeito positivo ou negativo para a dinâmica demográfica das MPEs.

Como limitação dessa pesquisa, destacamos os ruídos nos dados produzidos pelas crises econômicas nos anos de 2020 a 2022, principalmente a pandemia de Covid-19, a qual teve forte impacto na criação e sobrevivência dos pequenos negócios, enviesando os resultados nestes anos.

Destacamos também o fato de que a BDPJ se mostrou inconsistente em aspectos importantes e necessários para a pesquisa, como por exemplo, a variável ‘Porte’, que não registrou de maneira adequada o porte das empresas cadastradas. Ao mesmo tempo, a BDPJ não traz informações importantes como o faturamento das empresas e a quantidade de funcionários.

Outro ponto é que, o fato de as observações da base de dados estarem em Cross Section, nos impossibilita de acompanhar uma mesma empresa ao longo do tempo. Se fosse possível fazer este acompanhamento, estando os dados, portanto, em painel, poderíamos, por exemplo, obter o número médio de filiais em cada ano, de forma a verificarmos se o comportamento da média dessa variável altera a partir da RTB.

@marlon33
Copy link

Opa, bom dia, me juntando hj aqui, eu fiz o download dos arquivos pelo link (http://200.152.38.155/CNPJ/) e utilizando o python + mysql subi os dados, código funcionando perfeitamente, porém quando fui procurar o meu proprio CNPJ não foi encontrado então fui em outros sites a procura como por exemplo https://cnpj.biz e https://cnpj.info e encontrei o meu cnpj lá, e vi em um dos sites um banner com a seguinte informação +54 milhões de cnpj, a minha base so possui 46.954.999 a mesma quantidade que tem nos arquivos 46.954.999
image
image

alguém percebeu essa divergencia?

@rictom
Copy link

rictom commented Jan 29, 2023

Oi @marlon33,

Eu conferi o tamanho do arquivo K3241.K03200Y0.D30114.EMPRECSV, ele tem 11.890.351 linhas, enquanto que no seu console apareceu quase a metade, 6 milhões e pouco.
Sem saber o código da sua rotina csv_to_sql.py fica difícil saber o que aconteceu.
Fiquei curioso... A rotina é rápida assim mesmo? Leva alguns segundos para carregar cada uma dessas tabelas??

@paulo3011
Copy link

paulo3011 commented Feb 2, 2023

@marlon33 sugestão, da uma olhada nos totais por esse site:
https://www.gov.br/empresas-e-negocios/pt-br/mapa-de-empresas/painel-mapa-de-empresas
image

@dmoliveira
Copy link

dmoliveira commented Feb 5, 2023

Olá pessoal. Eu estou muito agradecido pelas dicas que vocês estão fornecendo na thread. Eu fiz uma pesquisa nos dados e consegui coletá-los todos ("http://200.152.38.155/CNPJ/"). No entanto, tenho algumas dúvidas:

Pergunta 1: Esses dados lançados mês a mês incluiriam todo o histórico ou update para empresas, estabelecimentos e sócios?
Pergunta 2: Alguém sabe por que o número de estabelecimentos nos dados não coincide com o Mapa de Empresas?

Contexto:

Nos dados de dezembro do CNPJ, calculei apenas 7,5 milhões estabelicimentos ativos. Posso afirmar que no estabelecimento nao se inclui MEI e por isso o numero eh menor?

Incluindo esse filtro o valor de estabelecimentos ativos chega proximo do mapa de empresas para a metrica de 'total de matrizes ativas' como demonstrado na figura abaixo.

image

Alguém poderia me esclarecer essas dúvidas? Ficarei muito grato!

@rictom
Copy link

rictom commented Feb 5, 2023

Oi @dmoliveira,

As tabelas estabelecimento, empresas e socios representam a situação no mês de referência. Nâo há update incremental ou histórico.
Vc teria que detalhar essa quantidade de 7,5 milhões de estabelecimentos ativos que vc informou. Tem algum filtro?
Não sei se compreendi bem... Na sua tabela estabelecimentos tem apenas 7,5 milhões de registros?
O total de estabelecimentos ativos (que contam matrizes e filiais de empresas) são cerca de 22 milhões. Na tabela estabelecimentos tem mais de 54 milhões de registros (nesta conta incluindo as empresas nulas, ativas, suspensas, inaptas ou baixadas).
A informação se o estabelecimento é MEI ou não é uma coluna que está na tabela SIMPLES. A tabela estabelecimento tem os registros de cnpjs que são MEI ou não.

@dmoliveira
Copy link

Oi @rictom. Agradeço pelas informações!
1- Compreendi que se trata de uma espelho do momento e que deve conter todas as empresas e seus estabelecimentos completamente.
2- Apliquei apenas um filtro para listar estabelecimentos com situação cadastral 'ATIVA', reduzindo o total de 22 milhões para 7,5 milhões.

[SOLVED] Após revisão, percebi que o arquivo tinha uma linha danificada, causando o interrupção do processo sem apresentar erros. Graças à sua sugestão, consegui importar todos os 54 milhões de registros, ajustando a forma de tratamento de erros. Muito obrigado!

@HalleyPereira
Copy link

Oi @rictom. Agradeço pelas informações! 1- Compreendi que se trata de uma espelho do momento e que deve conter todas as empresas e seus estabelecimentos completamente. 2- Apliquei apenas um filtro para listar estabelecimentos com situação cadastral 'ATIVA', reduzindo o total de 22 milhões para 7,5 milhões.

[SOLVED] Após revisão, percebi que o arquivo tinha uma linha danificada, causando o interrupção do processo sem apresentar erros. Graças à sua sugestão, consegui importar todos os 54 milhões de registros, ajustando a forma de tratamento de erros. Muito obrigado!

Olá dmoliveira

Estou com o mesmo problema que vc reportou. Minha tabela Estabelecimentos vem com cerca de 22 milhões de PJs.

1- Como conseguiu ver que havia uma linha danificada, e que estava causando a interrupção do processo?
2- Como conseguiu resolver esse problema?

@dmoliveira
Copy link

Oi @HalleyPereira. Respondendo as suas perguntas.

1,2 - Eu encontrei um problema ao processar arquivos em batch, onde o programa estava considerando a linha em branco como o EOF. Isso causava o encerramento prematuro do programa após processar 2 a 4 milhões de linhas. Para resolver esse problema, eu alterei a lógica para continuar lendo a próxima linha, e só encerrar a leitura se essa situação ocorrer N vezes seguidas. Para isso, adicionei uma variável de contagem "skipline" e seu valor só ultrapassa o threshold (por exemplo, 10 ou 100) é que a leitura é encerrada. Após essa mudança, não tive mais problemas na leitura dos arquivos. Além disso, notei que apenas uma pequena quantidade de linhas estavam "corrompidas" devido ao uso do delimitador no nome fantasia do estabelecimento. Cada caso foi tratado individualmente, mas a taxa de erro é muito baixa (<0.001%) nos dados.

Exemplo na linguagem Julia:

rows = String[]
skipline, max_skipline = 0, 10

# loop, so termina se for realmente final de arquivo
while skipline <= max_skipline

    row = allrows.readline()
    
    # faz checagem por linha em branco; se for conta +1
    if isempty(row)
        skipline += 1
        continue
    end
    
    # reinicia contagem e adiciona nova linha
    skipline = 0
    push!(rows, row)
end

Espero que tenha te ajudado!

@marlon33
Copy link

marlon33 commented Feb 7, 2023

Oi @marlon33,

Eu conferi o tamanho do arquivo K3241.K03200Y0.D30114.EMPRECSV, ele tem 11.890.351 linhas, enquanto que no seu console apareceu quase a metade, 6 milhões e pouco. Sem saber o código da sua rotina csv_to_sql.py fica difícil saber o que aconteceu. Fiquei curioso... A rotina é rápida assim mesmo? Leva alguns segundos para carregar cada uma dessas tabelas??

Desculpa a demora em responder, estava de ferias kkkkk

Ela esta rápida assim pois esta somente contando as linhas, por isso não entendi, eu abri aqui os arquivos e tem 6 milhoes de linhas msm, só pode estar baixando errado então, oq não faz sentido pois baixei diretamente
Estou baixando o arquivo de novo na mão sem ser por código para ver oque pode ter acontecido

@HalleyPereira
Copy link

@dmoliveira, obrigado pela resposta... Vou tentar reproduzir a sua solução na Linguagem R... Sou um pouco leigo ainda em tudo isso...

@MarcelinoFalcao
Copy link

@HalleyPereira Sabe me dizer se este qsacnpj esta funcionando? Gostaria de transformar todos dados em um arquivo CSV apenas.

Obrigado

@HalleyPereira
Copy link

HalleyPereira commented Feb 20, 2023

@HalleyPereiraSabe me dizer se este qsacnpj esta funcionando? Gostaria de transformar todos os dados em um arquivo CSV apenas.

Obrigado

Olá @MarcelinoFalcao, posso estar enganado, mas até onde eu sei esse pacote deixou funcionar com a mudança que a receita fez no layout dos dados.

Vc pode usar a função 'fread()', do pacote 'data.table', para puxar os dados, e depois exportar como csv.

Um exemplo para puxar os dados da tabela estabelecimentos.

library(data.table)

Lista dos nomes dos 10 arquivos da tabela estabelecimento

arquivos <- c("arquivo1.csv", "arquivo2.csv", "arquivo3.csv", "arquivo4.csv", "arquivo5.csv", "arquivo6.csv", "arquivo7.csv", "arquivo8.csv", "arquivo9.csv", "arquivo10.csv")

Lendo os arquivos CSV com fread() e combinando-os em um único data.table

dados <- rbindlist(lapply(arquivos, fread))

Salvando o resultado em um arquivo CSV

fwrite(dados, "arquivo_saida.csv")

@csidjalma
Copy link

Olá pessoal boa tarde!
Depois de um tempo afastado desse projeto estou de volta por aqui.
Olha só o arquivo Estabelecimentos0.zip | 2023-02-14 09:54 | 902M | esta com o dobro do tamanho dos outros.
Estou dificuldades em carregar isso pro Mysql. Estou usando LOAD DATA LOCAL INFILE mais esta demorando uma era pra carregar.
Alguém tem alguma dica pra carregar rápido pro Mysql via .CSV?
Esse arquivo est correto ?

Muito obrigado !

@MarcelinoFalcao
Copy link

@HalleyPereiraSabe me dizer se este qsacnpj esta funcionando? Gostaria de transformar todos os dados em um arquivo CSV apenas.
Obrigado

Olá @MarcelinoFalcao, posso estar enganado, mas até onde eu sei esse pacote deixou funcionar com a mudança que a receita fez no layout dos dados.

Vc pode usar a função 'fread()', do pacote 'data.table', para puxar os dados, e depois exportar como csv.

Um exemplo para puxar os dados da tabela estabelecimentos.

library(data.table)

Lista dos nomes dos 10 arquivos da tabela estabelecimento

arquivos <- c("arquivo1.csv", "arquivo2.csv", "arquivo3.csv", "arquivo4.csv", "arquivo5.csv", "arquivo6.csv", "arquivo7.csv", "arquivo8.csv", "arquivo9.csv", "arquivo10.csv")

Lendo os arquivos CSV com fread() e combinando-os em um único data.table

dados <- rbindlist(lapply(arquivos, fread))

Salvando o resultado em um arquivo CSV

fwrite(dados, "arquivo_saida.csv")

@HalleyPereira Opa

Mas tive que fazer de outra forma. Consegui fazer em c#, precisava juntar todas informações das empresas em apenas uma tabela, e não em varias, mas deu certo.

Obrigadoo

@HalleyPereira
Copy link

Olá pessoal boa tarde! Depois de um tempo afastado desse projeto estou de volta por aqui. Olha só o arquivo Estabelecimentos0.zip | 2023-02-14 09:54 | 902M | esta com o dobro do tamanho dos outros. Estou dificuldades em carregar isso pro Mysql. Estou usando LOAD DATA LOCAL INFILE mais esta demorando uma era pra carregar. Alguém tem alguma dica pra carregar rápido pro Mysql via .CSV? Esse arquivo est correto ?

Muito obrigado !

Olá @csidjalma,

Em vez de usar LOAD DATA LOCAL INFILE, tente usar a opção LOAD DATA INFILE. Isso pode ajudar a acelerar o processo de importação, pois o MySQL pode carregar o arquivo diretamente do disco, sem a necessidade de transferir os dados pela rede.

@csidjalma
Copy link

Olá pessoal boa tarde! Depois de um tempo afastado desse projeto estou de volta por aqui. Olha só o arquivo Estabelecimentos0.zip | 2023-02-14 09:54 | 902M | esta com o dobro do tamanho dos outros. Estou dificuldades em carregar isso pro Mysql. Estou usando LOAD DATA LOCAL INFILE mais esta demorando uma era pra carregar. Alguém tem alguma dica pra carregar rápido pro Mysql via .CSV? Esse arquivo est correto ?
Muito obrigado !

Olá @csidjalma,

Em vez de usar LOAD DATA LOCAL INFILE, tente usar a opção LOAD DATA INFILE. Isso pode ajudar a acelerar o processo de importação, pois o MySQL pode carregar o arquivo diretamente do disco, sem a necessidade de transferir os dados pela rede.

Olá @HalleyPereira , obrigado por responder !!

Vou retomar essa questão de colocar os arquivos diretamente na área do servidor. Tive alguns problemas no passado com isso e tento evitar o máximo possível não colocar nada diretamente no ambiente do servidor de dados.

Mais agradeço muito sua dica e vou estudar uma forma de fazer isso com segurança e testar a velocidade do upgrade nisso!

Forte abraço. valeu !!

@Tadeu-Mello
Copy link

Pessoal, precisava de uma ajuda para conseguir abrir as bases públicas do site: https://dados.gov.br/dados/conjuntos-dados/cadastro-nacional-da-pessoa-juridica---cnpj

Está aparecendo para mim no formato EMPRECSV. Como faço para abrir? Com google sheets e LibreOffice não estou conseguindo.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests