Questão Linux: descubra qual processo está usando toda a RAM?


Antes de realmente perguntar, só para ficar claro: sim, eu sei sobre o cache de disco, e não, não é o meu caso :) Desculpe, por este preâmbulo :)

Estou usando o CentOS 5. Todo aplicativo no sistema está trocando muito e o sistema está muito lento. Quando eu faço free -m, aqui está o que eu recebi:

             total       used       free     shared    buffers     cached
Mem:          3952       3929         22          0          1         18
-/+ buffers/cache:       3909         42
Swap:        16383         46      16337

Então, eu realmente tenho apenas 42 Mb para usar! Tanto quanto eu entendo, -/+ buffers/cache na verdade não conta o cache de disco, então eu realmente só tenho 42 Mb, certo? Eu pensei, eu poderia estar errado, então eu tentei desligar o cache de disco e não teve efeito - a imagem permaneceu a mesma.

Então, eu decidi descobrir quem está usando toda a minha memória RAM, e eu usei top por isso. Mas, aparentemente, informa que nenhum processo está usando minha memória RAM. O único processo no meu top é o MySQL, mas ele está usando 0.1% de RAM e 400Mb de swap. Mesma imagem quando eu tento executar outros serviços ou aplicativos - todos vão em troca, top mostra que MEM não é usado (0,1% no máximo para qualquer processo).

top - 15:09:00 up  2:09,  2 users,  load average: 0.02, 0.16, 0.11
Tasks: 112 total,   1 running, 111 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   4046868k total,  4001368k used,    45500k free,      748k buffers
Swap: 16777208k total,    68840k used, 16708368k free,    16632k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  SWAP COMMAND
 3214 ntp       15   0 23412 5044 3916 S  0.0  0.1   0:00.00  17m ntpd
 2319 root       5 -10 12648 4460 3184 S  0.0  0.1   0:00.00 8188 iscsid
 2168 root      RT   0 22120 3692 2848 S  0.0  0.1   0:00.00  17m multipathd
 5113 mysql     18   0  474m 2356  856 S  0.0  0.1   0:00.11 472m mysqld
 4106 root      34  19  251m 1944 1360 S  0.0  0.0   0:00.11 249m yum-updatesd
 4109 root      15   0 90152 1904 1772 S  0.0  0.0   0:00.18  86m sshd
 5175 root      15   0 90156 1896 1772 S  0.0  0.0   0:00.02  86m sshd

Reiniciar não ajuda, e, por sua maneira é muito lento, o que eu normalmente não esperaria nesta máquina (4 núcleos, 4Gb de RAM, RAID1).

Então, com isso - eu tenho certeza que este não é um cache de disco, que está usando a RAM, porque normalmente deveria ter sido reduzido e deixar outros processos usarem a RAM, ao invés de ir trocar.

Então, finalmente, a questão é - se alguém tem alguma idéia de como descobrir qual processo está realmente usando a memória tão fortemente?


99


origem


Você já encontrou a resposta para isso? - Hackeron
@ Hackeron: OP aceito esta resposta. Eu sei que a resposta não resolve sua pergunta, Apesar. Consegui reproduzir seu problema em um dos meus servidores e atualmente estou pesquisando se existe uma maneira de solucionar o problema. - Deltik
@Deltik Ah, ok. Obrigado :) - Eu tenho 2 servidores aqui que vazam toda a memória disponível no espaço de cerca de 12 horas, deixe-me saber se há algo que eu possa fazer para ajudar a diagnosticar isso. Eu estou acessível como o apelido "hackeron" no IRC (irc.freenode.org). - Hackeron
@ Hackeron: Eu não fui capaz de encontrar você como "hackeron" em irc.freenode.org. Eu criei um sala de chat para discussão extensa aqui. - Deltik


Respostas:


No Linux no top processo você pode pressionar < tecla para deslocar a exibição de saída para a esquerda. Por padrão, ele é classificado pelo %CPU Então, se você pressionar a tecla 4 vezes você irá classificá-lo por VIRT qual é o tamanho da memória virtual, dando a sua resposta.

Outra maneira de fazer isso é:

ps -e -o pid,vsz,comm= | sort -n -k 2

deve dar a você e saída ordenada pelo tamanho virtual do processo.

Aqui está a versão longa:

ps --everyone --format=pid,vsz,comm= | sort --numeric-sort --key=2

89



Isso me dá Warning: bad ps syntax, perhaps a bogus '-'? See http://procps.sf.net/faq.html no servidor Ubuntu 11.10. - Der Hochstapler
@OliverSalzburg A questão é -o opções. RHEL4 isso funciona. RHEL5: ps -e -o pid,vsz,comm= | sort -n -k 2 trabalho. Vou tentar 11,10 mais tarde hoje à noite, mas se você encontrar as opções de classificação corretas antes, por favor me avise. ps -e -o pid,vsz,comm | sort -n -k 2 pode funcionar, mas eu não tenho um lugar para verificar no momento. - Karlson
Eu não estou muito familiarizado com o -ef opção. Mas isso parece produzir uma saída razoável: sudo ps axo pid,vsz,comm=|sort -n -k 2 - Der Hochstapler
@OliverSalzburg Desculpe. Alterado (pensei que já mudei). Deveria ser ps -e ou ps -a - Karlson
Ty, eu gosto da primeira sugestão de < Eu não sabia que isso era possível, fedora - SSH This


Mostra a memória dos processos em megabytes e o caminho do processo.

ps aux  | awk '{print $6/1024 " MB\t\t" $11}'  | sort -n

44



Bem-vindo ao superusuário. Você pode expandir sua resposta para explicar o que esse código faz e como ele resolve o problema? Código inexplicado é desencorajadoporque não ensina a solução. Obrigado. - fixer1234
Estou surpreso que esta resposta seja downvoted e tenha um comentário pedindo para explicá-la .. é curta o suficiente para que fique claro o que ela faz (canaliza ps aux em awk e depois classifica), e no contexto da questão, mostra quais processos estão usando mais RAM. Eu acho que é uma boa resposta. - John


Apenas uma nota lateral em um servidor mostrando os mesmos sintomas, mas ainda mostrando esgotamento de memória. O que acabamos descobrindo foi um sysctl.conf de uma caixa com 32 GB de RAM e instalação para um banco de dados com páginas enormes configuradas para 12000. Esta caixa tem apenas 2 GB de RAM, então ele atribuiu toda a RAM livre às páginas enormes (somente 960 deles). Definindo páginas enormes para 10, como nenhuma delas foi usada, liberou toda a memória.

Uma verificação rápida de / proc / meminfo para procurar as configurações do HugePages_ pode ser um bom começo para solucionar pelo menos um hog de memória inesperado.


13



Eu tive recentemente outro servidor onde este era o problema. Se a sua organização tiver ex-funcionários da Oracle, essa configuração pode ser sua culpada. - fields


Você também pode usar o comando ps para obter mais informações sobre o processo.

ps aux | less

2



Por curiosidade, qual é a maneira correta de escapar desse comando? Isso mostra que quando eu chegar a última linha, ele não mata o processo quando eu Ctrl + C ele. - KingsInnerSoul
@KingsInnerSoul pressione 'q' - enobayram


Eu referência esta e Memória total usada pelo processo Python? - estouro de pilhaEssa é minha resposta. Eu recebo uma ferramenta específica de contagem de processos (python), agora.

# Megabyte.
$ ps aux | grep python | awk '{sum=sum+$6}; END {print sum/1024 " MB"}'
87.9492 MB

# Byte.
$ ps aux | grep python | awk '{sum=sum+$6}; END {print sum " KB"}'
90064 KB

Anexe minha lista de processos.

$ ps aux  | grep python
root       943  0.0  0.1  53252  9524 ?        Ss   Aug19  52:01 /usr/bin/python /usr/local/bin/beaver -c /etc/beaver/beaver.conf -l /var/log/beaver.log -P /var/run/beaver.pid
root       950  0.6  0.4 299680 34220 ?        Sl   Aug19 568:52 /usr/bin/python /usr/local/bin/beaver -c /etc/beaver/beaver.conf -l /var/log/beaver.log -P /var/run/beaver.pid
root      3803  0.2  0.4 315692 36576 ?        S    12:43   0:54 /usr/bin/python /usr/local/bin/beaver -c /etc/beaver/beaver.conf -l /var/log/beaver.log -P /var/run/beaver.pid
jonny    23325  0.0  0.1  47460  9076 pts/0    S+   17:40   0:00 python
jonny    24651  0.0  0.0  13076   924 pts/4    S+   18:06   0:00 grep python

Referência


1





No meu caso, o problema era que o servidor era um servidor virtual VMware com vmw_balloonmódulo habilitado:

$ lsmod | grep vmw_balloon
vmw_balloon            20480  0
vmw_vmci               65536  2 vmw_vsock_vmci_transport,vmw_balloon

Corrida:

$ vmware-toolbox-cmd stat balloon
5189 MB

Portanto, cerca de 5 GB de memória foram de fato recuperados pelo host. Então, apesar de ter 8 GB para minha VM "oficialmente", na prática foi muito menos:

$ free
              total        used        free      shared  buff/cache   available
Mem:        8174716     5609592       53200       27480     2511924     2458432
Swap:       8386556        6740     8379816

1





Faça um script chamado show-memory-usage.sh com conteúdo:

#!/bin/sh
ps -eo rss,pid,user,command | sort -rn | head -10 | awk '{ hr[1024**2]="GB"; hr[1024]="MB";
 for (x=1024**3; x>=1024; x/=1024) {
 if ($1>=x) { printf ("%-6.2f %s ", $1/x, hr[x]); break }
 } } { printf ("%-6s %-10s ", $2, $3) }
 { for ( x=4 ; x<=NF ; x++ ) { printf ("%s ",$x) } print ("\n") }
 '

-1



Por quê? O que isso faz? Como funciona? Não diga às pessoas para executarem códigos aleatórios; explicar o seu propósito e como funciona. - Michael Kjörling
Figura eu vou explicar o código para aqueles que não entendem como parece ser seguro para executar, mas o downvote pode afastar aqueles que seriam úteis para. Ele está executando o mesmo comando que está em respostas acima, mas está adicionando formatação com o AWK. Eu pessoalmente não rodei o script, pois não tenho utilidade, mas explicá-lo ajuda os que precisam de alguma formatação. - Dooley_labs