Commit d78c6c69 authored by bbguimaraes's avatar bbguimaraes
Browse files

Spelling corrections.

parent 2fcc48a2
......@@ -107,8 +107,8 @@ Aplicações típicas da seleção clonal são:
\begin{enumerate}[a)]
\item Diversos tipos de reconhecimento de padrões.
\item Problema da colocaração de grafos, reconhecimento de caracteres e alguns problemas NP-completo.
\item Diversos tipos de esclonamento.
\item Problema da coloração de grafos, reconhecimento de caracteres e alguns problemas NP-completo.
\item Diversos tipos de escalonamento.
\item Classificação de documentos.
\item Otimização de funções combinatoriais, uni-modais e multi-modais e o problema da inicialização dos centros em funções de base radial.
\end{enumerate}
......@@ -322,7 +322,7 @@ Apesar de ser uma das mais importantes abstrações do sistema imunológico, an
Já foi questionada a tentativa de cobrir, aleatoriamente, um espaço não-próprio infinito utilizando detectores de tamanho finito. Como autores como Dasgupta, Forrest e Nino apontam, esse tipo de modelagem permite que múltiplos detectores identifiquem um elemento não-próprio por aproximação, além de permitir a criação de detectores sem que se tenha conhecimento do espaço de estados. De fato, caso o conjunto próprio fosse desconhecido, e existisse apenas uma função que, dado um elemento, determinasse se ele pertence ou não ao conjunto próprio, a seleção negativa seria o único método, entre os discutidos, que poderia ser aplicado.
Conforme demonstrou D’haeseleer, a seleção negativa muitas vezes não é tão efetiva quanto outras técnicas, mas oferece um nível de segurança maior por ser menos suscetível à tentativas deliberadas dos agentes maliciosos de enganar o sistema\iffalse melhorar essa frase\fi. Outras vantagens apontadas incluem a habilidade de detecção de mudanças nos eventos do sistema, de verificar mudanças em partes de um objeto sem a necessidade de verificar o objeto como um todo e de aplicar diversos detectores diferentes sobre um mesmo objeto, aumentando a probabilidade de detecção conforme o número de detectores utilizado. O autor também aponta que subconjuntos dos detectores podem ser utilizados de maneira autônoma e distribuída.
Conforme demonstrou D’haeseleer, a seleção negativa muitas vezes não é tão efetiva quanto outras técnicas, mas oferece um nível de segurança maior por ser menos suscetível à tentativas deliberadas dos agentes maliciosos de enganar o sistema. Outras vantagens apontadas incluem a habilidade de detecção de mudanças nos eventos do sistema, de verificar mudanças em partes de um objeto sem a necessidade de verificar o objeto como um todo e de aplicar diversos detectores diferentes sobre um mesmo objeto, aumentando a probabilidade de detecção conforme o número de detectores utilizado. O autor também aponta que subconjuntos dos detectores podem ser utilizados de maneira autônoma e distribuída.
Alguns trabalhos incorporam processos da seleção clonal na seleção negativa \cite{Garrett2005}: os detectores são gerados aleatoriamente, como no algoritmo original, e aqueles que identificam elementos próprios passam pelo processo de seleção clonal. O objetivo é que esses detectores sejam ajustados até que não cubram mais o espaço próprio. A vantagem, nesse caso, é a de utilizar o poder de exploração do espaço de estados da seleção clonal para dispensar o controle determinístico complexo dos detectores feito na maior parte dos trabalhos da área.
......
......@@ -343,7 +343,7 @@ Todos os algoritmos utilizados para comparação com os algoritmos imunológicos
\vspace{0.5cm}
\end{figure}
Esses algoritmos podem ser dividos em 5 categorias de algoritmos: árvores de decisão, redes neurais artificiais, redes Bayesianas, \emph{support vector machine} e imunológicos. Na tabela \ref{tbl:dev_algs} são apresentados os mesmo algoritmos, organizados pela categoria a que pertencem.
Esses algoritmos podem ser divididos em 5 categorias de algoritmos: árvores de decisão, redes neurais artificiais, redes Bayesianas, \emph{support vector machine} e imunológicos. Na tabela \ref{tbl:dev_algs} são apresentados os mesmo algoritmos, organizados pela categoria a que pertencem.
\begin{table}[h]
\vspace{0.5cm}
......@@ -512,7 +512,7 @@ Algoritmo iterativo para o problema da otimização de uma máquina de vetor de
\item \textbf{Parâmetros}:
\begin{itemize}
\item \textbf{C}: a constante de complexidade das regras de decisão.
\item \textbf{N}: opção para normalizar, uniformizar ou usar os dados oringinais.
\item \textbf{N}: opção para normalizar, uniformizar ou usar os dados originais.
\item \textbf{L}: o parâmetro de tolerância.
\item \textbf{P}: \emph{epsilon} para erro de arredondamento.
\item \textbf{M}: aplica regressão logística aos pesos.
......@@ -591,7 +591,7 @@ O primeiro foi um problema na definição dos parâmetros do CLONALG. Como foi m
No entanto, um dos parâmetros do CLONALG também usa a letra ``d'' como representação (conforme apresentado na seção anterior, o parâmetro é o número de anticorpos substituído a cada geração). Isso gerava um conflito na execução do algoritmo, já que as opções do WEKA são analisadas antes das opções do algoritmo. O resultado era uma mensagem de erro apontando que o parâmetro ``d'' não tinha sido passado.
Para solucionar esse problema, foi feita uma alteração diretamente no código do algoritmo. As opções do algoritmo são definidas em um vetor na linha 37 do arquivo src/weka/classifiers/immune/clonalg/CLONALG.java (listagem \ref{lst:dev_clonalg_source}). A alteração para a solução foi alterar o nome do parâmetro "d" para uma letra que não conflitasse com outros parâmetros do WEKA ou do algoritmo. Após isso, o código do WEKA foi compilado e essa versão alterada foi utilizada na execução dos testes.
Para solucionar esse problema, foi feita uma alteração diretamente no código do algoritmo. As opções do algoritmo são definidas em um vetor na linha 37 do arquivo $src/weka/classifiers/immune/clonalg/CLONALG.java$ (listagem \ref{lst:dev_clonalg_source}). A alteração para a solução foi alterar o nome do parâmetro "d" para uma letra que não conflitasse com outros parâmetros do WEKA ou do algoritmo. Após isso, o código do WEKA foi compilado e essa versão alterada foi utilizada na execução dos testes.
\vspace{0.5cm}
\begin{lstlisting}[caption=Código fonte original do CLONALG, label=lst:dev_clonalg_source]
......
......@@ -67,14 +67,14 @@ O resultado dos testes pode ser altamente dependente dessa separação dos dados
Para que seja possível avaliar se um modelo pode prever novos dados após o treinamento, a base de dados deve ser dividida em duas partes: um conjunto de treinamento e um conjunto de teste. O modelo é criado utilizando apenas os dados de treinamento e avaliado utilizando os dados de teste. Essa técnica é denominada \emph{holdout}, porque uma parte dos dados é retirada do processo de treinamento para que possa ser utilizada nos testes. Os resultados podem ser melhorados executando várias iterações de \emph{holdout}, dividindo um conjunto de dados aleatoriamente a cada vez e calculando a média e o desvio padrão da precisão.
Caso o resultado dos testes de um modelo quando aplicado aos mesmos dados utilizados no treinamento seja bom, mas o resultado quando aplicado aos dados de teste sejam ruims, diz-se que ocorre \emph{overfitting}: o modelo ajusta-se tanto aos dados de treinamento que não consegue criar regras genéricas o suficiente para identificar amostras semelhantes mas não exatamente iguais.
Caso o resultado dos testes de um modelo quando aplicado aos mesmos dados utilizados no treinamento seja bom, mas o resultado quando aplicado aos dados de teste sejam ruins, diz-se que ocorre \emph{overfitting}: o modelo ajusta-se tanto aos dados de treinamento que não consegue criar regras genéricas o suficiente para identificar amostras semelhantes mas não exatamente iguais.
Há ainda a possibilidade do modelo não gerar um resultado bom nem mesmo para os dados de treinamento. Nesse caso, diz-se que ocorre \emph{underfitting}: o modelo não é capaz de criar regras que se ajustem aos dados de treinamento, ou seja, o modelo não é capaz de memorizar os dados de treinamento.
\subsection{\emph{Cross-validation}}
\label{sec:eval_cross_validation}
Uma alternativa mais sofisticada e eficiente do \emph{holdout} é denominada \emph{cross-validation}. Nela, os dados são divididos em \emph{n} partições, chamadas de \emph{folds}. A cada iteração, uma partição é utilizada dados de testes, enquato as outras \emph{n - 1} são utilizadas como treinamento.
Uma alternativa mais sofisticada e eficiente do \emph{holdout} é denominada \emph{cross-validation}. Nela, os dados são divididos em \emph{n} partições, chamadas de \emph{folds}. A cada iteração, uma partição é utilizada dados de testes, enquanto as outras \emph{n - 1} são utilizadas como treinamento.
\begin{enumerate}[a)]
\item Dividir aleatoriamente os dados em dois conjuntos, treinamento e testes.
......
......@@ -19,7 +19,7 @@ Como área interdisciplinar, a mineração atrai estudiosos de diversas áreas d
``Inteligência Artificial (IA) pode ser definida como a área da ciência da computação que se dedica a automação de comportamento inteligente.''\footnote{``Artificial intelligence (AI) may be defined as the branch of computer science that is concerned with the automation of inteligent behaviour.''.}
\end{quote}
Analisar informações, raciocinar e tirar conclusões são também objeto de estudo da Inteligência Artificial. Nessa área, alguns dos métodos mais aplicados são redes neurais e bayesianas, \emph{clustering} e lógica nebulosa (\emph{fuzzy}). De fato, as grandes bases de dados, que geralmente são objeto de atuação da mineração, constituem excelente campo de testes para os algoritmos da IA.
Analisar informações, raciocinar e tirar conclusões são também objeto de estudo da Inteligência Artificial. Nessa área, alguns dos métodos mais aplicados são redes neurais e bayesianas, \emph{clustering} e lógica nebulosa (\emph{fuzzy}). De fato, as grandes bases de dados, que geralmente são objeto de atuação da mineração, constituem excelente campo de testes para os algoritmos da IA.
Uma área que têm recebido crescente atenção de estudos de mineração de dados e Inteligência Artificial é a de segurança da informação. O desenvolvimento de ferramentas de mineração é visto como um forte candidato à solução de problemas nessa área, já que elas são capazes de extrair modelos e comportamentos da base de dados que dificilmente seriam percebidos por um observador humano. Esses modelos podem ser usados para identificar padrões em novas instâncias, automatizando o processo de monitoramento. O ganho que um profissional tem ao utilizar uma ferramenta dessa natureza é enorme: a tarefa de análise de bases de dados extensas é repassada dele para o computador.
......
......@@ -14,7 +14,7 @@ O primeiro modelo do sistema imunológico foi o da distinção entre o próprio
\section{Discriminação do próprio e não-próprio}
No modelo de disciminação do próprio e não próprio (Self Non-self Discrimination, SNSD) de Burnet, existia apenas um tipo de linfócito, o linfócito B, responsável por identificar os antígenos e produzir os respectivos anticorpos. A resposta imune adaptativa é gerada apenas pela identificação desses antígenos, sem qualquer mecanismo de controle.
No modelo de discriminação do próprio e não próprio (Self Non-self Discrimination, SNSD) de Burnet, existia apenas um tipo de linfócito, o linfócito B, responsável por identificar os antígenos e produzir os respectivos anticorpos. A resposta imune adaptativa é gerada apenas pela identificação desses antígenos, sem qualquer mecanismo de controle.
\begin{figure}[h!]
\vspace{0.5cm}
......@@ -30,7 +30,7 @@ No modelo de disciminação do próprio e não próprio (Self Non-self Discrimin
\end{figure}
Em algum ponto no início da vida os linfócitos aprendem a diferenciar o próprio, células pertencentes ao corpo, do não-próprio, células estranhas ao corpo, que devem ser eliminadas. As células que geram respostas auto-imunes (reações contra as células próprias) são removidas nesse ponto, restando apenas as capazes de identificar o não-próprio.
Em algum ponto no início da vida os linfócitos aprendem a diferenciar o próprio, células pertencentes ao corpo, do não-próprio, células estranhas ao corpo, que devem ser eliminadas. As células que geram respostas autoimunes (reações contra as células próprias) são removidas nesse ponto, restando apenas as capazes de identificar o não-próprio.
\begin{figure}[h!]
\vspace{0.5cm}
......@@ -44,7 +44,7 @@ Em algum ponto no início da vida os linfócitos aprendem a diferenciar o própr
\vspace{0.5cm}
\end{figure}
Mais tarde, Bretscher e Cohn introduziram uma segunda célula, o linfócito T auxiliar, ou T$_{h}$ (T \emph{helper}), que regulava a ativação dos linfócitos B (figura \ref{fig:nis_helper}). O linfócito B apresenta o antígeno ao linfócito T e aguarda sua confirmação para iniciar a resposta. A introdução dessa célula tem o objetivo de evitar uma reação auto-imune sem controle. Lafferty e Cunningham introduziram uma terceira célula, a Célula Apresentadora de Antígeno (APC, \emph{Antigen Presenting Cell}), cuja função é decompor os antígenos e apresentá-los aos linfócitos T. Dessa forma, o funcionamento das células do modelo anterior agora depende da ativação do linfócito T pela APC (figura \ref{fig:nis_apc}).
Mais tarde, Bretscher e Cohn introduziram uma segunda célula, o linfócito T auxiliar, ou T$_{h}$ (T \emph{helper}), que regulava a ativação dos linfócitos B (figura \ref{fig:nis_helper}). O linfócito B apresenta o antígeno ao linfócito T e aguarda sua confirmação para iniciar a resposta. A introdução dessa célula tem o objetivo de evitar uma reação autoimune sem controle. Lafferty e Cunningham introduziram uma terceira célula, a Célula Apresentadora de Antígeno (APC, \emph{Antigen Presenting Cell}), cuja função é decompor os antígenos e apresentá-los aos linfócitos T. Dessa forma, o funcionamento das células do modelo anterior agora depende da ativação do linfócito T pela APC (figura \ref{fig:nis_apc}).
\begin{figure}[h!]
\vspace{0.5cm}
......@@ -60,7 +60,7 @@ Mais tarde, Bretscher e Cohn introduziram uma segunda célula, o linfócito T au
\section{Não-próprio infeccioso}
O modelo mais aceito na imunologia atualmente é o modelo não-próprio infeccioso (Infectious Non-Self, INS), que foi proposto por Janeway \cite{Janeway1989}. Nele, as APCs também têm de ser ativadas: elas só enviam o sinal dois aos linfócitos T quando tiverem reconhecido padrões patológicos no antígeno (figura \ref{fig:nis_nsinf}). Assim, da mesma forma que no modelo anterior, o funcionamento de todo o sistema depende de um fator externo. No modelo anterior, a APC ativava o sistema, no modelo de Janeway, a APC tem que ser ativada através do reconhecimento de padrões no antígeno, e então ativar o sistem.
O modelo mais aceito na imunologia atualmente é o modelo não-próprio infeccioso (Infectious Non-Self, INS), que foi proposto por Janeway \cite{Janeway1989}. Nele, as APCs também têm de ser ativadas: elas só enviam o sinal dois aos linfócitos T quando tiverem reconhecido padrões patológicos no antígeno (figura \ref{fig:nis_nsinf}). Assim, da mesma forma que no modelo anterior, o funcionamento de todo o sistema depende de um fator externo. No modelo anterior, a APC ativava o sistema, no modelo de Janeway, a APC tem que ser ativada através do reconhecimento de padrões no antígeno, e então ativar o sistema.
\begin{figure}[h!]
\vspace{0.5cm}
......@@ -89,7 +89,7 @@ A teoria de Matzinger sugere que o sistema imunológico é ativado pela segunda
Os linfócitos B são os responsáveis pela identificação de antígenos através de receptores em sua superfície. Durante uma infecção, essas células se multiplicam e produzem anticorpos para eliminar os antígenos identificados. Elas são capazes de adaptar-se a virtualmente qualquer tipo de antígeno, gerando a resposta adequada. Um outro tipo de linfócito, os linfócitos T, quando ativados, podem exercer uma de duas funções: os linfócitos T citotóxicos (CTL) são responsáveis pela eliminação de células infectadas, enquanto que os linfócitos T auxiliares (T$_{h}$) são responsáveis pela ativação de outras células, entre elas os linfócitos B.
Além disso, alguns linfócitos T são mantidos como células de memória. Durante a resposta imunológica, os linfócitos B e T$_{h}$ se multiplicam para combater os antígenos e são removidos quando a resposta termina. No entanto, alguns linfócitos T são mantidos, para que possam ser usados em futuras respostas ao mesmo tipo de antígeno. A combinação de linfóctios T virgens (sem um tipo de antígeno associado) e de memória permite que o sistema imunológico gere respostas tanto a novas ameaças quanto a ameaças recorrentes.
Além disso, alguns linfócitos T são mantidos como células de memória. Durante a resposta imunológica, os linfócitos B e T$_{h}$ se multiplicam para combater os antígenos e são removidos quando a resposta termina. No entanto, alguns linfócitos T são mantidos, para que possam ser usados em futuras respostas ao mesmo tipo de antígeno. A combinação de linfócitos T virgens (sem um tipo de antígeno associado) e de memória permite que o sistema imunológico gere respostas tanto a novas ameaças quanto a ameaças recorrentes.
Existe ainda um outro tipo de linfócito, o T \emph{killer} (T$_{k}$), que não tem receptores antígeno-específicos, mas é capaz de reconhecer células infectadas e algumas células anormais. O objetivo dessas células é atuar como a primeira defesa contra infecções, e são muito importantes nos começo da vida.
......
......@@ -10,7 +10,7 @@ Conforme apresentado nos capítulos anteriores, a modelagem de um sistema de det
\section{Etapas do experimento}
A comparação dos resultados da execução de diferentes algoritmos é baseada em critérios de avaliação. A definição desses critérios é uma parte vital da preparação do experimento. Deve-se garantir que esses critérios sejam apropriados para a comparação dos métodos avaliados e que eles refiltam as necessidades e desafios dos ambientes em que esses métodos serão implementados. Sem critérios bem definidos, corre-se o risco de gerar uma análise que não tem nenhum valor prático ou que leve a conclusões erradas, por examinar dados irrelevantes sobre o resultado dos experimentos. Nesse trabalho, a comparação dos resultados foi divida em duas etapas: execução e análise. A etapa de execução consistiu em:
A comparação dos resultados da execução de diferentes algoritmos é baseada em critérios de avaliação. A definição desses critérios é uma parte vital da preparação do experimento. Deve-se garantir que esses critérios sejam apropriados para a comparação dos métodos avaliados e que eles reflitam as necessidades e desafios dos ambientes em que esses métodos serão implementados. Sem critérios bem definidos, corre-se o risco de gerar uma análise que não tem nenhum valor prático ou que leve a conclusões erradas, por examinar dados irrelevantes sobre o resultado dos experimentos. Nesse trabalho, a comparação dos resultados foi divida em duas etapas: execução e análise. A etapa de execução consistiu em:
\begin{enumerate}
\item Selecionar os algoritmos imunológicos.
......@@ -311,7 +311,7 @@ A listagem \ref{lst:prop_weka_out} mostra um exemplo dos dados de saída após a
\item \emph{Use training set}: Executa os testes utilizando os mesmos dados utilizados no treinamento.
\item \emph{Supplied test set}: Executa os testes utilizando um arquivo de testes fornecido.
\item \emph{Cross-validation}: Executa os testes utilizando \emph{\emph{k}-fold cross-validation} (seção \ref{sec:eval_cross_validation}). O número de \emph{folds} pode ser definido.
\item \emph{Percentage split}: Executa os testes utilizando uma parte dos dados para testes e outra para o treinamento. A procentagem pode ser definida.
\item \emph{Percentage split}: Executa os testes utilizando uma parte dos dados para testes e outra para o treinamento. A porcentagem pode ser definida.
\end{enumerate}
A seção seguinte da saída, ``\emph{Classifier model}'', mostra dados sobre o processo de treinamento: tempos de execução e informações sobre o modelo gerado pelo classificador. A seção ``\emph{Summary}'' mostra os resultados dos testes. Os dados dessa seção são: número de instâncias corretamente classificadas, número de instâncias incorretamente classificadas, o coeficiente \emph{kappa}, o erro de aproximação e a raiz quadrada do erro de aproximação, o erro relativo e a raiz quadrada do erro relativo e o número total de instâncias.
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment