# system("defaults write org.R-project.R force.LANG en_US.UTF-8") require(streamR) source('funcoesTwitter.R', encoding='UTF-8') dia = '2014-06-25' dia = '2014-06-26' dia = '2014-06-27' dia = '2014-06-28' dia = '2014-06-29' dia = '2014-06-30' dia = '2014-07-01' dia = '2014-07-02' tweets = joinTweets(dia) dia = '2014-07-03' dia = '2014-07-04' dia = '2014-07-05' dia = '2014-07-06' dia = '2014-07-07' dia = '2014-07-08' # Parei no dia 05/10... arquivos estão muito grandes, tem que quebrar em arquivos menores... dia = as.Date('2014-10-05') for (i in 1:1) { tweets = joinTweets(dia, TRUE) arquivo = paste0("../../data/politics-tweets-", dia, "-all.Rda") save(tweets, file=arquivo) dia = dia + 1 } ## join dos temas pedidos pela Izabela source('funcoesTwitter.R', encoding='UTF-8') dia = as.Date('2014-09-09') for (i in 1:13) { tweets = joinTweets(dia, TRUE, '/Volumes/Backup HD/rommelnc/Dropbox/Research/Política/Servidor Remoto/data/liberdade-seguranca-tweets-', all = FALSE) arquivo = paste0("../../data/liberdade-seguranca-tweets-", dia, "-all.Rda") save(tweets, file=arquivo) dia = dia + 1 } ## Salvando o dia incompleto (ou não, depende da hora que rodar) para ter o que mostrar para Eliane da Folha dia = as.Date('2014-08-31') tweets = joinTweets(dia, TRUE) arquivo = paste0("../../data/politics-tweets-", dia, "-all.Rda") save(tweets, file=arquivo) dia = as.Date('2014-07-13') tweets = data.frame() for (i in 1:6) { print(paste0('Started block ', i, ' at ', Sys.time())) arquivo = paste0("../../data/politics-tweets-", dia, "-", i, ".json") tweets = rbind(tweets, parseTweets(arquivo, simplify = FALSE)) print(paste0('Finished block ', i, ' at ', Sys.time())) save(tweets, file=paste0("../../data/politics-tweets-", dia, '-all.Rda')) } arquivo = paste0("../../data/politics-tweets-", dia, "-", 2, ".json") tweets = rbind(tweets, parseTweets(arquivo, simplify = FALSE)) source('salvaLinkEleicoes.R', encoding='UTF-8') dia = as.Date('2014-08-13') for (i in 1:4) { joinTweets(dia, TRUE) arquivo = paste0("../../data/politics-tweets-", dia, "-all.Rda") salvaLinkEleicoesRda(arquivo) dia = dia + 1 } source('salvaLinkEleicoes.R', encoding='UTF-8') dia = as.Date('2014-08-27') for (i in 1:1) { arquivo = paste0("../../data/politics-tweets-", dia, "-all.Rda") salvaLinkEleicoesRda(arquivo) dia = dia + 1 } library(streamRmongo) library(rmongodb) source('tweetsToMongoBatch.R', encoding = 'UTF-8') arquivos = list.files('../data/', pattern='json', full.names=TRUE) arquivos = list.files('../data/', pattern='2014-09-.*json', full.names=TRUE) arquivos ## Pulei dia 13/07 por estar muito grande ## Pulei dia 13/08 por estar muito grande arquivos = arquivos[-c(1:46)] arquivos = arquivos[-c(1:161)] arquivos = arquivos[-c(10)] for (arquivo in arquivos) { ini = Sys.time() print(paste0('Carregando arquivo ', arquivo)) # tweetsToMongo(file.name=arquivo, ns='twitter.tweets', host='localhost') tweetsToMongoBatch(file.name=arquivo, ns='twitter.tweets', host='localhost') print(Sys.time() - ini) } load(arquivo) arquivo = paste0("../../data/politics-tweets-", dia, "-copa-1.json") tweets = parseTweets(arquivo, simplify = FALSE) jogo = tweets[grep("#BRA|#ALE|#GER", tweets$text, ignore.case=TRUE),] for (i in 2:14) { arquivo = paste0("../../data/politics-tweets-", dia, "-copa-", i, ".json") tweets = parseTweets(arquivo, simplify = FALSE) jogo = rbind(jogo, tweets[grep("#BRA|#ALE|#GER", tweets$text, ignore.case=TRUE),]) remove(tweets) } arquivo = paste0("../../data/politics-tweets-", dia, "-copa-jogo.Rda") tweets = jogo remove(jogo) save(tweets, file=arquivo) remove(tweets) load(arquivo) ## Remover tweets com MTVHottest One Direction dos tweets de eleições arquivo = '../../data/politics-tweets-2014-07-16-to-2014-07-30-all.Rda' load(arquivo) save(eleicoes, file='../../data/politics-tweets-2014-07-16-to-2014-07-30-eleicoes.Rda') errados = grep("MTVHottest|One Direction", eleicoes$text, ignore.case=TRUE) eleicoes = eleicoes[-errados,] save(tweets, eleicoes, topLinksEleicoes, file=arquivo) # tweets <- parseTweets("../../data/politics-tweets-2014-05-23.json", simplify = FALSE) # save(tweets, file='../../data/politics-tweets-2014-05-23.Rda') # load('../../data/politics-tweets-2014-05-23.Rda') # tweets <- rbind(tweets, parseTweets("../../data/politics-tweets-2014-05-17.json", simplify = FALSE)) # tweets <- rbind(tweets, parseTweets("../../data/politics-tweets-2014-05-18.json", simplify = FALSE)) # tweets <- rbind(tweets, parseTweets("../../data/politics-tweets-2014-05-19.json", simplify = FALSE)) # tweets <- rbind(tweets, parseTweets("../../data/politics-tweets-2014-05-20.json", simplify = FALSE)) # tweets <- rbind(tweets, parseTweets("../../data/politics-tweets-2014-05-21.json", simplify = FALSE)) # tweets <- rbind(tweets, parseTweets("../../data/politics-tweets-2014-05-22.json", simplify = FALSE)) # tweets <- rbind(tweets, parseTweets("../../data/politics-tweets-2014-05-23.json", simplify = FALSE)) # save(tweets, file='../../data/politics-tweets-2014-05-16a23.Rda') load('../../data/politics-tweets-2014-05-16a23.Rda') source('funcoesTwitter.R') # eleicoes = tweets[grep("eleicao|eleição|eleicoes|eleições|Dilma Rousseff|Aécio Neves|Aecio Neves|Eduardo Campos|Marina Silva", tweets$text, ignore.case=TRUE),] eleicoes = pesquisarTweets(tweets) # palavras = c("eleicao", "eleicoes", "dilma", "rousseff", "aecio", "neves", "eduardo", "campos", "marina", "silva") palavras = recuperarPalavras() g = criarGrafo(textos=eleicoes$text, remove=palavras) # eleicoes$text <- iconv(eleicoes$text, from = "UTF-8", to = "ISO-8859-1") # Encoding(eleicoes$text) <- "UTF-8" # eleicoes$text = iconv(eleicoes$text, "UTF-8", "ISO-8859-1", sub='') # eleicoes$text # Encoding(eleicoes$text) = 'ISO-8859-1' lista = montarListaUsuarios(eleicoes) tabelas = montarTabelasUsuarios(lista$listaDePara)
Os 10 tweets mais frequentes:
sort(table(eleicoes$text), decreasing=T)[1:10]
Gráficos:
barplot(tabelas$maisFalou[1:10], las=2) title('Os 10 usuários que mais falaram')
barplot(tabelas$maisFalado[1:10], las=2) title('Os 10 usuários mais falados')
barplot(tabelas$maisOcorrencias[1:10], las=2) title('Os 10 usuários com mais ocorrências')
usuariosRTs = montarListaUsuariosRTs(eleicoes) tabela = sort(table(usuariosRTs), decreasing=T) barplot(tabela[1:10], las=2) title('Os 10 usuários que mais foram retweetados (RTs)')
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.