Python

声優のプロフィール

心優しいお方が手助けしてくれました。 rvest で声優の男女データをスクレイピング #rstatsj - Qiita 持つべきものはプログラミング能力高い人だね!! 解析用に声優の年齢や所属事務所などのデータを取ろうと思った。 例によって.lainからデータをパクってく…

Twitterで声優のフォローリストを取得する

こちらを参考に一回200人の取得をAPIに引っかからないように取得する。フォローしている人(friends)もしくはフォローされている人(followers)で別個に取得できる。有名人ならたいていfollowersが万人規模になるので、取得するだけでくっそ時間がかかる。 # …

Twitterの投稿時間分布から考える声優のあれこれ

これとこれ(取り下げになってるけど)に触発されて次の声優統計ネタにしようと思ってやってみる。 Twitterの投稿時間分布が似ていれば、生活習慣が似ているだろうし、アフレコとかラジオとか仕事がちょっとはかぶっているだろうし、男と女の関係を邪推したり…

TwitterからTweetの取得

Twitterから声優のtweetをひたすら収集するプログラム。 昔やったときは直近200tweetしか取れない、と思っていたら、ID指定でそこからさかのぼれることが判明した。というわけでIDごとにループするようになっている。 連続で取得しすぎるとAPIで弾かれるらし…

声優Twitterのアカウント収集

声優さんのTwitterアカウント一覧.comのトップページを保存してhtmlテキストからアカウント名と声優名を取ってくるPythonスクリプト。 twitter_cv_list.txtというcsvファイルができる。 2014年10月15日現在で女性266人、男性122人取得した。 import re # inp…

光の早さでsentence2vec使ってみた。

sentence2vec 動かした - laughingのブログに触発されて、昔やったword2vecの拡張版っぽいやつのsentence2vecをやってみる。 最近メタアナリシスに忙しいので論文は全く読まずにライブラリを使ってやっちゃうダメなやつである。 コーパスはとある医療系テキ…

意識高すぎて休日にword2vecをいじるしかやることなかった

word2vecという、ニューラルネットワーク的なことを用いて文書集合からコーパスを構築して、単語のベクトル演算ができるようになる手法があるらしい。 艦これ加賀さんから乳を引いてみるという話を聞いてスゲー!!ってなったので、Twitterでやってみたとか英…

Rで始めた医学・統計学・Bioinformatics

という本を書いた。Rで始めた医学・統計学・Bioinformatics作者: Med_KU出版社/メーカー: Med_KU発売日: 2014/03/17メディア: Kindle版この商品を含むブログ (1件) を見るアマゾンKDPから買うと文字化けするため、こちらでは買わず代わりにとらのあなかMelon…

RefSeqのNM ID

RefSeqのmRNA IDであるNM_nnnnnがどの遺伝子に対応しているのかいまいちわからなかったのでゴリ押しした。 NCBIからデータベースをnucleotideにして、 "Mus musculus"[Organism] AND NM_000000[PACC] : NM_999999[PACC] と検索すれば、マウスのNM IDのものを…

Pythonの入力自動補完

UbuntuでPythonを使っていてイラッ☆とくるのが、Rみたいにタブキーで入力補完ができないということ。 だとしたらこれ、絶対解決に乗り出している人がいると思ったらいた(1, 2)のでやってみる。 Ubutuなら /etc/python.xxx/ に sitecustomize.py というスクリ…

クリスマス声優監視2013 Twitter結果

毎年恒例のクリスマス声優監視が各所で行われているので、今年は便乗してみた。 声優さんのTwitterアカウント一覧.comと声優 - Twitterアカウント一覧をクローリングして声優のTwitterアカウントを取得し、夜のtweet回数をカウントした。 アカウントが存在し…

GRAph ALigner Algorithm (GRAAL) を真面目にやる

GRAALをもう一回真面目にやってみる(Cancer Inform, J R Soc Interface, Bioinformatics)。 アルゴリズムとしては、ふたつのネットワークとについて(のほうがノード数が少ない)、内のすべてのノードを、内のノードに完全に一対一対応させることを目的とする(…

GRAph ALigner Algorithm (GRAAL)

GRAph ALigner Algorithm (GRAAL) (wiki)という、ネットワーク同士の相同性(align)を計算してくれるアルゴリズムがある。 # graph 1 edgelist 1 3 1 4 1 6 4 6 5 6 # graph 2 edgelist 1 3 1 4 1 6 2 3 2 4 4 6 5 3 これらを gw format に変換する。 # ター…

ニコニコ動画のボーカロイド共演ネットワーク

VOCALOIDのタグを付けて投稿される動画は爆発的に増えている。 タグの共起を抽出してネットワークを描いた。初音ミクが中心にくることは予想に難くないので初音ミクのところを拡大した。 共演ネットワークはいわゆる複雑ネットワークになるだろうと思ったら…

初音ミクの流行解析をDTMで

昔、声優統計でDTMをしたのだが、その下準備に初音ミクでDTMをしようとしてしたはいいけど結果を書いてなかったので書く。 結果としてはよくわからんがこんな感じのトピックを抽出した。 Topic 6: 元気な歌? タ,意味,とか,かご,分かる,穴,気がつく,se,なんか…

Twitter解析

声優統計第三号がC85に当選となったのでネタとしてはTwitterを解析しようと思った。 ということでまずはデータ取り(タイムライン取得)をやる。 結論としてはRでやるよりPythonでやるほうがよかった。あとはAPIがバージョンが変わったとかなんとかでたくさん…

声優統計第二号 トピックモデルを用いたニコニコ動画コメントデータの声優トピック流行推移解析

結果 処理 DTM解析

47の心得シリーズをトピックモデルで分類する。

「本当に」医者に殺されない47の心得というシリーズ物があって、これをトピックモデルで解析する。 ざっと読んだ感じ、臨床検査と薬剤の使い方について言及しているものが多いので、こんな感じでトピックが抽出できたらいいと思う。 本当は30くらい溜まった…

A4で分かるこのブログの半年

MeCabの辞書をはてなキーワードで充実させるのにものすごい苦労した話

MeCabの辞書を充実させて、名詞、特に人名が途中でぶった切られる事態を回避したいという話。 MeCabの辞書にはてなキーワードを追加しようを参考に、はてなキーワードの登録単語ライブラリをパクってきてMeCabユーザー辞書に入れる。 データはHatena Develop…

初音ミク解析

LDAをやってみたわけだが、それなら初音ミクの歌の解析をしたいと思い そうしたら初音ミクの歌詞のデータベースがあるらしいのでそこから歌詞を抽出しようと思って そうしたら投稿日やP情報も取れることに気づいたので、時系列解析や共演関係などのネットワ…

Pythonでプログレスバー

RでやったらPythonでもやってみたくなる。 ここからパクった。 print で出す方法もあるみたいだがとりあえず progressbar モジュールを使ってみる。 from progressbar import * widgets = ["progress:", Percentage(), Bar()] maxval = 1000000 pbar = Progr…

HTMLファイルからデータの抽出

データを取得したわけだが、ここから病院紹介文や給与などを抽出しよう。 まず、作業ディレクトリpmet2013を作り、そこにhtmlファイルがたくさんあるとする。 保存したファイルと病院名を取得する。 #ターミナル ls *html > hospital.txt HTMLファイルにはい…

臨床研修病院解析

卒後医師臨床研修という制度が、文部科学省のお達しである。 全国の医学生はマッチングと呼ばれるアルゴリズムによって就職活動を行う。このシステムはマッチング協議会によって行われる。 これはいわゆる就活なので、医学生たちは病院見学に行ったり実習に…

形態素解析MeCab

文章の解析で形態素解析というものがあるらしい。 ググればソフトウェアがいくつか出てくるが、その中でMeCabというものが使いやすそうだった。 JUMANはUbuntuターミナル上でのエンコーディングの問題で文字化けが解決しなかったのでMeCab推しでいこう。 イ…

PythonでIsotonic regression

Isotonic regressionの応用を考えているが、Rでは少し問題があるのでPythonでやってみようと思って挫折していたのだがなんか急にやる気が出てきたのでやった。 環境はUbuntu 12.04 64bit, Intel Corei5-2540M CPU 2.60 GHz * 4. まずはインストール。 sudo a…

Pythonの出力結果を利用したいのだがprintすると[]が邪魔

出力結果をtxtとかexcelで利用したいのに、printを何も考えずに使うと x = ["1","2","3","A","B","C","p","q","r"] print x # 結果 ['1', '2', '3', 'A', 'B', 'C', 'p', 'q', 'r'] となって、[ ] とか ' がぶっちゃけ邪魔。 print ",".join(x) と書くと # …

Pythonで欲しい文字列を抽出する

Pythonを使ってファイル操作、文字列の抽出の練習。 公共のデータベースから Send to > File > Format; Synonyms(txt) > Create File で、pcsubstance_result.txtというファイルを入手しました。 簡単に中身 1. ZINEB; zinc ethane-1,2-diylbis(dithiocarbam…

Pythonでモンテカルロ

Pythonで何か書いてみる練習。 でモンテカルロして円周率を求める。 import random # 擬似乱数発生 import math # 数学関数 trials=1000000 # やれるだけ res=range(0,trials) for i in res: x=random.random() y=random.random() z=math.pow(x,2) + math.po…

ファイル書き出し

cp former.file latter.file # 前に置いてあるファイルを後ろに置いてあるファイルにコピーする。 cat file1 file2 file3 ... > files # 並べたファイルをfilesに書き出す。ワイルドカードと組み合わせたら大量ファイルを扱えそう。