LINUX

SSDに換えたった

中古レッツノートが安かったので購入して、SSDに換装した。 こちらを参考にしたらドライバー1本で換装可能である。SSDについては東芝製のものが評価が高いようだが、Crucial のものも相性的にはよさそう(これとかこれとか)ということで買った。 7mm SSDはレ…

GF(仮)のキャラがニーソなのかどうなのかを Deep learning を使ってなんとか知りたい

GF(仮)を見てる。 クロエ・ルメールのようなニーソキャラが好きなのだが、これをどうにかキャラプロフィールから推定できないか…と思っていたら MNIST手書き文字データをdeep learnignで分類するっていう、あの有名なやつを、Rパッケージであるh2oでやる、と…

Twitterの投稿時間分布から考える声優のあれこれ

これとこれ(取り下げになってるけど)に触発されて次の声優統計ネタにしようと思ってやってみる。 Twitterの投稿時間分布が似ていれば、生活習慣が似ているだろうし、アフレコとかラジオとか仕事がちょっとはかぶっているだろうし、男と女の関係を邪推したり…

TwitterからTweetの取得

Twitterから声優のtweetをひたすら収集するプログラム。 昔やったときは直近200tweetしか取れない、と思っていたら、ID指定でそこからさかのぼれることが判明した。というわけでIDごとにループするようになっている。 連続で取得しすぎるとAPIで弾かれるらし…

声優Twitterのアカウント収集

声優さんのTwitterアカウント一覧.comのトップページを保存してhtmlテキストからアカウント名と声優名を取ってくるPythonスクリプト。 twitter_cv_list.txtというcsvファイルができる。 2014年10月15日現在で女性266人、男性122人取得した。 import re # inp…

光の早さでsentence2vec使ってみた。

sentence2vec 動かした - laughingのブログに触発されて、昔やったword2vecの拡張版っぽいやつのsentence2vecをやってみる。 最近メタアナリシスに忙しいので論文は全く読まずにライブラリを使ってやっちゃうダメなやつである。 コーパスはとある医療系テキ…

PDFファイルをいじる

こちらとこちらを参考に、pdftk というコマンドで色々できる。

Rstanのインストール

巷で話題のRstanをインストールだけしておいた。 OSはubuntu 12.04 LTS. なんか困ったらhttp://heartruptcy.blog.fc2.com/かAnalyze IT.を見れば問題ない。 # 依存関係 install.packages("inline") install.packages("Rcpp") install.packages("coda") # あ…

ubuntuのセットアップ

PCが壊れて往生したので今更ながらubuntuのインストールについて書く。 ubuntuのインストールメディアを取ってくる。 16GBくらいある適当なUSBを買ってくる。 USBにデータを移して、unetbootinとUniversal USB InstallerでUSBからOSインストールできるように…

Rで始めた医学・統計学・Bioinformatics

という本を書いた。Rで始めた医学・統計学・Bioinformatics作者: Med_KU出版社/メーカー: Med_KU発売日: 2014/03/17メディア: Kindle版この商品を含むブログ (1件) を見るアマゾンKDPから買うと文字化けするため、こちらでは買わず代わりにとらのあなかMelon…

電子書籍化

texで書いているものを電子書籍化するのに、epub形式にしないといけないと思っていたらhtmlでもいいらしく、pdf2htmlEXでいけた。これならepsをpngにするという作業もいらず、pdfそのままのレイアウトでhtmlで閲覧できるのでこれで勝つる!! # ubuntu でのイ…

Pythonの入力自動補完

UbuntuでPythonを使っていてイラッ☆とくるのが、Rみたいにタブキーで入力補完ができないということ。 だとしたらこれ、絶対解決に乗り出している人がいると思ったらいた(1, 2)のでやってみる。 Ubutuなら /etc/python.xxx/ に sitecustomize.py というスクリ…

GRAph ALigner Algorithm (GRAAL) を真面目にやる

GRAALをもう一回真面目にやってみる(Cancer Inform, J R Soc Interface, Bioinformatics)。 アルゴリズムとしては、ふたつのネットワークとについて(のほうがノード数が少ない)、内のすべてのノードを、内のノードに完全に一対一対応させることを目的とする(…

GRAph ALigner Algorithm (GRAAL)

GRAph ALigner Algorithm (GRAAL) (wiki)という、ネットワーク同士の相同性(align)を計算してくれるアルゴリズムがある。 # graph 1 edgelist 1 3 1 4 1 6 4 6 5 6 # graph 2 edgelist 1 3 1 4 1 6 2 3 2 4 4 6 5 3 これらを gw format に変換する。 # ター…

タンパク質間相互作用と分子動力学シミュレーション

タンパク質間相互作用と分子動力学法をやるプログラムの簡単なセミナーに出たのでやってみる。 たぶん日本語のブログでは初の記事ではないかと制作者も言っていた。 必要なプログラムのインストールは一番下。推奨OSはUbuntu 12.04 LTS。 リリース 12.04 (pr…

SVGを各種画像に変換

Rでよく svg で出力するのだが、これを png や tiff に変換したいことがあってどうしようかと思ってたら、コマンドでできるらしい。 Batikから batik-1.7.zip (20121112最新)のソースをダウンロードしてきて、ホームディレクトリかどっかにおいて解凍してお…

CPUの温度を調べるコマンド

CPUの温度が調べられると教えてもらったのでやってみる。 sudo apt-get install lm-sensors sudo apt-get install hddtemp エラーが出まくったのでこの2つがあればいけるっぽい。 sudo sensors acpitz-virtual-0 Adapter: Virtual device temp1: +51.9°C (cr…

MeCabの辞書をはてなキーワードで充実させるのにものすごい苦労した話

MeCabの辞書を充実させて、名詞、特に人名が途中でぶった切られる事態を回避したいという話。 MeCabの辞書にはてなキーワードを追加しようを参考に、はてなキーワードの登録単語ライブラリをパクってきてMeCabユーザー辞書に入れる。 データはHatena Develop…

初音ミク解析

LDAをやってみたわけだが、それなら初音ミクの歌の解析をしたいと思い そうしたら初音ミクの歌詞のデータベースがあるらしいのでそこから歌詞を抽出しようと思って そうしたら投稿日やP情報も取れることに気づいたので、時系列解析や共演関係などのネットワ…

Pythonでプログレスバー

RでやったらPythonでもやってみたくなる。 ここからパクった。 print で出す方法もあるみたいだがとりあえず progressbar モジュールを使ってみる。 from progressbar import * widgets = ["progress:", Percentage(), Bar()] maxval = 1000000 pbar = Progr…

HTMLファイルからデータの抽出

データを取得したわけだが、ここから病院紹介文や給与などを抽出しよう。 まず、作業ディレクトリpmet2013を作り、そこにhtmlファイルがたくさんあるとする。 保存したファイルと病院名を取得する。 #ターミナル ls *html > hospital.txt HTMLファイルにはい…

臨床研修病院解析

卒後医師臨床研修という制度が、文部科学省のお達しである。 全国の医学生はマッチングと呼ばれるアルゴリズムによって就職活動を行う。このシステムはマッチング協議会によって行われる。 これはいわゆる就活なので、医学生たちは病院見学に行ったり実習に…

形態素解析MeCab

文章の解析で形態素解析というものがあるらしい。 ググればソフトウェアがいくつか出てくるが、その中でMeCabというものが使いやすそうだった。 JUMANはUbuntuターミナル上でのエンコーディングの問題で文字化けが解決しなかったのでMeCab推しでいこう。 イ…

Mac OSXのRで日本語をプロットしたい

R13.2なのだが、Macでプロットするとき、日本語がたいてい化ける。 テキストエンコーディング?なにそれおいしいの?という情弱っぷりなので、グーグル先生に聞いた。 R、日本語、プロット、なんかでググるとたくさん出てきた。生態学のデータ解析 - R 作図の…

Next Generation Sequencer Analysis for DNA Methylation

次世代シークエンサー(以下、NGS)を使ったメチローム解析をやりたいメモ。 適宜追加する方針だが、まとめがこのページになればいいな。1. はじめに 2. 情報サイト

並列コンピュータ

メモリが激安という話をしていたら教えてもらった話でメモ。 GPGPUプログラミング

ファイル書き出し

cp former.file latter.file # 前に置いてあるファイルを後ろに置いてあるファイルにコピーする。 cat file1 file2 file3 ... > files # 並べたファイルをfilesに書き出す。ワイルドカードと組み合わせたら大量ファイルを扱えそう。

ワイルドカードについて

ワイルドカードというものがあるらしい。 ? 任意の1文字。ただし,ドット・ファイルのドット"."は除く * 0文字以上の文字列。ただし,ドット・ファイルのドット"."は除く [ ] [ ]内の任意の1文字。ハイフン"-"により文字範囲を指定できる { } { }内の任意の…

PythonというかLINUX(なのか?)を始めてみた

バイオインフォマティクスっぽいことを始めるために、PythonとBioPythonを先生から勧められたのだが、なんかファイル操作の練習課題をもらったので、PythonをやっているとなんかLinuxの知識が必要っぽい。 そこで先生やNKのブログをググっていたら、なんかい…