病みつきエンジニアブログ

機械学習、Python、Scala、JavaScript、などなど

jedi-vimでanacondaのパッケージを補完させる

davidhalter/jedi-vim VimでPython環境をいい感じに整える | tekkoc'blog jedi-vimという、vimで(賢く)Pythonの補完などをしてくれるプラグインがあります。vimでPython書くなら必須かも、というレベル。 当たり前(?)の話ですが、pipでインストールしたよう…

株式会社CyberZで働くことになりました/後輩の方々にお願い

株式会社サイバーエージェントに入社し、早期配属をすることができ、株式会社CyberZで働くことになりました。 CyberZは、サイバーエージェントの子会社で、スマホ向け広告効果計測ツールを作っている会社です。 CyberZで何をしたいかというと、ざっくりと言…

Theanoを使ってPythonで行列演算とロジスティック回帰

TheanoというPython用のライブラリがあります。 ちょっと勉強したので、チュートリアルを日本語に翻訳しつつ、使い方とかを紹介します。 Theanoとは まずはじめにTheanoとは、について。 Theanoはおそらく「テアノ」と読むのが多分正しいです。ピタゴラス(Py…

ニューラル言語モデルは何を目的としているのか? 〜 「A Neural Probabilistic Language Model」を途中まで読んだ

word2vecでさんざん遊んだ皆さん、こんにちは。 今日は、word2vecの元になった論文の元になった論文の先行研究になっている論文「A Neural Probabilistic Language Model(Yoshua Bengio)」の紹介です。 word2vecは、単語の素性で足し算・引き算ができたり、…

LDAを使って、Twitterでスパムに使われそうな単語を推定する

教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ の続きになります! モチベーション 前回の記事で、LDA(latent Dirichlet allocation)のモデルを獲得したので、獲得したモデルを使って「どんな単語がスパムによく使わ…

.gitignore作るなら、giboを使おう

最近技術研修でJavaやってます。 で、.classとかをコミットしてしまう人が居て、そこは.gitignoreをちゃんと設定すべき、です。 で、「ちゃんと.gitignoreを作る」って結構面倒くさいです。例えば、Macだったら .DS_Store を.gitignoreするべきだし、Javaだ…

文章読むとき、選択しながら読む人いるよね?

これ俺のことなんだけど。 ときどきはてなスター見ると、文章の変なところ選択して、はてなスターが付けている人がいる。 これって、多分、選択しながら文章読んでて、うっかりはてなスターつけちゃった人なんじゃないかと思うわけですよ。

ニューラルネットによる単語のベクトル表現の学習 〜 Twitterのデータでword2vecしてみた

最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。 理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。 ちなみに、失敗した話…

教師なしLDAでTwitterのスパム判別をしてみる(予備実験編)

※普通は「教師なしLDA」という言い方はしないです モチベーション 元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(?)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニング…

一ヶ月間、ロックスター・エナジー・ドリンクを飲んで気づいたことがある

レッドブルのほうがおいしい・・・

OpenBLASを使うと、multiprocessingが使えない?

numpy/scipyは、別に全ての演算がpythonで実装されているわけではなくて、内部的にはBLASとかを呼び出している(多分)。で、普通だったらATLASのようなBLAS実装が使われると思うんだけど、それだと遅いからOpenBLASみたいなBLAS実装を使いたかったりする。(参…

2014年のJavascriptやCSS、最も楽しみな5つのテクノロジーは、asm.jsと、、、

Web platform: five technologies to look forward to in 2014 上記の記事にて、「ウェブプラットフォームで待ち遠しい5つのテクノロジー」が紹介されています。 asm.js: near-native performance on the web ParallelJS: parallelized JavaScript code ECM…

Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる!

今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師デー…

年の瀬なのでGoogle作ったソフトのリポジトリ(github.com/google)まとめてみた!

google (Google)には、いろいろとすごいソフトウェアがあるようだったので、まとめてみました。ぜひとも開発に活かしたいです。 photo by Aray Chen ★の多い順に紹介してみます。ちなみに1つも使ったことがないので、そこは割り引いてください。 Gumbo - A …

「統計学が最強の学問である」をおすすめしてみる

※本記事はCA14 Advent Calendar 2013の12/24の記事になります。メリークリスマス! 本当はハッカーと画家とかリーダブルコードとかエルフェンリートとかBLACK LAGOONが普通におすすめなんですが、せっかくのCA14アドベントカレンダーなので、CAの同期に向け…

外出ソン(?)をします

こんばんは。今日は極めて私的なことを。 12/17(火)より、「外出ソン」というのをすることとしました。 マラソンにちなんで「42日連続で、日が出てるうちに外に出る*1」というチャレンジです。 理由としましては、この1−2ヶ月ほど体調を崩していたことなど…

OS X MavericksでFilezillaがインストールできなかった問題の対処

FileZilla - The free FTP solutionをダウンロードして開こうとすると、「Filezillaは開けません」みたいなことを言われる。セキュリティに関する設定が変わったみたい? Attachment – FileZilla なので、セキュリティーに関する設定を変えなきゃいけない。 …

IVSで優勝した「Capy CAPTCHA」は脆弱すぎると思う

Capy CAPTCHAは一瞬で突破できる - 素人がプログラミングを勉強していたブログ という記事を見て「これなら俺も一瞬で突破できそう」とか思って挑戦してみた。惨敗だった() しかし画像処理技術や機械学習の技術を使わなくても、理論的に、容易に突破可能なは…

コンテンツを無料で公開しないのは、「リスク」になる時代かもしれない/あるいは俺がPerfumeのライブに行きたい話

最近、Perfumeを頻繁に聞いている。なぜ聞いているかというと、Youtubeで聞けるからだ。PCで作業しているときにわざわざiPod touchを出したりはしないし、容量的に取り込んだ音楽をMacに保存しておきたくもない。そうすると、お手軽に再生できるYoutubeを開…

もっともっと良いコーディングをするための勘所8つ

先日とあるコードレビューを拝見することがあったのですが、それにインスパイアされて記事を書いてみます。レビュワーの方が言ったことも含んでいますが、それと必ずしも一致するものでもありません。 Objective-Cのコードで書いていることが多いですが、わ…

Pythonでお手軽デバッグ

Pythonには pdb というデバッガーがついています。名前からてっきり gdb みたいな、化石みたいなインターフェースしか持ってないのかと思ったら、コード中に貼り付けて止めることもできるみたい(ちょうどrubyの debugger みたいな)。 そのためには pdb.set_t…

OSX MavericksにアップデートしたらCのヘッダーが見つからなくなった

Lion -> OS X Mavericksにアップデートしたら test.c:1:10: fatal error: 'stdio.h' file not found #include <stdio.h> ^ 1 error generated. ということで、Command Line Toolsをデブセンからインストールする必要がありました。多分。 Download for Apple Develope</stdio.h>…

データを自由に使えるWikipedia系サービス調べてみたよ

実験等に使うWikipediaのデータセットを調べていたら、データを自由に使えるWikipedia系サービスをいくつか発見したので、簡単に紹介します。 Wikipediaのデータベースについて Wikipedia系サービスの文書等は主にクリエイティブ・コモンズライセンスでライ…

毎月読んだIT系ニュースをまとめることにした+9月に気になったニュースまとめ

photo by CPOA 自分にできる貢献ってなんだろう、と考えて、「自分の知識を分配しよう」ということに至った。詳細はFacebookに書いたけれども。 実際には全部Twitter(@yamitzky)に書いているんだけど、まあそうそうチェックできるわけでもないだろうし、まと…

気がついたら22歳になっていたので、JX通信社の1年を振り返ってみた

羽田空港からこんにちは! 先日、8月30日をもちまして、気がついたら22歳になっていました。なんだか、18歳のときとか、20歳のときとかと違って、なった瞬間に、特別な感慨などもなく、本当に「気がついたら」という感じの22歳でした。 私にとって21歳の1年…

アプリをパクって何が悪いんですか?

っていうタイトルにすると炎上すると聞いたので・・・(震え声) 最近、アプリのパクリについていろいろ起きているようです。 スマホアプリ市場でパクリが横行していて凄いことになっています 「違法パクリアプリ」製造元を追う 似たような問題は前にもあった…

農業のリアルな問題をちょっと感じてみたよ

お盆で、祖母の家に帰省しています。 祖母の家は、山梨県南アルプス市にあります。山梨県と言えば、ぶどうと桃の産地ですが、祖母の家では、桃とかさくらんぼ等を主に栽培しています。 個人的には、日本の農業は衰退していくだろうーとか、TPPが来ても市場原…

プライバシーに関する意識は歪み過ぎてる

最近、個人情報に関する事案が結構多くて、ネット全体で見ると結構歪んでいるなーと感じるので、整理がてら書いてみます。 まず、ここで上げる「個人情報に関する事案」というのは、ネット上での「個人情報」についての話で、例をあげると下の2つみたいな問…

情報系実験をやりやすくするアイディア

※先に言っておくと、がーーーーーーーーーっとアイデアを書いて、「あ、いけそう」と自己完結するエントリーである。しかし、皆様のアイデアを頂きたく、とりあえず考えながら書いた。 情報系実験の常なのか、それとも僕が悪いのかわからないが、情報系実験…

mixiのアプリの設計がよくわからない

よくわからないんだけど、誰に聞けばいいのかもわからなかったので、ブログに書いてみる(issueに書くのも違うような…)。助けてください、mixiの社員の方>< 先日、mixiが「Android Training」と「iOS Training」という、アプリ開発初心者向けのドキュメント…