Y's note

Web技術・プロダクトマネジメント・そして経営について

本ブログの更新を停止しており、今後は下記Noteに記載していきます。
https://note.com/yutakikuchi/

Python

地域データの構造化テキストを公開しました。

[asin:B003VWCBXI:detail] はじめに 読み仮名データの促音・拗音を小書きで表記するもの - zip圧縮形式 日本郵便 駅データ 無料ダウンロード 『駅データ.jp』 最近は専らデータの整形屋になっている@yutakikucです。今日は日本郵便株式会社と駅データ.jpに掲…

急上昇Buzzword抽出器

Buzzword抽出 先日Yahooさんの検索ランキングがリニューアルされたこともあり、今流行っているBuzzwordを自動抽出可能なプログラムを作成します。Buzzwordを抽出する対象はYahoo検索ランキング、Googleトレンド、Naverトピックワードランキング、kizasi、Twe…

業種別企業の平均年齢と年収の辞書データを公開しました

平均年齢と年収の辞書データ 企業別の平均年齢と年収のデータをネットで探していたのですが、リストとしてまとまっているものが無かったので作成しました。以前作成した業種別企業名辞書の企業コードを基にYahoo!ファイナンスから平均年齢と年収のデータを引…

Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出

入門 自然言語処理作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人 クリック: 639回この商品を含むブログ (44件) を見る TF・IDF計算 自然言語処理…

業種別企業名辞書データを公開しました

Web解析Hacks ―オンラインビジネスで最大の効果をあげるテクニック & ツール作者: Eric T. Peterson,株式会社デジタルフォレスト,木下哲也,有限会社福龍興業出版社/メーカー: オライリー・ジャパン発売日: 2006/11/08メディア: 単行本(ソフトカバー)購入: …

JSONを見やすく表示するにはPythonの-mjson.toolを使うと良いよ

Python クックブック 第2版作者: Alex Martelli,Anna Martelli Ravenscroft,David Ascher,鴨澤眞夫,當山仁健,吉田聡,吉宗貞紀出版社/メーカー: オライリー・ジャパン発売日: 2007/06/26メディア: 大型本購入: 11人 クリック: 423回この商品を含むブログ (85…

「魔法少女まどか☆マギカ」の台詞をNLTK(Natural Language Toolkit)で解析する

目次 魔法少女まどか☆マギカ NLTK NLTKコーパス まど☆マギ台詞単語解析 まど☆マギ台詞形態素解析 魔法少女まどか☆マギカ NLTK練習の題材として2011年の大ヒットアニメ?「魔法少女まどか☆マギカ」の台詞を用いる。通称まど☆マギで知られる本作品であるが、第…

美女サイトのデータハッキング方法をまとめてみた

美女サイト 美人時計 http://www.bijint.com/ 美女暦 http://www.bijogoyomi.com/ 今更ではあるが2つのサイトのデータをハッキングしてみた。 以下の内容を試す場合は自己責任でお願いします。また内容はすぐに消す可能性があります。 美人時計の画像 数分置…

AES暗号のまとめ

AESとは 共通鍵暗号方式の一つ。http://ja.wikipedia.org/wiki/AES暗号 共通鍵暗号方式にはブロック暗号とストリーム暗号が存在し、AESはブロック暗号方式。 ブロック暗号方式は固定長のブロックデータを単位として処理をする。 一般的にブロック暗号方式は…

Date/Timestamp変換のまとめ

2013/07/17追記 @yutakikuchi_です。 ※本記事の内容より詳しいものを書きました。 誰もが一度は陥る日付処理。各種プログラミング言語におけるDateTime型/TimeStamp型の変換方法のまとめ - Yuta.Kikuchiの日記 概要 Mysqlからアプリケーションで日付情報を引…

Pythonでbase64エンコード・デコードする方法

import base64でできる バイナリデータをASCII文字列化する手段の一つであるbase64encode・decodeをpythonでやる方法。import base64によりすごく簡単にできる。エンコード:base64.b64encod、decode:base64.b64decode。Paddingには'='が使用される様子。以下…

MongoDBをpythonから利用する

MongoDB 特徴 アメリカの10gen社によってC++で書かれたドキュメント指向データベース。 DBへのアクセスはJavascriptによって行う。 ドキュメント指向データベースとは、自由なデータ構造のドキュメントを登録する事が可能。 MongoDBのデータベースはそれぞれ…

Mobile-UserAgent検索システム

概要 Mobileサイト開発者向けのUserAgentの検索、一覧表示、useragentswitcher用のxml-dumpが可能です。 モバイル端末(SmartPhone含む)をサポートしています。 キャリアの公式サイトなどを自動的にクローリングしてデータを生成しています。 一覧取得のWebAP…

WordPressをGoogle App Engine上で動かす

WordPress on Google App Engine WordPressを手軽にGoogle App Engine上で動かすためのOpen Sourceがあります。 PyPress For GAE http://github.com/mdmcginn/pp4gae 手順は以下に細かく書いてあります。 https://github.com/zrenx/pp4gae#readme※設定が簡単…

Pythonでの暗号化/復号化(AEC-DES,RSA)

概要 Pythonで文字列の暗号化を行う場合は、Python Cryptography Toolkitを利用すると簡単に実装ができます。 Python Cryptography ToolkitはGoogle App Engineでもサポートされています。 http://www.amk.ca/python/code/crypto.html http://code.google.co…

超絶簡単 Pythonでの正規表現

概要 Pythonでの正規表現の使い方についてまとめます。 r'a'表記 raw string表記を示します。余分な\を省くことが可能です。 例えば改行はr'\n'とすれば正規表現として扱うことが出来ます。 メソッド メソッド 役割 match 正規表現が文字列の先頭と一致する…

超絶簡単Pythonクラスのまとめ

概要 このページではPythonのクラス定義および使い方について簡単にまとめます。 紹介する項目は次のものです。 クラス定義 継承 階層定義 1.クラスの定義 クラスファイル #! /usr/bin/env python # -*- coding: utf-8 -*- class SuperClass(object): #class…

5分で理解するPython文字コード

概要 Pythonの文字コード指定による日本語文字化けの問題は誰もがハマるところ。 この記事では文字化けの解決方法を簡単にまとめたものになります。 実行環境はMacです。UnixやLinuxでもPath以外の箇所は同じように動作すると思います。 間違いの指摘などあ…

Google app engineでBeautifulsoupを使う

概要 GAEでHTMLをパースして加工したいのでBeautifulsoupというモジュールをインストールして使う。 デフォルトGAE環境では利用できないのでBeautifulsoupファイルをアップして使う。 環境 System環境 : iMac.local 10.4.0 Darwin Kernel Version 10.4.0: Fr…