雑多なネタを代表東の個人的な関心で書いています。

特許データベース 構築

2016/09/01 1:46 に tomoaki azuma が投稿   [ 2016/09/07 23:43 に更新しました ]


最近プログラミングを趣味として再開してふと特許データベースを自分で作れないかと思いついた。

フルスケールでできるのか、速度はそもそも完成するのかなど?な点は多いがとりあえずここをメモ代わりにしながら進めてみることに。
だれかの参考になればと思うし、もし協力したいという稀有の方がいらしたら是非連絡ください。

ただ数年前から考えると環境は大きく変わり、コスト面やハード・ソフト面からみてもかなり現実的になっているとは思う。


■特許データ

 一昔前はDVDを購入してとかなりの費用と手間がかかったのが、現状ではダウンロードサービスにより無償で入手できる。

 私は人づてでたどりついたのだが、google で「特許庁 ダウンロード データ」としてもいまいち情報があまりない。。(たどり着けなかった方は

 特許庁情報室までお問い合わせください。私に聞いてもらってもよいですが、紹介するだけです・・)

 ただし利用についての目的や計画について説明する必要があるのでただほしいだけという人はもらえなさそう。


■クラウド


 データベース・webサーバーもハードウェアを用意することなくクラウド上に構築できるようになっているので割と気が楽。
 導入コストは格段に下がってはいるがある程度のランニングコストは必要ではある。

■構成


 単なる現状での妄想ではあるが以下の構成で進めてみる

 言語、フレームワーク: python , django
 
  データベース: MySQL + 全文検索システム(調査中)

 サーバー: google cloud



いまのところの疑問としては 既データベースがあれだけ膨大なデータをどうやってキーワード検索しているのかということ。
多分キーワードインデックスを作成しているとは思うのだが中身を知る由はない。

一応今のところ目をつけているのはGroonga, Mroonga



まあとにかくコツコツとやってみます。

特許分類対象ツール

2016/03/03 19:09 に tomoaki azuma が投稿   [ 2016/03/03 19:29 に rise- pat さんが更新しました ]

特許庁のツールで IPC, FI, CPCを対象にして見られるツールその名も「分類対象ツール」 

というのが有るのだがそこで気づいたことが。




 



左から IPC, FI, CPC の分類表が対照で参照できるように並べられている。

このFIの欄に注目すると・・





サブクラス、分冊記号など毎に件数が出ている。これってリアルタイムの件数なのかな。

もしそうならFIを選ぶときの参考になるので、JplatPatにも反映して欲しい。

もしリアルタイムでなくてもこの機能は役に立ちそう。


サーチャー御用達ディスプレイ ?

2016/02/15 1:17 に rise- pat が投稿   [ 2016/02/15 1:18 に更新しました ]


最近ディプレイを EIZOの EV2730Q に変えてみたがなかなか使い勝手がいい。

ドット数が1920x1920の変わり種で正方形の解像度。実際にはやや縦長のディスプレイ。

実際にデスクにおいておくと見慣れない形なのでかなり違和感があるのは否めないが

我々の仕事のためにあるのではと思うくらい使える。

スクエア型のワイド1920×1920解像度

















普段業務ではデータベースを見たり、公報のPDFを見たりするが、どれも縦長の文章なのでいちいちスクロールしたり

サイズ変更したりしなければならないがこれなら十分大きなサイズで一覧できる。



PDFもページめくりするだけでOK。素晴らしい。 クレームチャートを作るときに長い請求項だと構成要素を確認

するために何度もスクロールしたり、そんなことしているうちに記載が抜けていたりなんてこともありがちだが

それも防げて安心。


ただし欠点は 

 値段が高い ほんとうは2台並べて使いたいが結構厳しい。。

 結構形が見慣れないので奇抜に見えて周りから突っ込まれる

 実物を置いている店舗が非常に少ないのでどんなものか確認するのが難しい


といったところだろうか。でもおすすめ。

公開技報の調査 [search]

2016/01/30 3:39 に rise- pat が投稿


一般文献の調査で公開技報を対象にすることがある。

公開技報は大きく分けると 各社が発行しているものと発明推進協会が発行している

ものにわかれる。

前者の各社公開公報はソニーやデンソー、トヨタなど各社から出ており、図書館等で

閲覧することができる。代表的なところでいえば国会図書館で国会図書館の蔵書検索 ここ

で「公開技報」、「技術公開集」などで検索すればいくつかヒットする。


もちろんそれらを手めくりするというのも悪くはないとは思うが思いのほか労力が

かかる。それ以外の方法としては当然ながらデータベースを利用して調査すること

になる。各社の公開技報調査に利用できるデータベースは自分の知っているところでは


が一番有力だろう。一部特許DBに収録されていたりというのはあるがこれよりは劣っていると感じる。



JDream3で検索して気になる文献を確認して、その周辺の文献を手めくり調査というのが

一番妥当なところではないだろうか。

フルに手めくり調査をするにはある程度のノウハウがいると思うが、やる人もそんなにいない

だろうからとくに触れないでおこう(まあ営業上のノウハウということもありますが)。

発明推進協会の公開技報はまた気の向いたときに書きます。


google prediction [program]

2016/01/26 7:23 に rise- pat が投稿   [ 2016/01/26 7:30 に更新しました ]

google predictionが面白そう。

"google prediction"は google が提供する 機械学習のAPIで教師付き(つまり正解ありの)学習をさせることで

あらたなデータの入力に対して分類を行うことができる。ビックデータの処理には機械学習が効果的で、特許

などは膨大な量のデータがあるので向いていると思う。

とりあえずサンプルは動かせたが、このチュートリアル説明にもあるようにすごく大事で骨が折れるのが学習データの作成。

データの構造を考えるのはもちろん、フォーマットを合わせてCSVを作るのが面倒。。これ自体でプログラムが

いるな。。


1-5 of 5