愛車:マツダアテンザ
Webを中心とした、ビジネス&テクノロジーに関する思いつき
by F-shin
[ このサイトについて ] [ F-shinについて ] [ トップ ]
author:えふしん
photo_20.jpg
藤川真一について


モバツイの中の人
マインドスコープ(株)社長
人の良いジョンカビラと言われます。
AMN sponsor rolls
モバツイの2つのスマートフォン
アンドロイドアプリ!
アンドロイドアプリ モバツイtouch
全てのスマートフォンブラウザと、Nintendo3DSで! HTML5版Webアプリ「モバツイsmart」
本を書きました!
100万人から教わったウェブサービスの極意 ~「モバツイ」開発1268日の知恵と視点
Google Friend Connect
このカテゴリ[Web系]の最新30件
インターネットの可能性を信じて〜本を書きました。 ネットショップに20万円は高いという感覚は割と普通の感覚だと思う。 ソーシャルメディアの生かし方 インターネットは芸術だ ECサイトはGoolge検索エンジンのプラットフォームに乗ってることを自覚せよ Ubuntu 8.0.4でTwitter apiのSSL通信ができなくなった人向けのメモ インターネットを支える仮想共同体 twitterとfacebookのレイヤーは違う 文脈が共有できていないフロー型コミュニケーションの問題点 身も蓋もなくなるインターネット フェイスブックページっで起きるかなぁ?!って思ってること。 非公式RTじゃないとできないこと。公式RTが目指したもの。 ツイッターのつぶやき価値 ネットコミュニケーションは万人の手段ではない AWS東京リージョンとtwitter apiの関係 Facebookがインターネットになると困る デジタルネイティブではない30代のつぶやき ネチケットとアーキテクチャという法律のあいだに。 相撲の八百長問題に見られる、ITによるフローのストックという構図 Webエンジニアスキルの勘所 ツイッター面白いね WebSig一日学校で考えてたこと ソーシャルメディアについてのメモ User Streamの先にあるtwitter Web Creation Awardsにノミネートされました。 携帯Webのクッキー利用について調べてみたメモ【update】 twitterドラマと今後のツイッター デジハリの杉山学長賞をいただきました。 日経電子版を流行らせる一つの思いつき 商品の良さとリンクは、140文字で伝えなさい
[このカテゴリをもっと見る]
Powered by
Movable Type

February 17, 2009

何故か障害は出社中に集中する。

会社のエレベーター待ちでモバツイにアクセスすると、いつもと違うエラーメッセージ。

家にいる奥さんに画面を見てもらうと、「execption EMASK」のような文字が出てるとのこと。このキーワードで検索すると、あのHDD突然死のニュースが。

Seagate Barracuda 7200.11のファームウェア問題:ぴろにっき:So-net blog

例の突然死なのかなー。でも、おいらのDBのHDDは、「ST3160815AS」だよ。

「7200.11」じゃなくて、「7200.10」の方。

だからあのニュースが出たときも安心してたんだ。

なお、Webサーバも同じ機種。スペアHDDがあるからわざわざ同じ機種を買った。

こっちも死ぬのか?

現在はモバツイや、このblogのシステムであるMovableTypeのDBも、レプリケーション先のバックアップサーバの方に接続するように変更したからとりあえずサービスは動いてる。

でも、バックアップサーバ(PowerEdge 430C / celeron 2.5GHz)は、今のモバツイのアクセス数には非力でメインのDBサーバと同じぐらい負荷をかけるとCPU使用率がほぼ100%に張り付いてて、サービスに影響が出ていたので、いくばくかのサービスや機能を止めているのが今の状況。

ということで、この状況は長く続けたくないので、帰りにHGSTあたりのHDDを2台ばかし買って帰るしかないかなぁ…。

ファームウエアのアップデートで直ったらうれしいし、Linuxの場合はRAIDが片方死んだだけでOSが落ちるケースもあるそうなので、もしかしたらスペアをつければ直るのかもしれないけど、何も買わずに家に帰って、一晩失うのはもったいない。


今回は年末作業でレプリケーション環境をちゃんと作っておいたのが功を奏し、1hも止まらずにサービスを復旧させてるけど、現状、うちのサーバ環境で、これが止まるとヤバイと言うあたりを自分のためにメモしておく。


1.SSHの接続先サーバが止まったら何もできなくなる。

⇒接続サーバを冗長化しておくべき。NATの設定が変えられないと、フロントのサーバが死んだらにっちもさっちもいかなくなる。
⇒TODO

シリコンディスクによるLinuxマシン欲しいし、どこでもLAN(VPN)経由でWindows環境を常時接続可能にしておくのでも良いかも。

2.DNSサーバが止まったら家の中から障害の切り分けができない。

⇒DNSサーバは分離したいなぁ。DNSが止まると電話越しに何も確認できん。

3.ハブ故障やLANケーブル切断、ルーターが止まったら障害切り分け不可

⇒これはしょうがない。家に帰るまでサービス停止。
先日、実際にハブが壊れて家に帰った。(今日も早退したいよ)

4.Apacheのサーバが止まったらバックアップサーバのapacheに切り替える。
ただしファイル古い。

⇒家にあるMacBookProを組み合わせれば復旧可能だが、普段からちゃんとrsyncしておくべき。
⇒TODO

5.DBサーバが止まったら、バックアップサーバで稼動可能

⇒イマココ

6.バックアップサーバが壊れたら、何個かの機能は止まるが全体に影響なし。

⇒直す。

7.メールサーバが止まると悲しい。

⇒エラーメールが戻る分なら死ぬほど困るわけではない。
普段からフッターにセカンドアドレスを書いておくと良いのかも。⇒TODO

8.ハード構成を外部にメモしておくこと。

出勤中に壊れて何を買って帰ればいいかがわからなくなるケースがありそう
⇒TODO


正直言って、こんな日は仕事にならん!


------------------
追記:
画面上のエラーメッセージを写真で送ってもらった。

HDD(sdc1)のエラーみたいですね。sdc1って、多分、RAIDの片翼だよなぁ・・・。
とりあえず何も買わずに家に帰ってみようかな。

------------------
追記2:
結局、ただのRAIDの片方のHDDが死んだだけというオチでした。

写真を送ってもらって原因が見えていたので、鳥料理屋さんで親子丼を食べて家に帰ってスペアのHDDでRAIDを復旧させ、さきほど2時のバッチが終わったのを見計らってモバツイの緊急メンテを入れる形で、バックアップの更新分をマスターに反映して復旧しました。

RAID1の一台が壊れただけでOSが止まるなんてのは、Windowsなどでは考えられない現象ですが、Linuxだとそういう事もあるみたいです。別に全部のLinuxが落ちるわけではないので、結局、RAIDのチップやらドライバに依存するのでしょうか?!

ソレよりも驚いたのはDBサーバに使っていたHDDは、思っていたHDDと違っていたこと。160GBのドライブかと思ったら、120GBの「7200.7」の世代のシーゲートのHDDでした。こりゃただのHDDの寿命だったかも。ということで、きっと、残り一台のドライブも先行き長くないと思うので、割と最新めの500GBプラッタのHDDを2台注文しました。RAIDは台数を買うので単価が安いことは重要ですね。


Seagate ST3500410AS 500Gプラッタモデル! 500GB SATA接続3.5型内蔵ハードディスク
特価 5,280円


[24時間365日] サーバ/インフラを支える技術 ~スケーラビリティ、ハイパフォーマンス、省力運用 (WEB+DB PRESS plusシリーズ) (WEB+DB PRESSプラスシリーズ)
安井 真伸 横川 和哉 ひろせ まさあき 伊藤 直也 田中 慎司 勝見 祐己
技術評論社
売り上げランキング: 1178
おすすめ度の平均: 5.0
4 細かいtipsは役に立つが…HAの基本は先に知っている必要がある
5 おもしろい!
5 是非読むべき
5 Webサイト運営に携わるエンジニア必読


関連:
F's Garage:モバ ツイッター(mova twitter)のWebサーバをDellからHP ML115G5に入れ替えた。

F's Garage:予算5万円でモバツイッター用MySQLサーバを追加

■同じカテゴリ[Web系]のエントリー
<<前の記事 ツイッターは最強の「ながらコミュニティ」
>>次の記事 検索したいものと現状の技術の限界点
■このblogの書き込み最新3件
インターネットの可能性を信じて〜本を書きました。 バルスのツイート機能に関する謝罪を書いたら沢山反応があった件 モバツイの広告の取り組みについて、発表資料の共有
この記事への提案、提言一覧
この記事への提案、提言









あなたの情報を保存しますか?